DeepSeek整顿AI圈,GPU增长焦虑如何解?

价(jià)格(gé)亲(qīn)民(mín)的(de)DeepSeek-V3及(jí)R1分(fēn)别(bié)在(zài)2024年(nián)12月(yuè)和(hé)2025年(nián)1月(yuè)上(shàng)线(xiàn),随(suí)之(zhī)而(ér)来(lái),全球(qiú)最(zuì)大(dà)数(shù)据(jù)中(zhōng)心(xīn)GPU供(gōng)应(yīng)商(shāng)英(yīng)伟(wěi)达(dá)的(de)股(gǔ)价(jià)和(hé)市(shì)值应声下挫。根据Stock Analysis数据,以月为单位,英伟达市值在2024年12月和2025年1月分别下降2.86%和10.59%。当地时间1月27日,英伟达股价较上一个交易日(1月24日)下跌近17%,市值蒸发5920亿美元。

尽管2月英伟达市值回调,其股市际遇仍(réng)值(zhí)得(de)警醒。2024年以来,资本市场对英伟达信心满满,上一次市值跌去双位数,还是2023年9月。去年11月,英伟达一度取代苹果成为全球市值第一的上市公司。这份信心,为何出现了动摇?

在OpenAI推出的ChatGPT卷起AIGC浪潮之初,大模型的参数规模与GPU的集群规模深度绑定。Omdia分析称,微软在2024年购买了48.5万块英伟达Hopper GPU,OpenAI o1大模型就是在微软Azure的AI基础设施训练。Meta在2022年构建了16000块英伟达A100组成的算力集群,以支持Llama和Llama2大模型的发展,又在2024年3月宣布建设两个由24576块英伟达H100 GPU组成的集群,以训练Llama3。

如此高昂的训练成本,对于大模型厂商的ROI(投资回报率)是一个巨大的考验。有报道称,OpenAI预计2024年营收37亿美元,亏损50亿美元。红杉资本投资人曾估计,2023年人工智能行业在用于训练先进人工智能模型的英伟达芯片上花费了500亿美元,但仅带来30亿美元的收入。因而,对于大模型开发商来说,除了拓展服(fú)务(wu)场(chǎng)景(jǐng)以(yǐ)提(tí)升盈利能力,如何降低大模型的训练和部署成本同样关键。

这也是为什么DeepSeek-V3一经推出,就备受市场青睐——它让业界看到了大模型训练从“GPU堆料”走向“精耕细作”的可能性。

具体来看,6710亿参数的DeepSeek-V3在配备2048块英伟达H800 GPU的集群上训练,整个训练流程用时278.8万个H800 GPU小时,总成本为557.6万美元(按照每GPU小时2美元的租用价格计算)。在GPU用量、训练用时、算力成本上,较同等性能的闭源(yuán)模(mó)型(xíng)大(dà)幅(fú)缩(suō)减(jiǎn)。

之(zhī)所(suǒ)以(yǐ)能(néng)用(yòng)如(rú)此(cǐ)少(shǎo)量(liàng)的(de)计(jì)算(suàn)资(zī)源(yuán)完(wán)成(chéng)大(dà)规(guī)模(mó)参(cān)数(shù)量(liàng)的(de)训(xun)练(liàn),得(de)益(yì)于DeepSeek团队对算法、训练框架和硬件的优化协同。

从架构来看,DeepSeek-V3沿用了在DeepSeek-V2进行验证的多头潜在注意力(MLA)和DeepSeek MoE进行具有成本效益的训练。多头潜在注意力机制通过将键值(KV)缓存(cún)压(yā)缩(suō)为(wèi)潜(qián)在向量,显著降低了计算成本,加快了推理速度并提高了吞吐量。同时,专家混合(MoE)架构通过稀疏计算实现高效推理。

在训练精度上,Deepseek-V3支持FP8计算和存储,在加快训练速度的同时,减少了对GPU内存的使用。

在训练框架上,Deepseek-V3团队打造了HAI-LLM框架,并进行了细致的工程优化。首先是设计了DualPipe(双管道)算法以实现高效的管道并行,并实现了计算和通信重叠(而不是按照串行模式,完成计算再进行通信),从而解决了跨节点专家并行带来的巨大通信开销问题。其次是开发了跨节点全对全通信内核,使InfiniBand(IB)和NVLink的通信充分重叠,仅需20个流式多处理器就能充分利用IB和NVLink的带宽。其三是优化了内存占用,在不使用成本高昂的张量并行的情况下,也能够训练DeepSeek-V3。

训练成本的压缩,使DeepSeek能够提供远低于其对标(biāo)的(de)闭(bì)源(yuán)模(mó)型(xíng)(DeepSeek-V3性(xìng)能(néng)比(bǐ)肩(jiān)GPT-4o, DeepSeek-R1性(xìng)能(néng)对(duì)标(biāo)OpenAI o1)的(de)API服(fú)务(wu)价(jià)格(gé)。

记(jì)者(zhě)计(jì)算(suàn)得(de)知(zhī),DeepSeek-V3的(de)每(měi)百万输(shū)入(rù)tokens价(jià)格(gé)约(yuē)为(wèi)GPT-4o的(de)5.5%(缓(huǎn)存(cún)命(mìng)中(zhōng))/11%(缓(huǎn)存(cún)未(wèi)命(mìng)中(zhōng)),每(měi)百(bǎi)万(wàn)输(shū)出(chū)tokens价(jià)格(gé)约(yuē)为(wèi)GPT-4o的(de)11%。DeepSeek-R1的(de)每(měi)百(bǎi)万输入tokens价格约为OpenAI o1的1.8%(缓存命中)/3.7%(缓存未命中),每百万输出tokens价格约(yuē)为(wèi)OpenAI o1的(de)3.7%。

DeepSeek与(yǔ)对(duì)标(biāo)的(de)OpenAI模(mó)型(xíng)API价(jià)格(gé)对(duì)比(bǐ)

640 - 2025-02-17T104339.214.png

来(lái)源(yuán):中(zhōng)国(guó)电(diàn)子(zi)报(bào)根(gēn)据(jù)DeepSeek、OpenAI官(guān)网(wǎng)报(bào)价(jià)整(zhěng)理,以2月14日汇率为准

GPU规格和用量降下来了,大模型价格也便宜了,这对于产业界来说是一个好消息,对于尖端GPU厂商来说,则带有一些不确定性。

首先,云厂商和数据中心厂(chǎng)商(shāng)在(zài)过(guò)去(qù)两(liǎng)年(nián)“买(mǎi)爆(bào)”英(yīng)伟(wěi)达(dá),很(hěn)大(dà)程(chéng)度(dù)上(shàng)是(shì)为(wèi)大(dà)模(mó)型(xíng)的(de)训(xun)练(liàn)、部(bù)署(shǔ)和(hé)运(yùn)行(xíng)提(tí)供(gōng)基(jī)础(chǔ)设(shè)施(shī),可(kě)一(yī)旦(dàn)MoE、小(xiǎo)模(mó)型(xíng)等(děng)更(gèng)具(jù)成(chéng)本(běn)效(xiào)益(yì)的(de)模(mó)型流行开来,头部买家能否持续现有的GPU采购量,要打一个问号。

其次,大模型训练使用的GPU向来由英伟达独占鳌头,但若算力投入不再高企,其他厂商也有了分一杯羹的机会。目前,龙芯中科、昆仑芯、燧原科技、华为昇腾、海光信息、天数智芯、奕斯伟等多家国产芯片企业宣布与DeepSeek适配。

再次,降低训练开销的可能性,也让广大GPU买家开始将目光转向(xiàng)其(qí)他(tā)架(jià)构(gòu)——尤(yóu)其(qí)是(shì)自(zì)家(jiā)研(yán)发(fā)的(de)ASIC芯(xīn)片(piàn),以(yǐ)增(zēng)加(jiā)硬(yìng)件(jiàn)收(shōu)入(rù)、增(zēng)强(qiáng)云(yún)服(fú)务(wu)的(de)整(zhěng)体(tǐ)性(xìng)并(bìng)提(tí)升(shēng)客(kè)户(hù)粘(zhān)性(xìng)。

以全球最大的云服务厂商亚马逊AWS为例,2月12日,亚马逊AWS宣布已于1月上线DeepSeek系列大模型,用户可以使用亚马逊云科技自研芯片Trainium和Inferentia通过Amazon EC2或(huò)者(zhě)Amazon SageMaker部(bù)署(shǔ)DeepSeek-R1蒸馏模型,规模从15亿参数的Qwen蒸馏模型到706亿参数的Llama蒸馏模型不等。亚马逊自研芯片的一个重要目标就是降低训练成本,与基于GPU的同类实例相比,Trainium芯片支持的Amazon EC2Trn1实例,可节省50%的训练成本。

OpenAI也在近期再传自研芯片的消息。据悉,OpenAI将在年内完成首款自研芯片设计,计划采用台积电3nm工艺制造。

此外,LPU(语言处理器)受到市场关注,采用RISC-V指令集的AI SoC也实现了与DeepSeek的适配。

当然,也有观点认为,DeepSeek对算力产业是长期利好。

比如,在英伟达市值蒸发5920亿美元(yuán)的(de)那(nà)个(gè)交易日,微软CEO萨提亚·纳德拉(Satya Nadella)在社交媒体平台表示:“杰(jié)文斯(sī)悖(bèi)论(lùn)再(zài)次(cì)应(yīng)验(yàn)!随(suí)着(zhe)人(rén)工(gōng)智(zhì)能(néng)变(biàn)得(de)更(gèng)高(gāo)效(xiào)、更易(yì)用(yòng),我(wǒ)们(men)会(huì)看(kàn)到(dào)其(qí)使(shǐ)用(yòng)量(liàng)急(jí)剧(jù)飙(biāo)升(shēng),它(tā)会(huì)变(biàn)成(chéng)一(yī)种(zhǒng)我们怎么都用不够的大众资源。”

杰文斯悖论是一种经济学理论,主张当技术进步提高了资源使用的效率,即减少资源使用的数量,但成本降低导致需求增加,令资源消耗的速度不减反增。

这套逻辑,当然也适用于算力。既然DeepSeek等MoE模型降低了单个大模型训练所需的算力开销,使大模型更具性价比,就会(huì)加(jiā)速(sù)大(dà)模(mó)型(xíng)的(de)落(luò)地(de)开(kāi)花(huā)。如(rú)果(guǒ)各(gè)行(xíng)各(gè)业(yè)部(bù)署(shǔ)大(dà)模(mó)型(xíng)的(de)积(jī)极(jí)性(xìng)提(tí)升(shēng),从(cóng)长(zhǎng)远(yuǎn)来(lái)看(kàn),对(duì)算(suàn)力(lì)的(de)整(zhěng)体(tǐ)需(xū)求(qiú)就(jiù)有(yǒu)较(jiào)为(wèi)充(chōng)足(zú)的(de)上(shàng)升(shēng)空(kōng)间(jiān),自(zì)然(rán)利(lì)好(hǎo)GPU等(děng)算(suàn)力芯片的发展(zhǎn)。

只(zhǐ)是(shì)这(zhè)杯(bēi)羹(gēng),不(bù)一(yī)定(dìng)再(zài)由(yóu)英(yīng)伟(wěi)达(dá)的(de)尖(jiān)端(duān)GPU独(dú)占(zhàn),算(suàn)力(lì)需(xū)求(qiú)带(dài)来(lái)的(de)利(lì)润(rùn)洪(hóng)流(liú),也(yě)未(wèi)必(bì)再(zài)被(bèi)CUDA这(zhè)道(dào)大坝截留。

在DeepSeek-V3的技术报告中,DeepSeek团队向人工智能硬件供应商提出了芯片设计建议,包括提高张量核心中FP8通用矩阵(zhèn)乘法的累加精度、支持分块和块级量化等。对于芯片企业来说,除了持续提升芯片性能,能够与大模型开发团队进行紧密协作、将工程化做好做精,会更有机会在“效率(lǜ)至(zhì)上(shàng)”的(de)训(xun)练(liàn)竞(jìng)赛(sài)中(zhōng)站(zhàn)到(dào)前(qián)排(pái)。