达摩院首席科学家孟建熠:模型创新为算力架构带来新机会

AI时代架构创新不断涌现,而DeepSeek的出现为整个AI市场带来了全新活力。近日,达摩院首席科学家、知合计算CEO孟建熠在2025玄铁RISC-V生态大会上表示,DeepSeek在一定程度上改变了行业对AI硬件架构的诉求,模型持续创新是所有算力架构的机会。对RISC-V发展而言,打造标杆产品是关键。

DeepSeek大模型从云走向端

孟建熠表示,DeepSeek问世之后,业界中产生了三方面不同观点的争论:一是开源架构与闭源架构谁更好。DeepSeek证明了开源架构也有很好的表现。二是该用Dense模型还是MoE模型。前者是通用全能的模(mó)型(xíng),后(hòu)者(zhě)是(shì)更(gèng)好(hǎo)的(de)专(zhuān)家(jiā)模型,二者各有所长。三是算力敏感与内存容量敏感之争。之前模型对算力的需求非常大,现在是容量很大,算力下降了,所以内存容量成为一项关键指标。

“DeepSeek在一定程度上改变了大家对AI硬件架构的诉求。”孟建熠认为。

模型深度优化为算力架构带来了全新可能。具体而言,一是MoE模型,以更低激活比达成更低的计算成本,并使模型的单机部署成为可能。二是稀疏计算与模型压缩技术,识别并跳过模型中不重要的计算节点(如权重接近零的部分节点),同时结合模型压信技术减少参数量。三是混合精度计算与量化技术,浮点计算转化为低精度计算(如INT8、FP8、FP16),同时保持模型精度。四是动态计算图优代技术,实时调整计算结构减少冗余计算。五是内存优化与数据流重构技术,减少内存访(fǎng)问(wèn)延(yán)迟(chí)以(yǐ)及(jí)數(shù)掘(jué)传(chuán)输开销。六是分布式计算与负载均衡技术,将大规模模型推理任务拆分到多个计算节点,并通过负载均衡技术优化任务分配。

DeepSeek的出现,推动行业更加关注底层硬件能力的适配。“在很长一段时间里,大家都喜欢喜欢‘大炮打蚊子’,当然这样是效率很高。但是今天我们有了一个新思路——可以用软硬件融合的视角来(lái)看(kàn)待(dài)整(zhěng)个(gè)AI的(de)发(fā)展(zhǎn)。”孟(mèng)建(jiàn)熠(yì)强(qiáng)调(diào),算(suàn)力(lì)、内(nèi)存(cún)、互(hù)联(lián)之(zhī)间(jiān)原(yuán)有(yǒu)的(de)平(píng)衡(héng)发(fā)生(shēng)了(le)剧(jù)变(biàn),对(duì)于(yú)新(xīn)的(de)算(suàn)力(lì)架(jià)构(gòu)机(jī)会(huì)而(ér)言(yán),大(dà)家(jiā)再(zài)次(cì)进(jìn)入(rù)同(tóng)一(yī)起(qǐ)跑(pǎo)线(xiàn)。同(tóng)时(shí),开(kāi)源(yuán)大(dà)模(mó)型(xíng)单(dān)机(jī)部(bù)署(shǔ)成(chéng)为(wèi)可(kě)能(néng),进(jìn)一(yī)步(bù)推(tuī)动(dòng)实(shí)际(jì)应(yīng)用(yòng)落(luò)地(de)。

另(lìng)一(yī)个(gè)趋(qū)势(shì)是(shì)大(dà)模(mó)型(xíng)走(zǒu)向(xiàng)趋(qū)同(tóng),帮(bāng)助(zhù)算(suàn)子(zi)收(shōu)敛(liǎn)。值(zhí)得(de)关注(zhù)的(de)是(shì),大(dà)模(mó)型(xíng)的(de)参(cān)数(shù)量(liàng)和(hé)计(jì)算(suàn)量(liàng)巨(jù)大(dà),但(dàn)如(rú)今(jīn)算(suàn)子(zi)的(de)个(gè)数(shù)在(zài)逐(zhú)步(bù)收(shōu)敛(liǎn),主要(yào)以(yǐ)矩(ju)阵(zhèn)计(jì)算(suàn)为(wèi)中(zhōng)心(xīn),而(ér)且(qiě)通(tōng)过(guò)开(kāi)源(yuán)相(xiāng)互(hù)学(xué)习(xí)正(zhèng)在(zài)走(zǒu)向(xiàng)趋(qū)同(tóng)。

从(cóng)云(yún)端(duān)协(xié)同(tóng)的(de)层(céng)面(miàn),DeepSeek帮(bāng)助(zhù)大(dà)模(mó)型(xíng)从(cóng)云(yún)走(zǒu)向(xiàng)端(duān),由(yóu)此(cǐ)也(yě)带(dài)来(lái)了(le)几(jǐ)个(gè)变(biàn)化(huà):一(yī)是(shì)从(cóng)算(suàn)力(lì)瓶(píng)颈(jǐng)变(biàn)为(wèi)存(cún)储(chǔ)的(de)带(dài)宽(kuān)和(hé)容(róng)量(liàng)瓶(píng)颈,容量瓶颈成(chéng)为全量大模型最关键的因素,比(bǐ)如(rú)671B大(dà)模(mó)型(xíng)。二(èr)是(shì)降(jiàng)低(dī)计(jì)算(suàn)资(zī)源(yuán)需(xū)求(qiú),让(ràng)几(jǐ)T、几(jǐ)十(shí)T和(hé)几(jǐ)百(bǎi)T的算力成为可能。三是实现单机部署的可能,能够让开源模型被更多私有数据优化,形成私有解决方案。四是支持边缘设备,使得高性能AI应用能够在边缘设备上顺利运行。“大模型在云端的话,实施成本比较高,只有有限的企业可能在部分领域去应用,而一旦到了端侧,就有大量的应用都会发展起来。”孟建熠表示。

模型创新是算力架构的机会

当前算力基础是以GPU(CUDA)为代表的传统闭源硬(yìng)件(jiàn)与(yǔ)生(shēng)态(tài),而(ér)DeepSeek、Llama、Grok等(děng)开(kāi)源(yuán)大(dà)模(mó)型(xíng)不(bù)断(duàn)涌(yǒng)现(xiàn),给(gěi)算(suàn)力(lì)架(jià)构(gòu)带(dài)来(lái)了(le)新(xīn)机(jī)会(huì)。当(dāng)然(rán),这(zhè)个(gè)机(jī)会(huì)对(duì)所(suǒ)有(yǒu)架(jià)构(gòu)都(dōu)有(yǒu)效(xiào),并(bìng)非(fēi)只(zhǐ)对(duì)RISC-V而(ér)言(yán)。如(rú)今(jīn),这(zhè)些(xiē)开(kāi)源(yuán)模(mó)型(xíng)正(zhèng)在(zài)吸(xī)引(yǐn)更(gèng)多(duō)算(suàn)力(lì)架(jià)构(gòu),包(bāo)括(kuò)X86、Arm这(zhè)样(yàng)的(de)传(chuán)统(tǒng)CPU架(jià)构(gòu),DSA、ASIC这(zhè)样(yàng)的(de)自(zì)研(yán)架(jià)构(gòu),以(yǐ)及(jí)以(yǐ)RISC-V为(wèi)代(dài)表(biǎo)的(de)开(kāi)源(yuán)架(jià)构(gòu)。“我(wǒ)们(men)都(dōu)在(zài)一(yī)个(gè)新(xīn)的(de)起(qǐ)点(diǎn)上(shàng),现(xiàn)在(zài)就(jiù)看(kàn)谁(shuí)能(néng)够(gòu)跑(pǎo)得(de)快(kuài)。”孟(mèng)建(jiàn)熠(yì)说(shuō)道(dào)。

作(zuò)为(wèi)三(sān)大(dà)主流(liú)指(zhǐ)令(lìng)集架(jià)构(gòu)中(zhōng)最(zuì)灵(líng)活(huó)、最(zuì)开(kāi)放(fàng)的(de)一(yī)个(gè),RISC-V适(shì)应(yīng)了(le)AI时(shí)代(dài)的(de)技(jì)术(shù)创(chuàng)新(xīn)节(jié)奏(zòu)。它(tā)在(zài)原(yuán)生(shēng)AI支(zhī)持(chí)上(shàng),拥(yōng)有(yǒu)开(kāi)源(yuán)与(yǔ)开(kāi)放(fàng)架(jià)构(gòu)、更(gèng)易(yì)实(shí)现(xiàn)的(de)软(ruǎn)硬(yìng)件(jiàn)协(xié)同(tóng)设(shè)计(jì)、更(gèng)优(yōu)的(de)能(néng)效(xiào)比(bǐ),以(yǐ)及(jí)覆(fù)盖(gài)全球(qiú)、不(bù)断(duàn)成(chéng)熟(shú)的(de)生(shēng)态(tài)。在(zài)孟(mèng)建(jiàn)熠(yì)看(kàn)来(lái),“RISC-V架(jià)构(gòu)+AI”是(shì)以(yǐ)AI原(yuán)生(shēng)成(chéng)为(wèi)架(jià)构(gòu)创(chuàng)新(xīn)的(de)最(zuì)终(zhōng)答(dá)案(àn)。随(suí)着(zhe)开(kāi)源(yuán)RISG-V架(jià)构(gòu)的(de)快(kuài)速(sù)发(fā)展(zhǎn),重(zhòng)新(xīn)自(zì)研(yán)架(jià)构(gòu)已(yǐ)意(yì)义(yì)不(bù)大(dà),以(yǐ)RISC-V为(wèi)基(jī)础(chǔ)构(gòu)建(jiàn)处(chù)理(lǐ)芯(xīn)片(piàn)是(shì)未(wèi)来(lái)的(de)主流(liú)。

RISC-V在(zài)AI领(lǐng)域具(jù)备(bèi)很(hěn)高(gāo)的(de)包(bāo)容(róng)性(xìng),可(kě)以支持做(zuò)CPU/DSA,也(yě)支(zhī)持(chí)做(zuò)GPU、多(duō)核(hé)产(chǎn)品(pǐn)或(huò)者(zhě)近(jìn)内(nèi)存(cún)计(jì)算(suàn)。“大(dà)家(jiā)可(kě)以(yǐ)在(zài)硬(yìng)件(jiàn)上(shàng)不(bù)断(duàn)创(chuàng)新(xīn),而(ér)生(shēng)态(tài)上(shàng)统(tǒng)一(yī)在(zài)RISC-V。尽管目前有不同的实践方案,但最终一定会走向生态统一。”孟建熠表示。

RISC-V如何真正走出来,是备受业界关注的一个(gè)问题。发展至今,RISC-V生态已经慢慢建立起来,从IoT等功耗敏感型场景向服务器等高算力场景成长,从纯通用计算向AI计算与通用计算融合成长,其中已经有了一些标杆性产品。

打造标杆产品是RISC-V成长路径的关键环(huán)节(jié)。孟(mèng)建(jiàn)熠(yì)指(zhǐ)出(chū),RISC-V发(fā)展(zhǎn)中(zhōng)的(de)一(yī)个(gè)新(xīn)趋(qū)势(shì)是(shì)从(cóng)“小(xiǎo)标(biāo)杆(gān)产(chǎn)品(pǐn)”向(xiàng)“大(dà)标(biāo)杆(gān)产(chǎn)品(pǐn)”成(chéng)长(zhǎng),引(yǐn)领(lǐng)软(ruǎn)件(jiàn)生(shēng)态(tài)加(jiā)速(sù)配(pèi)适(shì),吸(xī)引(yǐn)产(chǎn)业(yè)资(zī)源(yuán)加(jiā)大(dà)倾(qīng)斜(xié)。

实(shí)际(jì)上(shàng),国(guó)内(nèi)外(wài)企(qǐ)业(yè)都(dōu)在(zài)尝(cháng)试(shì)打(dǎ)造(zào)RISC-V的(de)标(biāo)杆(gān)产(chǎn)品(pǐn)。比(bǐ)如(rú),国(guó)内(nèi)的(de)达(dá)摩(mó)院(yuàn)2022年(nián)发(fā)布(bù)了(le)基(jī)于(yú)玄(xuán)铁(tiě)C910 RISC-V核(hé)的(de)4核(hé)产(chǎn)品(pǐn),推(tuī)动(dòng)了(le)包(bāo)括(kuò)安(ān)卓(zhuō)在(zài)内(nèi)的(de)软(ruǎn)件(jiàn)厂(chǎng)商(shāng)加(jiā)入(rù)RISC-V生态。国际上,Tenstorrent、Vantana和(hé)SiFive等(děng)企(qǐ)业(yè)也(yě)推(tuī)出(chū)一(yī)些(xiē)标(biāo)杆(gān)产(chǎn)品(pǐn)。其(qí)中(zhōng),Tenstorrent最(zuì)新(xīn)的(de)RISC-V核(hé)“Ascalon”采用(yòng)了(le)CPU中(zhōng)少(shǎo)见(jiàn)的(de)8-Wide指(zhǐ)令(lìng)集解(jiě)码(mǎ)器(qì)设(shè)计(jì)。孟(mèng)建(jiàn)熠(yì)认(rèn)为(wèi),下(xià)一(yī)代(dài)RISC-V标(biāo)杆(gān)产(chǎn)品(pǐn)在(zài)服(fú)务(wu)器(qì)场景、AI PC场景、AI场景有着一些关键指标。要真正从产业中走出来,性价比(bǐ)很(hěn)重(zhòng)要(yào)。

“标(biāo)准(zhǔn)建(jiàn)设(shè)是(shì)RISC-V下(xià)阶(jiē)段(duàn)发(fā)展(zhǎn)的(de)重(zhòng)中(zhōng)之(zhī)重(zhòng)。”孟(mèng)建(jiàn)熠(yì)表(biǎo)示(shì),国(guó)内(nèi)产(chǎn)业(yè)需(xū)要(yào)在(zài)标(biāo)准(zhǔn)建(jiàn)设(shè)中(zhōng)尽(jǐn)快(kuài)形(xíng)成(chéng)合(hé)力(lì)。目(mù)前,国际上在指令架构上的贡献明显高于国内,国内力量的参与度还不够。国内已经建立多个组织,都在进行相关的指令集的制定工作,需要联合起来统一到一个平台工作。另外,技术路线上要考虑相对集中,以AI为目标先做一轮国内制定标准的尝试。此外,计算原语是相(xiāng)类(lèi)似(shì),所以CPU、GPU、TPU在扩展上要形成一定的梯度,不能把指令集做成很多套并行大而全的扩展,这样生态无法形成。