中科曙光发布国内首个开放架构AI超集群系统

【导语】9月5日,中科曙光在2025世界智能产业博览会上发布国内首个基于AI计算开放架构的曙光AI超集群系统,该系统以GPU为核心,具备“超高性能、超高效率、超高可靠、全面开放”四大特性,可高效应对大模型训练等场景算力需求,还通过开放设计降低用户成本,助力破解国内AI算力领域诸多挑战。

9月5日,中科曙光在2025世界智能产业博览会上发布了国内首个基于AI计算开放架构设计的产品——曙光AI超集群系统(tǒng)。

记者在现场了解到,这一AI超集群系统以GPU为核心,实现了“算、存、网、电、冷、管、软”一体化紧耦合设计,具备“超高性能、超高效率、超高可靠、全面开放”四大特点,可为万亿参数大模型训练推理、行业大模型微调、多模态大模型开发、AI4S等场景提供高效算力底座。

据介绍,曙光AI超集群系统具有高性能、高效率、高可靠、全面开放的技术特点。比如,在性能方面,单机柜可搭载96张GPU卡、算力规模达百P级、访存总带宽超180TB/s,支持多精度、混合精度运算以及百万卡超大集群扩展;效率方面,千卡集群大模型训练推理性能达到业界主流水平2.3倍,开发效率提升4倍。

当前,伴随AI大(dà)模(mó)型(xíng)快(kuài)速(sù)演(yǎn)进(jìn)以(yǐ)及(jí)全球(qiú)IT产(chǎn)业(yè)生(shēng)态体系调整,国内AI算力领域面临高端算力供给不足、国产加速卡性能差距大、算力成本高、自主软硬件生态不成熟等挑战。而发展更大规模、更高效智算集群来弥补国(guó)产(chǎn)单(dān)卡(kǎ)算(suàn)力(lì)差(chà)距(jù)以(yǐ)突(tū)破(pò)算(suàn)力(lì)瓶(píng)颈(jǐng),打(dǎ)造(zào)开(kāi)放(fàng)式(shì)、标(biāo)准(zhǔn)化(huà)、高(gāo)效(xiào)率(lǜ)的(de)算(suàn)力(lì)集群(qún),以(yǐ)实(shí)现(xiàn)智(zhì)算(suàn)集群的易用与可控成本,正逐渐成为业界共识。

值得关注的是,相比封闭系统,曙光AI超集群系统不仅通过紧耦合设计(jì)像(xiàng)一(yī)台(tái)计(jì)算(suàn)机(jī)般(bān)高(gāo)效(xiào)工(gōng)作(zuò),还(hái)支(zhī)持(chí)多(duō)品(pǐn)牌(pái)AI加(jiā)速(sù)卡(kǎ)以(yǐ)及(jí)兼(jiān)容(róng)主流(liú)软(ruǎn)件(jiàn)生态,为用户提供更多开放性选择,并降低硬件成本和软件开发适配成本,保护前期投资。

中科曙光总裁助理、智能计算产品事业部总经理杜夏威表示,克服国内AI算力多维挑战,需汇聚芯片、计算系统(tǒng)、大(dà)模(mó)型(xíng)等(děng)产(chǎn)业(yè)链(liàn)多(duō)方(fāng)力(lì)量(liàng),构(gòu)建(jiàn)开(kāi)放(fàng)AI计(jì)算(suàn)架(jià)构(gòu)并(bìng)拉(lā)通(tōng)产(chǎn)业(yè)间(jiān)跨(kuà)层(céng)协(xié)作(zuò),以(yǐ)打(dǎ)破(pò)“技(jì)术(shù)墙(qiáng)”与(yǔ)“生(shēng)态(tài)墙(qiáng)”。据(jù)他(tā)透(tòu)露(lù),依(yī)托(tuō)AI超(chāo)集群(qún)系(xì)统(tǒng),中(zhōng)科(kē)曙(shǔ)光(guāng)将(jiāng)开放AI存储优化能力、液冷基础设施设计规范、DeepAI基础软件栈等三项技术能力,助力合作伙伴、重点用户在AI应用存储性能加速、液冷超节点系统设计、GPU开发统一开发框架等方面获得高级别技术共享、深度定制优化与专业技术支持。