第04版:经济

中国城市报 2023年08月14日 星期一

返回目录  放大缩小全文复制   下一篇

大模型越火,算力芯片企业越“活”?

■中国城市报记者孙雪霏 《 中国城市报 》( 2023年08月14日   第 04 版)

  仅通过面部识别,旅客便能轻松地穿梭于机场,享受一站式登机体验;手机对准发票,内容由机器人自动审核,无需人工介入便可轻松实现无纸化报销,助力企业绿色办公、智慧费控;面对复杂的机械设备,AI能仅凭它们发出的声响为它们“把脉”并进行预防性维护……当下,AI技术已深刻地改变了人们的日常生活,而看得见的应用背后,是看不见的智能算力在支撑。

  

  算力资源是数字经济发展的重要底座。工信部发布的数据显示,2022年我国在用数据中心机架总规模超过650万标准机架,算力核心产业规模达到1.8万亿元。当算力在千行百业落地应用时,不同精度的算力需要服务多样化的应用场景。特别是自去年年底,大模型技术如OpenAI的ChatGPT、Google的Switch Transformer、百度的文心一言、华为云的盘古等频繁亮相,业内对于大模型需要什么样的硬件众说纷纭。

  

  当前,国内外大模型的数量已发展到以百千计,大模型参数量也发展到千亿级。在这种趋势下,算力芯片究竟该如何适应大模型不断增长的算力需求?相关企业如何把握机遇、应对挑战,蹚出特色发展之路?

  

  从集群的角度提高带宽与存储

  

  “大模型时代,我们不再单纯从单卡效率的角度审视问题,对硬件效率的考量也随之转向了集群视角。”燧原科技产品市场总经理高平在接受中国城市报记者采访时说道。

  

  记者了解到,大模型是指包含超大规模参数的神经网络模型,这种模型经过专门的训练过程,能够对大规模数据进行复杂处理。

  

  在冯·诺依曼的体系架构中,计算与存储是分离的。此种架构下,一项任务的完成不仅依赖于高算力,更需要大容量存储与高效互联的支持。长期以来,算力芯片企业更多关注的是处理器的算力效率,而大模型常常涉及上千张甚至上万张算力芯片组成的集群,这使得存储量与带宽一下子成为制约集群效率的瓶颈,也迅速升级为影响集群效率的关键技术指标。

  

  沐曦集成电路(上海)有限公司联合创始人、CMO孙尔俊认为,大模型需要缓存超过千亿的参数量,而单个芯片的存储容量决定了整个集群所需的芯片数量,间接影响了传输时间和集群计算效率。这意味着,单个芯片的存储量越大,整个集群所需要的芯片数量就越少,片间花费的传输时间相应地就会更低,从而更有利于提高整个集群的计算效率。

  

  片间带宽是另一个备受关注的指标。有业内人士表示,在上述背景下,片间互联带宽与芯片存储量如同大模型硬件基础的双重支柱。为了形象化这一问题,可以将大模型训练比作是货物运输。其中,存储容量如同卡车的装载量,而带宽则相当于高速公路上的并行车道数。两者协同作用,共同决定了整个训练任务的完成效率。因此对于算力芯片企业来说,如何提高算力芯片的单片存储和带宽尤为重要。

  

  中国城市报记者了解到,目前,业内在提高芯片存储量方面,主要是通过提升晶体管密度和加大存储面积两种方式实现;同时,采用更先进的工艺和3D封装也成了提高芯片存储量的有效途径。但带宽的提升相对而言更为困难。高平解释称,带宽的提升受到多种因素的限制,包括工艺功耗、成本和芯片面积。“实际上,业内正尝试利用多种方法来突破这一瓶颈,例如将存储与计算模块靠近以缩短数据传输距离,或是探索存算一体的新架构等。”高平说。

  

  天数智芯副总裁邹翾分享了公司的解决方案:“我们优化了算法、片间通讯协议及通讯物理层,以系统化地缓解带宽瓶颈。此外,在互联技术方面,我们于协议层采用了私有协议,可以提高有效数据传输的效率;而在物理层,非电技术也为带宽提供了进一步提升的空间。”

  

  优化工具与云服务提升“软”实力

  

  在全球算力芯片竞逐的激烈战场中,很多时候,客户看不见的软件,往往比硬件更具决定性。中国信通院云计算与大数据研究所所长何宝宏在接受中国城市报记者采访时表示,对大多数客户来说,芯片只是一个交付的工具,而真正触动他们的是其后续的软件性能。“好用,是大模型对算力芯片软件栈最基础的要求。”他说。

  

  在大模型热潮下,如何使软件与模型的匹配达到最优仍是一个关键问题。而这个问题的答案,很大程度上依赖于客户与芯片公司之间的协作。

  

  以算力芯片市场巨头英伟达为例,其之所以能够在软件领域站稳脚跟,是因为它不仅拥有庞大的客户群,更重要的是对客户的需求有着深入的了解。

  

  然而,不少国内算力芯片企业面临的现实是,虽然它们接到的订单量骤增,但由于客户基数相对有限,客户反馈并不像行业巨头那样丰富。这不利于其发展自己的软件栈。

  

  对此,业内人士表示,算力芯片企业需要为用户提供无缝兼容的迁移体验,主动选择贴合客户使用习惯,尽量避免在代码上做微调等大工作量问题,从而帮助客户更轻松地完成迁移。

  

  何宝宏也提到,现如今,大多数AI芯片公司已将研发重心从硬件转向软件栈,这无疑是对市场趋势的回应。

  

  同时,云服务正逐渐成为算力芯片企业扩展业务、增强影响力的重要实现方式。中国城市报记者注意到,云服务租赁算力资源的模式为初创企业或是小型团队提供了一个成本更低的算力解决方案,允许其以更经济的方式访问高性能计算能力。众多科技巨头,包括谷歌、英伟达、金山云和阿里云,都已跃入这一赛道。

  

  浪潮信息副总裁张东说:“从长期来看,肯定是自建算力平台的成本更低。但对于前期启动资金较少的企业来说,租用云算力的方式可迅速获取所需的算力,可以帮助企业在更短的时间内使用到运算更快的计算集群,为其赢得宝贵的市场时间。”

  

  强化产业协作开辟新市场

  

  在算力芯片领域,市场对于英伟达之外的算力芯片厂商产品的接受度还有待提高。

  

  据中国城市报记者采访了解,英伟达的产品依然是中国大模型企业的首选,其他品牌与英伟达的竞争存在客户使用习惯、客户对稳定性的质疑等多方面制约。在金融、网络安全等领域之外,新兴算力芯片企业的应用数量还比较有限。但这并非意味着新品牌无路可走,许多做人工智能领域研究的实验室和不以大模型为主营业务的公司已开始采用这些新兴算力芯片品牌,购进一批国产卡来丰富供应链。“以大模型为主营业务的企业对效率要求尤其高,它们亟需‘拿回来就能用’的产品。虽然部分企业也会购进一批国产卡,但整体来看,其对可能需要进行设备调试的新兴品牌意愿不强。”何宝宏说。

  

  大模型的蓬勃发展也为算力芯片行业带来了千载难逢的发展机遇。然而,机会往往伴随着挑战。中国城市报记者了解到,当前国内算力芯片厂商已经获得了一定数量的专做大模型业务的客户,但相比于“百模大战”的盛况,以及每家企业都需要搭建千卡甚至万卡集群的规模,待开掘的市场空间还很广阔。

  

  而在大模型热潮到来之前,算力芯片长久以来都在苦于探索最佳的应用场景。大模型不仅解决了这个问题,还推动了上下游企业从更偏向垂直、分散的合作模式转向集中化的金字塔形,即多款算力芯片产品共同服务于统一的大模型结构。这也预示着,未来,与大模型巨头达成技术互通与生态共建的合作,将为算力芯片企业带来更强的市场竞争力。

  

  打铁还需自身硬,在激烈的市场竞争中,国内算力芯片企业应如何突围以提升市场份额规模?

  

  张东表示,目前国内算力芯片生态较为碎片化,各大厂商之间缺乏统一的行业标准,这使得客户面对繁杂的市场会有些无所适从。与英伟达等初创者相比,其他厂商进入市场时间较晚,每家“独一套”的技术路线使客户的试用成本上升,反而制约了市场流动性。对此,他建议:“相关政府部门和大型企业应引导产业链实现行业标准的完善,推进产业健康发展。”

  

  何宝宏则提及了供应链纵向投资实现产业协同的重要性:“为保证上下游协作,下游应用厂商可考虑投资上游的芯片供应商,这会提高其在自己产品中采用相应芯片的动力。”

  

  而高平看到的是实现产业链协作的最终形式——搭建生态。“真正提升算力芯片企业市场份额的关键,是搭建强大的产业生态。”他认为,将产业链上下游包括AI企业、OEM厂商和AIGC应用厂商等多方纳入企业自己的生态体系,有助于共同解决未来的应用场景难题。而在实际操作中,建立开发者社区可以为企业与客户提供更直接的沟通渠道。