网络为基,AI时代多元异构算力如何智能调度?丨ToB产业观察

“过去5年间,GPU算力增长仅90倍,而网络带宽仅增长10倍,模型训练时间也随之增长。”国工程院院士刘韵洁在2024中国算力大会上指出。

另一方面,信通院联合浪潮信息发布的《人工智能算力高质量发展评估体系报告》(以下简称报告)中指出,截至2023年底,全球算力总规模约为 910EFLOPS ,同比增长40%,智能算力规模达到335EFLOPS,同比增长达 136%,增速远超算力整体规模增速。

大模型的出现带动算力产业发展,尤其是GPU,越来越多的智算中心拔地而起,但相比于GPU算力的增长,网络带宽的增长显然有些低,而排开某些不可抗力的影响,网络带宽也成为当下算力产业的掣肘,算网融合、算力调度成为接下来发展的重点。

如果没有网络,各个数据中心、算力中心就像一座座孤岛,算力、数据都无法实现互联互通,自然也就发挥不出价值,而在刘韵洁看来,大模型算力需求激增,算力组网需求迫切,网络带宽成为瓶颈。“我们在半导体领域略有落后于国际先进水平,但是可以通过协同训练的方式将芯片上的差距磨平。”刘韵洁指出,“这时候万卡集群之间的连通对网络的要求,以及算力的协同调度,就成为下一步突破的关键。”

从政策层面看,国家也在积极推动算力调度平台建设,算网融合发展。2024年3月,工信部办公厅发布《关于深化算力基础设施统筹监测工作的通知》,提出“深化网络质量监测”等重点任务。2024年8月,工信部等十一部门联合发布《关于推动新型信息基础设施协调发展有关事项的通知》,提出要统筹规划骨干网络设施,鼓励网络与算力设施协同发展。

从目前发展上看,算力调度平台的建设和不断完善已经迫在眉睫。具体到实施层面,近两年来,各地方政府也都在积极推进布局,但在中国信息通信研究院云计算与大数据研究所总工程师郭亮看来,虽然各地各类平台百花齐放,但是大多“各自为政”,并没有形成联动效应,而这也造成了现阶段全国性算力平台的建设仍处于初期阶段,且发展缓慢,“对于小型的智算中心而言,如果不能有效的实现集群协同发展,就无法满足企业应用需求,从而造成了这些小型智算中心的运营并不好的问题。”郭亮强调。

集群效应仍不明显

与西气东输、南水北调等国家战略性工程不同的是,东数西算既是保障民生的重要基础设施层面的建设工程,又要担负起带动西部地区地方经济的重任,所以在郭亮看来,东数西算是要具备“商业化”属性的,要有经济效益。

但从现阶段发展来看,距离我国东西部算力协同均衡发展仍有差距。首先,我国东西部之间商业模式协调机制仍需持续完善;其次,枢纽节点算力结构需要持续优化。最后,同质化竞争带来的市场压力需要调解。由于同质化竞争,部分地区价格战加剧,导致原本的成本定价被转变为市场定价,对数据中心相关企业发展带来一定压力。

在郭亮看来,这些情况尤其体现在小型的智算中心运营情况并不乐观,只有具备一定规模的算力集群发展情况才较为乐观。造成这点的主要原因是:目前国内90%的智算中心都是1000P算力以下的,并不能很好承接大模型和超大模型的业务,且因为算力调度困难等因素的影响,又不能形成多中心的集群效应。

而算力调度平台起到的还不仅是提升智算中心运营的作用,据清华大学研究表明,大模型在处理大量数据时,由于算力调度、系统架构、算法优化等诸多问题,很多大模型企业的GPU 算力利用率低于 50%,造成了巨大的资源浪费。

不过也有发展较为不错,以初现集群效应的省市/地区,郭亮告诉钛媒体,目前来看,宁夏中卫集群的发展在几个西部地区中算是较为不错的,“一方面,中卫在初期凭借电价优势,吸引了大量用户入驻;另一方面,目前中卫因为各类政策的引导作用,在当地形成了初具规模的算力集群,因为这两大优势,中卫集群目前发展较好。”郭亮指出。

中卫市数据局的数据显示,截至6月底,中卫数据中心集群新增标准机架1.7万架,累计标准机架达8.4万架,新增GPU算力卡1.58万张;拥有大型、超大型数据中心16个,上架率超过77%,为国内4000余家企事业单位提供算力服务。

以点看面,据宁夏誉成云创数据投资有限公司总经理曲鸣向钛媒体APP透露,目前美利云中卫数据中心总体投入运营3栋数据中心机房,截至2023年底总体平均上架率为88%,截至2024年6月底总体平均上架率为92%。主要用户以大定制的大中型互联网企业为主。如此高的上架率,在北上广深这样的一线城市较为常见,但在中卫这样的西部地区的小城市却极为罕见。

中卫作为一个集群建设较好的地区,已经为全国有志于发展算力集群的省市提供了很好的模板,而面对钛媒体APP提出的中国信通院在建设集群、搭建算力平台过程中的作用时,郭亮表示,中国信通院推动中国算力平台建设的主要原因就是为了将90%的小型智算中心联接起来,实现算力同意纳管,将各类大模型产品、数据集,甚至是各类不同架构、不同生态,实现完整的打通,“让企业实现从算力到模型,再到数据集、AI应用的完整的闭环的全联接。”郭亮表示这是中国信通院的推动算力平台建设的目标。

《报告》中指出,在调度算力方面,实现算力高效调度。通过硬件重构和软件定义对GPU、AI 芯片等进行聚合池化,再利用先进的资源管理技术进行切分、调度、分配,提升算力资源利用率。

而算力的调度也成为了IDC服务商提供差异化服务能力的重要抓手,以世纪互联为例,世纪互联凭借多年来在IDC领域的积累,早早就开始布局算力调度相关技术与产品。据悉,世纪互联近年来在算力平台、调度、网络底层协议、AI框架、Agent等方面都有大量的投入和积累。目前,世纪互联已经在全国范围内运行了多个跨区域的节点,节点间通过创新的AINet连接,实现不同品牌和型号的GPU异构算力和资源的调度协同,实现了在大模型训练、微调、推理、应用全生命周期的应用和落地,满足不同类型的客户需求。

多元异构算力协同发展

除了算力中心与算力中心之间的算力传输需要平台化的产品提供协同能力以外,算力中心内部也需要一个平台,打通异构算力、多元算力之间的壁垒,让算力更智能化,实现异构多元算力的协同工作,从而进一步提升算力效率。

针对此,《报告》中也指出,伴随着我国算力产业建设的全面开展,存在算力市场分散、供需匹配能力不足、计算框架不同等问题,算力平台可实现对算力资源的统计、监测、匹配和分析,提升算力供给水平与资源匹配能力。算力资源需求方和提供方可积极促进算力平台的建设,以平台为依托进行供需对接,充分连接算力资源供给,实现算力的一键式订购和灵活调整,推动算力普适普惠。

而此次发布的《报告》也提出了“三高三可”的发展理念,明确高质量算力要具备高算效、高智效、高碳效、可持续、可获得、可评估“三高三可”六大特征。

其中高算效是指在提高算力理论算效的同时考虑更高的实测性能和资源利用率,为综合考虑设计、运行等维度的计算效率。其目的就是为了进一步提升多元异构算力的计算效率,提升GPU、CPU利用效率。

在浪潮云海首席科学家张东看来,提高算效是算力实现高质量发展过程中,不可或缺的一部分。另外一方面,当前大模型发展百花齐放,而现有大模型算效普遍不高。在算力供应矛盾凸显的当下,提升模算效率,以更低的算力实现更高智能是智效水平的核心目标,这也是报告建立高智效这个指标的初衷。“作为厂商来讲,我们希望每1P的算力都能被用起来,只有算力被用起来才能产生价值。但因为包括架构、协议等在内的种种因素的影响,目前还没有达到理想的效果,这就需要无论是芯片、整机,还是上层软件的厂商们,通过共建生态,标准化的方式,才能让这些算力充分发挥作用。”面对钛媒体APP提出的如何提高算效的问题时,张东指出。

无独有偶,郭亮也认为,运用系统工程方法,构建高效的算力中心集群,通过卡间和节点间的互联网络、软件和硬件的适配调优等提升集群算力效率,对大规模集群网络进行精细化设计,减少算力资源空闲度。

从目前厂商们的布局上也不难看出,平台化的产品,以及打造更大的生态体系已经成为了重要的布局。以浪潮信息为例,浪潮信息今年以来主推的一个产品就是支持多元算力和多模算法的企业大模型开发平台元脑企智EPAI(以下简称EPAI)平台,张东在早先与钛媒体APP的对话中曾告诉钛媒体APP,浪潮信息推出EPAI平台最重要的一个目的就是要在众多算力芯片之上,建立一个统一的平台,“EPAI提供了一个统一的‘算子封装’,屏蔽了芯片的差距,”张东指出,“对于用户而言,用户无需关注使用的谁家的芯片,从而可以在获取算效更高的算力的同时,将更多的精力集中在业务本身。”

除此之外,算力平台亦是各大云厂商重点布局的焦点,以中国电子云为例,中国电子云基于云原生理念设计了中国电子云专属云CECSTACK V5一体化算力平台,旨在帮助企业实现多元异构算力的统一管理和调度,并提供通用计算、智能计算和高性能计算等类型算力的一体化算力服务。

除了单一厂商的布局外,生态的建设在推动提升算效的过程中也尤为重要,《报告》中指出,算力技术应采用多元开放的架构,兼容成熟主流的软件生态,支 持主流的 AI 框架、算法模型、数据处理技术、广泛的行业应用等, CPU、服务器、云操作系统、平台层、应用层等分层解耦,消除单一 技术路线依赖,构建开放技术生态。

对此,张东表示,算力技术的开放解耦可通过标准化、模块化的设计实现,使算力技术的各个组件能够独立发展、灵活组合,从而实现技术间的互联互通和资源共享,这种模式有助于打破传统封闭系统的限制,促进技术创新和产业融合。(本文首发于钛媒体APP,作者|张申宇,编辑丨盖虹达)