英特尔的拳头产品高性能服务器CPU从“至强可扩展处理器”简化为“至强”之后。
今年6月发布了144核的至强6能效核产品,近期正式发布了128核至强6性能核处理器(代号Granite Rapids)。
“认识我的朋友会觉得我今天有点兴奋,因为英特尔至强6性能核,将是英特尔有史以来性能最强大的至强处理器。”英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立在发布会的开场就表达了自己的兴奋。
英特尔数据中心与人工智能集团副总裁兼中国区总经理陈葆立
至强6性能核处理器相比第五代英特尔至强可扩展处理器,拥有多达2倍的每路核心数,平均单核性能提升高达1.2倍,平均每瓦性能提升高达1.6倍,同等性能水平下平均节省30%的TCO。
大幅的性能提升,也让英特尔的合作伙伴、客户与陈葆立一样兴奋。
“128核的至强6性能核处理器,核数翻倍、单核性能实测也提升了20%,我认为至强6性能核是重回巅峰之作。”宁畅副总裁兼首席技术官赵雷认为,“至少在这一段时间,英特尔又重新占领、并且拿到了市场的主导权。”
新华三集团计算存储产品线副总裁刘宏程也给至强6性能核处理器极高的评价,“这次性能的提升并非细微的改进,而是翻天覆地的变化,这可能会改变用户以往‘再等等’的观望心态。”
至强6性能核处理器性能的大幅提升的同时,还有显眼的AI标签,进行了包括模块化设计、内存、安全、液冷等技术的全面升级,这些也都是至强6性能核获得极高评价的关键。
至强CPU是AI推理最触手可及的选择
至强6性能核处理器的全面迭代,在满足传统应用需求的同时,最大的亮点就是充分满足AI推理的需求。
大模型训练变现需要靠AI推理,并且推理需求是训练需求的5-10倍,让众多公司都瞄准了AI推理市场。业界有多家采用创新架构设计AI芯片的初创公司声称其芯片的推理性能是GPU的10倍或更多展现出了很高的性价比,那用CPU做AI推理的优势是什么?
“我们还处于AI的早期阶段,除了一些显而易见的方案,如智能客服系统相对容易部署之外,许多公司还处在初步尝试的阶段,不同的行业可能需要建立私有知识库落地AI,通用的硬件最为方便,我们认为这是一个机遇。”陈葆立对雷峰网表示。
超聚变服务器产品总经理朱勇表示,“至强6性能核处理器可以做到一芯多用。传统认为CPU就是做通用计算,现在CPU已经发展到可以去做一些10Billion左右参数的大模型的推理,为客户带来的优势是能够降低TCO,能够带来真正的商业价值。”
刘宏程认为,“随着世界的变化,单一通用解决方案已难以满足所有需求,未来计算领域,尤其是AI相关的推理能力,将成为必需品。至强6通过英特尔高级矩阵扩展(英特尔AMX),在推理性能上实现了显著提升,包括INT8、BF16、FP16等多种精度上的优化,用户无需额外投资即可享受AI推理带来的便利,这无疑将推动市场向着所有服务器都将具备AI强化功能的方向发展。”
根据英特尔给出的测试数据,最新的英特尔至强6性能核的处理器,运行从通用计算、数据库到科学计算和AI的12种常见工作负载,单颗CPU性能和每瓦特性能与上一代产品相比有两倍以上的大幅提升。
70亿参数的Llama2大模型推理借助英特尔AMX,至强6性能核处理器相比上一代产品有3.08倍的性能提升。英特尔AMX是特殊的指令集,能够更好支持常见大模型的推理计算,AMX指令集在新一代至强6上进行了升级。
大幅的性能提升来自芯片多达128核的设计和SoC架构。
2年前的主流服务器采用的至强可扩展处理器核数在24-48核,至强6性能核拥有高达128核的设计。
“我们一直期待至强CPU核数有重大跃进,此次128核的实现,正是这样一次恰到好处的巨大提升,这在过去的几代产品中前所未有。”刘宏程说出了合作伙伴和客户的期待。
英特尔实现多核采用了灵活的设计,在至强6性能核中有两个单元:计算单元(compute die)和I/O单元(I/O die)。
计算单元包含了最重要的x86内核、内存控制器和缓存。I/O单元包含了领先的PCle、CXL、UPI等通用协议,也包括了英特尔独有的加速器。
通过不同的排列组合,至强6性能核处理器可以满足云边端针对不同场景、不同性能、不同功耗的需求。
128核的英特尔至强6900P系列(代号Granite Rapids-AP)具备三个计算单元和两个I/O单元,这种组合使其拥有高达128个x86内核。
英特尔市场营销集团副总裁、中国区云与行业解决方案和数据中心销售部总经理梁雅莉分享,至强6性能核CPU核数最大达到128核,在40%的利用率下,每瓦性能提升1.9倍,为AI、数据分析、科学计算等所有计算密集型业务提供了有力保障。
阿里云智能集团服务器研发总监刘礼寅分享,阿里云基于英特尔至强6的第九代ECS实例,数据库有17%的性能提升,传统的Web应用有20%的实例性能提升,Java应用是15%的性能提升。
超强性能必须匹配更快、更大的内存
多核的设计可以带来计算性能的成倍增加,但AI工作负载最大的瓶颈并不在计算,而在于存储,也就是数据的传输速度跟不上计算的速度,业界称为“内存墙”。
为了充分释放出多核计算的性能,计算能力与内存的平衡至关重要,所以最新发布的至强6性能核处理器的内存也重点升级。
英特尔至强6900P系列持高达每秒6400MT的DDR5内存、每秒8800MT的MRDIMM内存、6条UPI 2.0链路(速率高达每秒24 GT),96条PCIe 5.0或64条CXL 2.0通道、504MB的L3缓存,支持FP16数据格式的英特尔 AMX,可为AI和科学计算等内存带宽敏感型工作负载提供MRDIMM选择,且新增对CXL 2.0的支持。
相对于上一代至强内存支持5600MT/s大幅提升。
陈葆立解释,MRDIMM利用数据缓冲区,实现两个列的同步操作,允许一次向CPU传输128 字节的数据,传统DRAM模块一次能传输64字节。
对比数据能够更直观的呈现两线的差距,同样适用至强6性能核处理器,一个使用标配6400MT/s,一个是使用更快的MRDIMM内存,在科学计算、AI等对内存非常敏感的工作负载中,MRDIMM带来了1.2-1.3倍的提升。
梁雅莉指出,使用MRDIMM之后,对比第五代英特尔至强处理器,带宽最大可提高到2.3倍。
这里有一个有趣的话题,GPU解决AI训练内存瓶颈的使用的是HBM,CPU是否也适合使用HBM?
“英特尔曾经在第四代至强可扩展处理器的时候推出过HBM的产品。不过HBM搭配CPU适用于特定的应用领域,受众范围相对较窄,当前的时间点和技术状态以及应用,使用MRDIMM更适合、更泛用,或者说能够面向更多内存敏感CPU应用的性能提升。”赵雷指出。
MRDIMM解决了更快的问题,CXL支持更多、更大内存。
CXL是一个通用协议,英特尔是这一新技术的发起方之一,目前已经有了CXL 1.0,而至强6性能核支持CXL 2.0。
“比起前一代的技术,现在的技术更成熟,能够帮助客户突破物理极限。”陈葆立说,“现在的机器可能只能插8条或者12条内存,通过CXL扩展,可以在数据库或者大内存的场景里支持更多、更大的内存。”
在至强6性能核处理器产品的发布会上,英特尔的合作伙伴超聚变也分享了双方在CXL方面的合作。
“超聚变CXL内存池与英特尔至强6性能核处理器完美结合,带来了两种极具性价比的使用模式。”朱勇进一步介绍,一种是内存池化集群模式。通过独特的 non-switch 技术,消除了switch带来的成本和访问时延开销,并降低30%的硬件成本。这一模式在集群内提供了内存资源的弹性分配与数据共享,为业务的灵活配置和调度提供更具竞争力的解决方案。
另一种是1+1超级服务器模式,这一模式下服务器直接使用内存池提供的超大内存,针对容量型业务可格外拓展80DIMM超大内存空间扩展,针对带宽型业务,可额外扩展12x8的通道,总带宽提升将近400GB/s。
联想基础设施业务群服务器产品部总经理周韬分享,基于至强6性能核的联想ThinkSystem SC750 V4服务器,测试结果显示在生物化学、气象这些应用上面都有非常出色的性能。
计算性能和内存有很好的平衡之后,至强6性能核要在AI推理中大规模使用,就需要足够的灵活性。
灵活性是吃下AI推理市场的必备技能
与AI训练相对单一的需求不同,AI推理面向各行各业需求各不相同,也就需要灵活和可定制的解决方案。
不难发现,从至强6性能核的算力、内存设计,都具备比较高的灵活性和可扩展性,到服务器层面,基于至强6性能核的服务器也通过模块化实现了较高的灵活性,能够满足包括AI在内的多样化应用需求。
“现在所有的AI服务器或者加速系统,绝大部分的机头也都是英特尔CPU处理器。我们与主流的GPU厂商、AI生态合作伙伴建立了良好的合作关系,共同定义至强规格以提供最佳的机头体验。”陈葆立进一步表示,“此外,DC-MHS 是开放计算项目OCP发布的数据中心模块化硬件系统规范。模块化设计缩短了集成和验证周期,既可以加速产品面世,也可以更高效地为未来设计跨越多代做准备。”
潮信息服务器产品线总经理赵帅分享,每个客户都希望获得更好的能效,或者更好的TCO收益,在同样算力单元下,基于不同的机房条件,用户对于产品的设计要求会有不同。
今年初,浪潮和英特尔联合上下游产业单位,打造了开放算力模组技术规范的项目,目前已经正式立项,这是国内首个服务器计算模组的设计标准,项目希望通过构建开放合作,融合创新的商业生态,来激发整个算力的创新。”
赵帅说,“基于模块化、松耦合的开源架构,搭载英特尔至强6处理器的服务器NF3290G8可以很好地实现算力标准化,通过算力单元的扩展实现单路、双单路架构的灵活扩展,并且能实现外围组件的归一化,让平台机型尽量统一,降低用户的运维负担,这台服务器的前后窗可以灵活搭配AI加速卡或者智能网卡,满足客户对于多样性场景用同一款机型的需求。”
不可忽视的液冷和安全升级
从计算和内存性能的平衡,再到足够的灵活性,都是CPU能够充分满足AI推理需求的关键。
但要用CPU更多实现AI推理和应用,不能忽略随着性能提升带来的高功耗的散热以及安全问题。
相比上一代至强平台所需的电量是350瓦,至强6性能核需要500瓦的的供电,在增加30%功耗的情况下,算力双倍提升。
“至强6 性能核500瓦的功耗,客观上推动了液冷的发展和快速落地。过去350瓦或更低功耗,风冷没问题,但从这一代开始,散热器无一例外将非常夸张。”赵雷表示。
为了解决这个问题,英特尔联合新华三成功突破油类单相浸没散热能力有限的技术难题,推出基于G-flow创新技术的平台解决方案。
液冷解决方案有全面覆盖冷板式液冷和浸没式液冷两大主流技术路线,刘宏程分享,今年7月推出的G-Flow方案使用臭氧消耗潜值ODP为0的绝缘油。
G-Flow方案的优势就在于增加了强制对流,提供千瓦级芯片的散热能力,让用户可以选择更优兼容性的液体。
还有容易被忽视的安全问题,“至强处理器在机密计算上也做了很多特殊的技术加固,早期用SGX技术,第五代至通过全新的英特尔TDX技术,提供面向虚拟化实例的机密计算架构。至强6的TDX升级为2.0,提供了更可靠、更牢固的安全密钥,更好地支持客户的产品。”
火山引擎也推出了第四代云服务实例,采用英特尔技术新一代DPU、CPU核心设计和I/O能力都翻倍,并且创新地采用了双单路的这样一个结构架构,保证系统稳定性。Java应用、Web应用、数据库等应用性能较上一代的实例提升高达20%。
火山引擎第四代云服务实例也基于TDX2.0,以机密虚拟机为核心,构建了机密计算的一个基础云服务,同时也结合了可信隐私计算的一个技术积累,共同构建了一个大模型的可信应用体系。
从核数、内存、安全、散热到AMX的AI支持,以及从芯片级到服务器层级的灵活性和通用性,英特尔打造了一个拥有高密度计算能力和最佳每瓦性能的至强6性能核处理器。
显然英特尔已经从至强6开始重点押注AI推理,这对于CPU是一个可以预见的增量市场,从核数来说至强6可以匹敌Arm和AMD,从生态的成熟度以及产品的稳定性角度看,英特尔至强依旧拥有其一贯的优势。
至强6,只是英特尔开启CPU新时代的开始。雷峰网