当地时间12月5日,美国大孟菲斯商会(Greater Memphis Chamber)发表声明称,马斯克的人工智能初创公司xAI承诺将其超级计算机项目Colossus的算力扩大十倍,未来将搭载100万块GPU,从而对抗谷歌、OpenAI和Anthropic等竞争对手。
Colossus不仅被业内视为世界上最大的超级计算机,也是历史上建设速度最快的超级计算机项目,马斯克今年早些时候仅用了3个月就完成了该计算机集群的建设。英伟达创始人CEO黄仁勋曾表示,Colossus这种规模的数据中心通常需要三年才能建成,他表示世界上仅有马斯克一人能如此高效地建成这一项目,堪称“奇迹”。
该超级计算机目前运行着由10万多块英伟达GPU组成的集群。这些芯片用于训练xAI的聊天机器人Grok,但Grok的用户数量少于市场领导者OpenAI的大模型ChatGPT或谷歌的大模型Gemini。
马斯克计划的Colossus扩张项目预计将需要数百亿美元的投资,此外,为支持如此大规模数据中心的建设,还需要大规模的服务器供电和冷却系统,这些都将产生高昂的成本。
另据大孟菲斯商会最新的声明,除了马斯克的xAI之外,英伟达、戴尔和超微电脑(SuperMicro)等公司也将在孟菲斯扩张。今年早些时候,戴尔和超微电脑宣布将为xAI提供服务器机架。
马斯克正在数据中心基础设施上进行巨大的投入。xAI今年已融资约110亿美元的资金,其中大部分资金都被用于购买英伟达的GPU芯片。
根据网站LessWrong近日发表的一篇博客数据显示,根据公开数据对英伟达芯片的产量以及各大科技巨头的GPU数量预估,截止目前,全球拥有GPU数量最多的公司分别为谷歌、微软、Meta、亚马逊以及xAI。
上述网站数据显示,如以H100芯片算力来计算,谷歌拥有100万至150万块等效H100,明年预计达到350万至420万块;微软拥有75万至90万块等效H100,明年预计达到250万至310万块;Meta拥有55万至65万块等效H100,明年预计达到190万至250万块;亚马逊拥有25万至40万块等效H100,明年预计达到130万至160万块;xAI拥有10万块等效H100,明年预计达到55万至100万块。
这意味着,马斯克的xAI要赶上谷歌、微软等巨头科技还需要付出很大的努力。目前,xAI使用了大约2万块H100训练Grok 2大模型,并计划用10万块H100训练Grok 3大模型。随着英伟达最新一代Blackwell开始大量出货,马斯克宣称,将在2025年夏天部署一个有30万块Blackwell芯片的运算集群。
一份最新发布的2024 AI现状报告对Blackwell芯片采购量进行了估算。报告称,大型云计算公司正在大规模采购英伟达的GB200系统:微软介于70万到140万块之间,谷歌为40万块,OpenAI也将拥有至少40万块,亚马逊AWS为36万块。
过去一年,科技公司都在大力争夺人工智能芯片资源,并积极投入AI基础设施建设。根据风投机构Menlo Ventures的最新数据,生成式AI市场的收入预计将在十年内超过1万亿美元,而今年企业在生成式AI上的支出激增500%。