允中 发自 拉斯维加斯
量子位 | 公众号 QbitAI

亚马逊云科技在2024年re:Invent全球大会上宣布了其AI硬件的最新进展——

正式推出基于Amazon Trainium2芯片的Amazon EC2 Trn2实例,同时发布了新一代AI训练芯片Trainium3。

这些新产品为人工智能模型的开发和部署提供了更高的性价比和性能,标志着亚马逊云科技在生成式AI领域的新里程碑。

Amazon EC2 Trn2实例采用最新的Trainium2芯片,性价比较现有基于GPU的EC2实例提升了30-40%,为AI开发者提供了更具成本效益的解决方案。

亚马逊云科技推出新一代AI训练芯片Amazon Trainium3

△Amazon EC2 Trn2 实例服务器模块

每个Trn2实例配备16个Trainium2芯片,可提供高达20.8 Petaflops的浮点算力,非常适合训练和部署包含数十亿参数的大型语言模型。

亚马逊云科技推出新一代AI训练芯片Amazon Trainium3

△Amazon Trainium2芯片

为了满足不断增长的AI计算需求,亚马逊还推出了Trn2 UltraServers。

这种服务器机型通过NeuronLink超速互连技术将四个Trn2服务器连接为一个超大型服务器,具备83.2 Petaflops的计算能力,专为超大规模AI模型的训练和推理而设计。

亚马逊云科技推出新一代AI训练芯片Amazon Trainium3

△Amazon EC2 Trn2 UltraServers

此外,亚马逊云科技还宣布了新一代AI训练芯片Trainium3的推出。

这款芯片是亚马逊首款采用3纳米工艺制造的AI芯片,在性能、能效和密度上树立了新标杆,搭载Trainium3的UltraServers性能预计是Trn2 UltraServers的四倍。

Trainium3的实例预计将在2025年末上线,为未来的大规模生成式AI模型提供更快的训练速度和更优的实时性能。

亚马逊云科技生成式AI产品总监Sherry Marcus博士在交流过程中时表示,亚马逊致力于为客户提供更高效的解决方案,帮助他们减少AI幻觉并提高模型的准确性。

Marcus博士提到:

  • 我们推出了自动推理(automated reasoning)等功能,确保大语言模型的输出更加可靠。这些解决方案使得我们在减少AI幻觉方面取得了很好的效果。

这意味着,Amazon Bedrock平台上可实现基于上下文的验证机制,以确保模型输出的合理性和准确性,进一步减少AI幻觉的发生。

除了硬件上的突破,亚马逊还与多家领先AI公司展开合作。

Anthropic和亚马逊共同打造了名为Project Rainier的EC2 UltraCluster计算集群,包含数十万个Trainium2芯片,其算力达到当前最先进AI模型训练所需算力的五倍以上。

这个项目将成为全球最大的AI计算集群之一,供Anthropic构建和部署未来的AI模型。

Hugging Face也在借助Amazon Trainium2和Neuron SDK开发开源AI模型,这些合作将使更多开发者能够以更低的成本、更高的效率创建AI应用。

亚马逊云科技还发布了Amazon Neuron软件套件,以帮助开发者更好地利用Trainium芯片的性能。

该软件包含编译器、运行时库和工具,与JAX和PyTorch等框架无缝集成,使开发者能够轻松优化模型,在Trainium芯片上实现最佳性能。

Sherry Marcus博士还提到,这些工具的推出将极大地简化AI模型的开发流程,尤其是在减少AI幻觉和提高模型推理可靠性方面表现突出。

通过推出Amazon Trainium2和Trainium3芯片,亚马逊云科技继续保持在生成式AI硬件领域的领先地位。

新产品不仅能够为大型模型提供卓越的性能和更快的训练速度,还显著降低了企业部署AI的成本。

除此之外,应用层上的更新也是此次re:Invent的一大亮点。

沙利文大中华区总监李庆表示:

  • 本届re:Invent大会上的新发布更加侧重于产品的实际应用和工具优化,这表明过去一年中,全球用户正在积极使用亚马逊云科技进行生成式AI应用的探索和创新。
  • 本次更新有两个方面让李庆印象深刻:一是随着全球企业对生成式AI的深入应用,数据不仅实现跨区域的传输与协同,更实现跨地域、跨区域的深度连接.
  • 二是亚马逊云科技进一步优化生成式AI的应用,从数据存储、治理到管理的全流程提升,旨在简化 AI 对数据的使用,同时强化模型功能、增加AI agent 管理和应对模型幻觉的功能。
  • 此外,新发布的 Amazon Nova 大模型家族备受期待,这一系列的模型和亚马逊云科技的开放选择理念将为用户带来更多创新机会,进一步推动 AI 的发展。

这些创新将进一步推动生成式AI在各个行业的应用,使企业能够更好地利用AI技术来提升业务表现、降低运营成本。