2024年AWS re:Invent大会期间,亚马逊网络服务(AWS)宣布推出搭载Trainium2芯片的Amazon Elastic Compute Cloud(EC2)新实例,正式向用户开放。这一新实例在性价比上较上一代GPU EC2实例提高了30-40%。AWS首席执行官马特・加曼宣布:“我们很高兴推出由Trainium2驱动的Amazon EC2 Trn2实例。”
除了Trn2实例,AWS还推出了Trn2UltraServers,并展示了下一代Trainium3 AI芯片。Trn2实例配备16颗Trainium2芯片,计算性能高达20.8petaflops,专为训练和部署参数量达数十亿的大型语言模型(LLM)而设计。
Trn2UltraServers则将四个Trn2服务器整合为一个系统,提供高达83.2petaflops的计算能力,实现更高的可扩展性。这些UltraServers拥有64颗互联的Trainium2芯片,满足客户在训练和推理过程中对计算力的需求。AWS计算与网络副总裁大卫・布朗表示:“Trainium2实例和Trn2UltraServers的推出,为解决最复杂的AI模型提供了所需的计算能力。”
AWS与Anthropic公司合作,启动了名为Project Rainier的大规模AI计算集群项目,采用数以十万计的Trainium2芯片。这一基础设施将支持Anthropic的开发,包括对其旗舰产品Claude的优化,以便在Trainium2硬件上高效运行。
同时,Databricks和Hugging Face也与AWS合作,利用Trainium芯片提升AI产品的性能和成本效益。Databricks计划借助这些硬件增强其Mosaic AI平台,而Hugging Face则将Trainium2集成到其AI开发和部署工具中。
Trainium2的其他客户还包括Adobe、Poolside和高通。加曼提到,Adobe在使用Trainium2进行Firefly推理模型测试后,结果令人满意,预计将大幅节省成本。“Poolside预计能节省40%的成本”,他补充道。“高通正利用Trainium2开发可在云端训练并在边缘部署的AI系统。”
此外,AWS还预告了采用3纳米工艺制程的Trainium3芯片。基于Trainium3的UltraServers预计将于2025年底推出,目标是将性能提升至Trn2UltraServers的四倍。
为充分发挥Trainium硬件的性能,AWS推出了Neuron SDK,这是一套软件工具,帮助开发者优化模型以在Trainium芯片上实现最佳性能。该SDK支持JAX和PyTorch等框架,使客户能够在最小程度修改代码的情况下,将软件集成到现有工作流程中。
目前,Trn2实例已在美国东部(俄亥俄州)地区上线,未来将拓展至其他地区。UltraServers目前已进入预览阶段。
亮点:
🌟 AWS Trainium2实例性能较旧版GPU实例提升30-40%。
💡 Trn2UltraServers整合多个Trn2服务器,提供强大计算力,满足大型AI模型需求。
🚀 AWS与多家企业合作,推动AI技术应用,助力客户在成本和性能上取得优势。
暂无评论