相比上一代,Trainium3计算性能最高提升4.4倍,能效提升4倍,内存带宽也接近翻两番。基于Trainium3构建的UltraServer系统支持互联扩展,单系统可容纳144枚芯片,并为单个应用提供多达100万枚Trainium3芯片的算力支持,规模达到上一代的10倍。
亚马逊表示,与采用图形处理单元(GPU)的系统相比,使用Trainium3训练和运行AI模型的成本可降低最多50%。
此外,亚马逊已着手开发下一代产品Trainium4。据披露,Trainium4预计将带来6倍的FP4计算性能、3倍的FP8性能,内存带宽和容量分别提升至4倍与2倍,并支持通过NVLink Fusion和UALink实现纵向扩展。
对于与行业龙头英伟达的关系,负责Trainium项目的AWS副总裁兼首席架构师Ron Diamant明确表示:“我不认为我们会试图取代英伟达。”




