AMD的256GB Instinct MI325X GPU在AI推理工作负载方面的表现可以超越Nvidia的141GB H200处理器,并承诺下一代MI350加速器芯片将使性能大幅提升。
在训练AI模型方面,AMD表示MI325X与H200相当或略胜一筹。
MI325X是Instinct MI300X的后续产品,具有更大的内存容量和带宽。
Instinct MI300X去年12月推出,AMD凭借提供强大的AI加速器芯片方面的实力,成为Nvidia的竞争对手。
这是AMD新战略的一部分,即每年发布一次Instinct芯片,而不是每两年发布一次,这显然是为了跟上Nvidia加快的芯片发布节奏。
AMD表示,MI325X明年第一季度开始应用于戴尔科技、联想、超微、惠普企业、技嘉、Eviden 和其他几家服务器供应商的系统。
Instinct MI325X规格和性能指标
Instinct MI300X配备192GB HBM3和5.3TB/s的内存带宽,而基于与MI300X相同的CDNA 3 GPU 架构的MI325X配备256GB HBM3E,由于内存格式的更新,内存带宽可达到6TB/s。
在吞吐量方面,MI325X具有与MI300X相同的功能:8位浮点(FP8)性能为2.6千万亿次浮点运算,16位浮点(FP16)性能为1.3千万亿次浮点运算。
在芯片级别将AI推理性能与H200进行比较时,AMD表示,MI325X采用8组、70亿参数的Mixtral 模型,吞吐量提高40%;采用70亿参数的Mixtral模型,延迟降低30%;采用700亿参数的Llama 3.1模型,延迟降低20%。
MI325X将适用于八芯片Instinct MI325X平台,该平台将作为明年初推出的服务器的基础。
该平台通过带宽为896GB/z的AMD Infinity Fabric连接八个MI325X GPU,将具有2TB的HBM3e 内存、48TB/s的内存带宽、20.8 petaflops的FP8性能和10.4 petaflops的FP16性能。
这意味着MI325X平台的内存容量比Nvidia的H200 HGX平台高出80%,内存带宽高出30%,FP8和FP16吞吐量快30%,该平台配备8个H200 GPU,今年早些时候开始出货,作为基于H200的服务器的基础。
AMD将推理性能与H200 HGX平台进行比较,MI325X平台通过4050亿个参数的Llama 3.1模型提供了更快40%的吞吐量,通过700亿个参数的Llama 3.1模型提供了更低20%的延迟。
在单个GPU上训练70亿参数的Llama 2模型时,MI325X比H200快10%。
另一方面,在八个GPU上训练700亿参数的Llama 2模型时,MI325X平台与H200 HGX平台不相上下。
MI350芯片推理能力提升35倍
下一代 Instinct MI350加速器芯片系列有望明年下半年推出,并透露与MI300X相比,推理性能将提高35倍。
这是基于运行1.8万亿参数专家混合模型的八GPU MI350平台的工程估算做出的预测。
MI350系列基于AMD下一代CDNA 4架构,采用3纳米制造工艺,将包括MI355X GPU,配备288GB HBM3e内存和8TB/s内存带宽。
MI350系列支持新的4位和6位浮点格式 (FP4、FP6),MI355X能够实现9.2千万亿次浮点运算。
对于FP8和FP16,MI355X预计分别达到4.6千万亿次浮点运算和2.3千万亿次浮点运算。
这意味着下一代Instinct芯片有望比MI325X或MI300X提供快77%的FP8和FP16格式的性能。
Instinct MI355X平台配备八个MI355X GPU,预计将具有2.3TB HBM3e内存、64TB/s内存带宽、18.5 petaflops的FP16性能、37 petaflops的FP8性能以及74 petaflops的FP6和FP4性能。
MI355X平台拥有74petaflops的FP6和FP4性能,预计比MI300X平台的FP16功能快7.4倍。
MI355X平台的内存容量增加了50%,这意味着它可以在单个系统上支持多达4.2万亿个参数模型,是MI300X平台的六倍。
AMD明年下半年推出MI355X后,公司计划在2026年推出采用下一代CDNA架构的Instinct MI400 系列。
点击此处关注,获取最新资讯!
我的评论
最新评论