设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
redclay的博客  
Computer Hardware Information  
我的名片
redclay
注册日期: 2022-02-08
访问总量: 5,337 次
点击查看我的个人资料
Calendar
我的公告栏
最新发布
· SK Hynix 推出革命性的 300TB 固
· AMD 的旗舰 AI 加速器 MI325X 对
· 【转】How to choose Intel CPUs
· 旧的计算机显卡还有回收的价值吗
友好链接
分类目录
【科技】
【生活】
· SK Hynix 推出革命性的 300TB 固
· AMD 的旗舰 AI 加速器 MI325X 对
· 【转】How to choose Intel CPUs
· 旧的计算机显卡还有回收的价值吗
存档目录
10/01/2024 - 10/31/2024
07/01/2024 - 07/31/2024
10/01/2022 - 10/31/2022
发表评论
作者:
用户名: 密码: 您还不是博客/论坛用户?现在就注册!
     
评论:
AMD 的旗舰 AI 加速器 MI325X 对标 Nvidia H200
   

AMD 计划于今年晚些时候推出其最新的旗舰 AI 加速器 MI325X,旨在提供更高的带宽。这一发布标志着 AMD 正在跟随 Nvidia 的脚步,将“Instinct”系列加速器的发布周期调整为每年一次。

根据目前掌握的信息,Instinct MI325X 与 Nvidia 的 H200 相当相似,它是去年 12 月 AMD 在 Advancing AI 活动中详细介绍的 GPU 的增强版本,采用了 HBM3e 内存。这款部件由八个计算芯片、四个 I/O 芯片和八个内存芯片组成,通过 2.5D 和 3D 封装技术组合在一起,堪称 AMD 有史以来最复杂的设计之一。

尽管即将推出的芯片由 CDNA 3 GPU 驱动,但在浮点运算每秒(FLOPS)方面并没有实质性的提升。该芯片仍保持 1.3 petaFLOPS 的 BF/FP16 性能,或者在降至 FP8 时达到 2.6 petaFLOPS。需要指出的是,MI325X 在任何给定的精度下都比 H200 更快。

AMD 似乎在不断扩大其相对于 Nvidia 的内存优势。MI300X 在发布时拥有 192GB 的 HBM3 内存,比 H100 多出两倍,比即将推出的 H200 多出 51GB。而 MI325X 更是将加速器的内存容量提升至 288GB,比 H200 多出两倍,比 Nvidia 在今年春季 GTC 上揭晓的 Blackwell 芯片多出 50%。

MI325X 转向 HBM3e 还将提升内存带宽至 6TB/sec。虽然与 MI300X 的 5.3TB/sec 相比只增加了 1.3 倍,未能达到最初希望的 8TB/sec,但仍然超越了 Nvidia 的 Blackwell GPU。

关于 MI325X 的详细内存配置,我们将需要等到今年晚些时候才能揭晓。

内存容量和带宽已成为 AI 推理的主要瓶颈。在使用 8 位精度进行计算时,每十亿个参数需要大约 1GB 的内存。因此,MI325X 能够容纳 2500 亿参数模型,或在八个 GPU 系统中接近 2 万亿参数模型,同时仍有空间存储关键的值缓存。

尽管硬件支持 FP8 是 MI300X 发布时的主要卖点之一,但 AMD 通常在其基准测试中侧重于半精度(FP16)性能。在去年底与 Nvidia 针对基准测试真实性的争论中,我们了解到原因。对于许多基准测试,AMD 依赖于 vLLM——一个对 FP8 数据类型没有稳定支持的推理库。这意味着在推理过程中,MI300X 只能使用 FP16。

除非 AMD 能够克服这一限制,否则在 H200 上运行 FP8 模型将需要 MI325X 使用两倍的内存,从而消除其 288GB 巨大容量可能带来的任何优势。更重要的是,H200 在 FP8 浮点性能上将比 MI325X 在 FP16 时更高。

虽然 AMD 更倾向于与 Nvidia 的 Hopper 一代产品进行比较,但更值得关注的是即将推出的 Blackwell 系列,据称这些芯片将于今年晚些时候开始进入市场。在其 B200 配置中,1000W 的 Blackwell 部件承诺提供高达 4.5 petaFLOPS 的 FP8 和 2.25 petaFLOPS 的 FP16 性能,192GB 的 HBM3e 内存,以及 8TB/sec 的带宽。

尽管如此,坚持使用 FP/BF16 数据类型进行训练和推理仍然具有一定的价值。早些时候发布的 Gaudi3 拥有 192GB 的 HBM2e 内存和双芯片设计,能够输出 1.8 petaFLOPS 的 FP8 和 FP16 性能。这使其比 H100/200 高出 1.85 倍,比 MI300X/325X 高出 1.4 倍。

当然,这种情况可能并不会一直如此。大量的研究工作已经投入到稀疏模型的训练中,尤其是对于 Nvidia 和晶圆级竞争者 Cerebras 而言。至少对于推理来说,支持稀疏浮点数学最终可能对 AMD 和 Nvidia 都有利。

MI300A 是一个独特的类别。Nvidia 的 Grace Hopper 和 Grace Blackwell 超级芯片是完全不同的设计——它们不共享内存,也不太依赖于先进的封装技术。与此同时,Intel 的 Falcon Shores XPU 原计划像 AMD 的 MI300A 一样共同封装 CPU 和 GPU,但最终转而采用 Habana-Gaudi 加上 Xe 图形处理器。

尽管人工智能被炒得很热,但还没有真正见到哪家公司因为人工智能服务而赚大钱。自动驾驶在 2017 年时预测几年后就可以商用,但至今仍未真正实现商业化。在人工智能领域,或许买 GPU 会是更好的商业模式,比如Sell GPUs特别是AI加速器。


 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. Creaders.NET. All Rights Reserved.