发表评论-redclay-万维博客-万维读者网（电脑版）

设万维读者为首页

万维读者网 -- 全球华人的精神家园

广告服务

联系我们

关于万维

首　页

新　闻

视　频

博　客

论　坛

分类广告

购　物


		redclay的博客
	https://blog.creaders.net/u/28711/ > 复制 > 收藏本页	Computer Hardware Information

我的名片

redclay

注册日期: 2022-02-08
访问总量: 20,153 次

· AI Token 越来越便宜，为何 GPU

· Memory as a Service MaaS：CXL

· FWD:Where to Sell GPUs in Bulk

· 三星 DRAM 价格暴涨 100%：为何

· NVIDIA Unveils the Inference C

· 二手測試儀器購買與出售完整指南

· 高性能 GPU 出售策略指南

友好链接

分类目录

【科技】

· AI Token 越来越便宜，为何 GPU

· Memory as a Service MaaS：CXL

· FWD:Where to Sell GPUs in Bulk

· 三星 DRAM 价格暴涨 100%：为何

· NVIDIA Unveils the Inference C

· 二手測試儀器購買與出售完整指南

· 高性能 GPU 出售策略指南

· 英伟达GTC 2025：Blackwell Ultr

【生活】

· 二手測試儀器購買與出售完整指南

· SK Hynix 推出革命性的 300TB 固

· AMD 的旗舰 AI 加速器 MI325X 对

· 【转】How to choose Intel CPUs

· 旧的计算机显卡还有回收的价值吗

存档目录

07/01/2026 - 07/31/2026

03/01/2026 - 03/31/2026

01/01/2026 - 01/31/2026

04/01/2025 - 04/30/2025

03/01/2025 - 03/31/2025

10/01/2024 - 10/31/2024

07/01/2024 - 07/31/2024

10/01/2022 - 10/31/2022

发表评论

敬告：您的浏览器已关闭活动脚本，开启后才可正常使用！

作者：

用户名：

密码：

您还不是博客/论坛用户？现在就注册！

评论：

AMD 的旗舰 AI 加速器 MI325X 对标 Nvidia H200

AMD 计划于今年晚些时候推出其最新的旗舰 AI 加速器 MI325X，旨在提供更高的带宽。这一发布标志着 AMD 正在跟随 Nvidia 的脚步，将“Instinct”系列加速器的发布周期调整为每年一次。

根据目前掌握的信息，Instinct MI325X 与 Nvidia 的 H200 相当相似，它是去年 12 月 AMD 在 Advancing AI 活动中详细介绍的 GPU 的增强版本，采用了 HBM3e 内存。这款部件由八个计算芯片、四个 I/O 芯片和八个内存芯片组成，通过 2.5D 和 3D 封装技术组合在一起，堪称 AMD 有史以来最复杂的设计之一。

尽管即将推出的芯片由 CDNA 3 GPU 驱动，但在浮点运算每秒（FLOPS）方面并没有实质性的提升。该芯片仍保持 1.3 petaFLOPS 的 BF/FP16 性能，或者在降至 FP8 时达到 2.6 petaFLOPS。需要指出的是，MI325X 在任何给定的精度下都比 H200 更快。

AMD 似乎在不断扩大其相对于 Nvidia 的内存优势。MI300X 在发布时拥有 192GB 的 HBM3 内存，比 H100 多出两倍，比即将推出的 H200 多出 51GB。而 MI325X 更是将加速器的内存容量提升至 288GB，比 H200 多出两倍，比 Nvidia 在今年春季 GTC 上揭晓的 Blackwell 芯片多出 50%。

MI325X 转向 HBM3e 还将提升内存带宽至 6TB/sec。虽然与 MI300X 的 5.3TB/sec 相比只增加了 1.3 倍，未能达到最初希望的 8TB/sec，但仍然超越了 Nvidia 的 Blackwell GPU。

关于 MI325X 的详细内存配置，我们将需要等到今年晚些时候才能揭晓。

内存容量和带宽已成为 AI 推理的主要瓶颈。在使用 8 位精度进行计算时，每十亿个参数需要大约 1GB 的内存。因此，MI325X 能够容纳 2500 亿参数模型，或在八个 GPU 系统中接近 2 万亿参数模型，同时仍有空间存储关键的值缓存。

尽管硬件支持 FP8 是 MI300X 发布时的主要卖点之一，但 AMD 通常在其基准测试中侧重于半精度（FP16）性能。在去年底与 Nvidia 针对基准测试真实性的争论中，我们了解到原因。对于许多基准测试，AMD 依赖于 vLLM——一个对 FP8 数据类型没有稳定支持的推理库。这意味着在推理过程中，MI300X 只能使用 FP16。

除非 AMD 能够克服这一限制，否则在 H200 上运行 FP8 模型将需要 MI325X 使用两倍的内存，从而消除其 288GB 巨大容量可能带来的任何优势。更重要的是，H200 在 FP8 浮点性能上将比 MI325X 在 FP16 时更高。

虽然 AMD 更倾向于与 Nvidia 的 Hopper 一代产品进行比较，但更值得关注的是即将推出的 Blackwell 系列，据称这些芯片将于今年晚些时候开始进入市场。在其 B200 配置中，1000W 的 Blackwell 部件承诺提供高达 4.5 petaFLOPS 的 FP8 和 2.25 petaFLOPS 的 FP16 性能，192GB 的 HBM3e 内存，以及 8TB/sec 的带宽。

尽管如此，坚持使用 FP/BF16 数据类型进行训练和推理仍然具有一定的价值。早些时候发布的 Gaudi3 拥有 192GB 的 HBM2e 内存和双芯片设计，能够输出 1.8 petaFLOPS 的 FP8 和 FP16 性能。这使其比 H100/200 高出 1.85 倍，比 MI300X/325X 高出 1.4 倍。

当然，这种情况可能并不会一直如此。大量的研究工作已经投入到稀疏模型的训练中，尤其是对于 Nvidia 和晶圆级竞争者 Cerebras 而言。至少对于推理来说，支持稀疏浮点数学最终可能对 AMD 和 Nvidia 都有利。

MI300A 是一个独特的类别。Nvidia 的 Grace Hopper 和 Grace Blackwell 超级芯片是完全不同的设计——它们不共享内存，也不太依赖于先进的封装技术。与此同时，Intel 的 Falcon Shores XPU 原计划像 AMD 的 MI300A 一样共同封装 CPU 和 GPU，但最终转而采用 Habana-Gaudi 加上 Xe 图形处理器。

尽管人工智能被炒得很热，但还没有真正见到哪家公司因为人工智能服务而赚大钱。自动驾驶在 2017 年时预测几年后就可以商用，但至今仍未真正实现商业化。在人工智能领域，或许买 GPU 会是更好的商业模式，比如Sell GPUs特别是AI加速器。