在全球算力军备竞赛全面爆发的当下,AMD 迎来了前所未有的紧迫感。硬件性能差距正在缩小,但真正决定胜负的战场已转向软件生态与开发者心智。面对英伟达不断加固的“护城河”,AMD 试图以“战时状态”自我重塑:补齐软件短板、强化开发者关系、加大算力投入,并押注 MI450X 与即将到来的 M150X 打开突破窗口。

本报告不仅剖析了 AMD 的组织转型、CI/CD 与生态建设,还深入比较了 Python 优先策略下 CUDA 与 ROCm 的差距,评估了 RCCL 与 NCCL 在分布式通信中的落差,审视了 AMD 内部算力和薪酬体系的制约,并对未来产品节奏提出了关键判断。问题在于,这一切是否来得及?2025 下半年 M150X 的登场,或许将成为 AMD 能否与英伟达在机架级市场同台对抗的关键时刻。

原报告我放在了知识星球

以下是对报告内容的梳理总结——————————————

一、战时组织:从承认差距到行动加速

在 AI 大模型时代,组织文化的取向直接决定了企业能否在技术竞赛中突围。AMD 的转折点发生在高层承认现实的那一刻:软件生态存在显著缺口,尤其是在 ROCm 与 CUDA 的对比下暴露无遗。坦承差距,意味着不再以硬件优势自我安慰,而是进入一种“战时状态”——资源聚焦、节奏加快、容错空间压缩。

这种心态转变首先体现在领导层的公开表态。Lisa Su 明确提出要加大 AI 人才与软件预算的投入,这并非单纯的口号,而是一种战略姿态:在 GPU 竞争已经高度同质化的今天,真正的胜负手在于软件生态和开发者心智。承认差距,既是内部动员令,也是对外释放信号:AMD 不再回避与 Nvidia 的短板对比,而是愿意在战场上硬碰硬。

随之而来的,是组织层面的动作。2025 年初,AMD 专门设立了开发者关系职能,推动与社区的一线互动,口号转向“Developers First”。这意味着过去那种“以产品为中心”的思路正在让位于“以开发者体验为中心”的策略。开发者关系的存在,不仅是外部沟通渠道,更是一种机制化的承诺:任何优化和迭代必须以开发者感受为标尺,而不是以内部 KPI 为唯一目标。

这场文化转向的本质,是从“工程师驱动”走向“生态驱动”。AMD 的管理层终于认识到:生态不是硬件自然的副产品,而是需要经营的护城河。只有当开发者感受到持续的投入、透明的沟通和一流的支持时,AMD 才有可能在 GPU 市场中夺回部分话语权。

在 GPU 的军备竞赛中,硬件只是门票,真正决定胜负的是生态。AMD 的战时转型,正是在补上这张最关键、也是最迟到的答卷。

二、 软件底座的“修内功”:CI/CD、PyTorch 集成与可复现基线

在 AI 竞赛中,软件底层架构的完备性决定了上层生态能否繁荣。过去,AMD 的 ROCm 最大的痛点之一,是缺乏完整的持续集成与持续交付(CI/CD)体系,导致开发者在使用过程中常常面临“不可复现”“不稳定”“性能声明与实际差距”这类基础性问题。

2025 年初,AMD 在这方面的进展堪称“补课式突破”。短短四个月内,MI300 系列产品正式被纳入 PyTorch 的 CI/CD 流水线。这意味着每一次代码提交、版本更新,都会自动触发测试与验证,确保功能的可靠性与性能基准的一致性。从“零覆盖”到“系统纳管”,这一转变不仅提升了开发者的信任度,更让 AMD 逐渐具备了和 Nvidia 在软件工程纪律上的对话资格。

更关键的是,这种“修内功”带来了一种新秩序:可复现性。过去 ROCm 的问题常常在于“能跑,但不稳”,工程团队和开发者需要投入大量额外精力来定位错误、追踪 bug。如今,通过 PyTorch CI/CD 的全流程覆盖,AMD 能够在产品发布前,就消化掉绝大多数兼容性与稳定性风险。正如一位业内人士所言:“CI/CD 不是工程细节,而是生态信用。”

然而,基础设施的补齐只是第一步。AMD 的 CI/CD 仍主要聚焦在模型运行层面,而在更深层的系统基础设施——如 Kubernetes、SLURM 调度、性能监控与集群管理等——仍存在明显短板。这意味着 AMD 虽然迈出了关键一步,但距离形成完整的“工程护城河”仍有距离。

可以说,CI/CD 与可复现基线,是 AMD “战时状态”的第一个落地成果。它让开发者看到:AMD 不再只是硬件供应商,而是愿意为生态稳定性负责的伙伴。

在 AI 软件的世界里,CI/CD 是开发者信任的底层契约。AMD 虽然起步晚,但好在终于让 ROCm 有了进入生态赛道的资格。

三、生态的赢法:从“产品导向”到“Developers First”

如果说过去的 AMD 更像一家“产品公司”,那么在 AI 时代,它必须转型为一家“生态公司”。硬件的规格表和峰值性能已经无法打动开发者,真正决定市场走向的,是软件栈的完整性和社区的活跃度。

这一点在 2025 年初的组织调整中得到了体现。AMD 成立了专门的开发者关系团队,明确提出“Developers First”的口号。这一转变不仅是口号上的更新,更意味着公司战略优先级的重排:从强调产品参数与硬件迭代,转向以开发者体验为第一考量。对 AMD 而言,这既是文化的转折,也是竞争方式的重构。

围绕“Developers First”,AMD 正在推动更频繁、更透明的互动。例如,过去那种“产品发布—客户适配—问题反馈”的线性链条正在被打破,取而代之的是双向循环:开发者的使用体验可以直接反哺到研发迭代的节奏中。这种机制上的改造,意在缩短生态修复的反馈周期,让 ROCm 从“迟钝的跟随者”逐渐向“有反应的参与者”过渡。

更值得关注的是,AMD 计划在 6 月推出面向社区的开发者云。通过向开发者免费开放大规模 GPU 集群,AMD 希望制造一个类似 “GPT-J 时刻” 的破圈事件——即在开源社区形成一种“用 ROCm 也能做出有分量成果”的集体认知。一旦这种心理临界点被突破,生态的雪球效应才有可能真正滚动起来。

从“产品导向”到“Developers First”,并不是口号上的语义转变,而是商业逻辑的换挡。硬件卖点可以赢得一时的合同,但唯有开发者生态,才能决定一个平台的长期生死。

四、Python 为先:CUDA 的新护城河与 ROCm 的短板

在过去十年里,CUDA 的优势更多体现在性能与生态规模上,而如今,Nvidia 正在通过“全栈 Python 化”打造新的护城河。无论是底层内核调用,还是分布式训练与性能调优,开发者都可以用 Python 这一“第一语言”直接操作。结果是,复杂度被极大地隐藏,生产效率与可用性显著提升。

这种“Python 优先”的战略背后,是对开发者群体结构的深刻洞察。AI 研究与应用的快速发展,吸引了数量庞大的科研人员和工程师,他们大多数并非 HPC 传统背景,而是更熟悉 Python。Nvidia 通过全链路的 Python 封装,降低了学习与迁移门槛,等于把生态的触角延伸到了更广阔的开发者群体。

相比之下,AMD 的 ROCm 在这一点上存在明显短板。尽管底层算力并不逊色,但在 Python 一等公民的体验上远远落后。开发者常常需要绕行 C++ 或手工适配,导致上手成本高、调试体验差。这不仅是效率问题,更是一种生态壁垒:当开发者发现 CUDA 可以“一键调用”,而 ROCm 还需要“层层解锁”时,选择自然一边倒。

更关键的是,Python 化的生态优势具有路径依赖。一旦开发者习惯了 Nvidia 的工作流,形成脚本与工具链积累,迁移成本就会不断升高。长远来看,这种便利性差距甚至比硬件性能差距更具粘性。

在算力硬件逐渐同质化的今天,真正决定可用性的,是软件层面的“无摩擦体验”。CUDA 把 Python 打造成新的护城河,而 ROCm 的缺位,正在让 AMD 在最核心的开发者心智上失分。

五、通信与分布式:RCCL 对 NCCL 的差距与应对

在大模型训练进入万卡规模的今天,分布式通信库已经成为决定训练效率的“血管系统”。如果血液循环不畅,再强大的 GPU 也无法发挥出集群效能。Nvidia 的 NCCL 在这一领域已经建立起事实标准,AMD 的 RCCL 虽然不断追赶,但差距不仅没有缩小,反而在 GTC’25 后进一步拉大。

过去一年,AMD 在 RCCL 上确实做出了一些努力。协议支持更丰富,点对点性能也有所优化,并开始针对不同拓扑结构调整通信树。然而,这些进展大多属于“补课”,而非领先。与此同时,Nvidia 在 GTC’25 发布的 NCCL 版本不仅引入了全新的算法,还进行了大规模的代码重构,大幅提升了可扩展性和效率。这意味着 AMD 即使在短期内追平单项指标,随着 NCCL 迭代的加速,差距仍会不断累积。

更棘手的问题在于维护成本。RCCL 的很多设计本质上是对 NCCL 的复刻,这让 AMD 在迭代中处于被动跟随的位置。每当 NCCL 推出重大更新,RCCL 就需要投入大量人力进行同步适配。这种“复制式开发”模式,既消耗研发资源,也导致产品节奏受制于人。换句话说,AMD 在分布式软件层面不仅落后,还背上了额外的“同步包袱”。

分布式通信的差距,正在成为 AMD 软件栈的隐性瓶颈。对开发者而言,选择 ROCm 不仅意味着学习成本更高,还要面对通信效率和稳定性不足的风险。对云厂商与大模型公司而言,这更是无法接受的系统性风险。

分布式训练的本质,是集群级别的效率竞赛。在这一维度上,AMD 如果不能找到差异化路径,单靠追赶 RCCL 与 NCCL 的功能清单,很难真正赢得开发者的信任。

六、内部算力与投资纪律:从“突发租用”到“长期承诺”

软件生态的成长离不开真实的算力环境。Nvidia 能够在 CUDA 上不断迭代、打磨用户体验,一个关键原因是其内部长期运行的大规模 GPU 集群,成为持续的“练兵场”。相比之下,AMD 在内部算力上的投入则显得零散且不足——不仅规模远小于 Nvidia,不到其 1/20,而且缺乏连续性和稳定性。

这种差距直接体现在软件开发效率上。研发团队如果无法长期在上千卡规模的环境中运行,就无法提前暴露并解决大规模训练下的通信、调度和容错问题。结果是,AMD 的软件栈往往只能在小规模场景下表现合格,一旦迁移到客户的真实环境,就会暴露出兼容性与性能瓶颈。

报告提出,AMD 应当彻底改变“按需突发租用”的短期算力策略,转向建设 10,000 张以上旗舰 GPU 的长期持久集群,并在预算上给予多年级的承诺。只有这样,GPU 使用才能从“稀缺资源”变成“公共物品”,让工程师随时能够在真实场景下验证和优化软件栈。

这种投资并不是奢侈,而是软件护城河的必要前提。没有内部大规模集群,就谈不上分布式软件的成熟;没有长期投入的承诺,就留不住真正的软件人才。换句话说,算力基础设施不仅是技术资源,更是人才与生态的信任机制。

如果 AMD 仍停留在零散租用的思维,那么其软件进步就会持续被掣肘。而在大模型的竞赛中,时间窗口本身就是最稀缺的资源

七、产品节奏与对位:M1325X / M1355X 的当下与 M1450X 的窗口

硬件迭代的节奏,是决定市场定位的关键因素。在过去两个产品周期里,AMD 的新品往往在发布时间和定位上被动落在 Nvidia 的阴影之下,结果是市场认知和客户兴趣都受到削弱。

M1325X 就是典型案例。这款产品在纸面参数上并不逊色,但因为与 Nvidia 的 B200 几乎同时推出,直接导致客户兴趣平平。市场对比的逻辑很简单:当两家厂商同时有新品,客户自然会选择生态更完善、风险更低的一方,而 AMD 在软件和生态上并无优势。

M1355X 的处境更加尴尬。虽然单机规格仍具竞争力,但客户却把它与 Nvidia 的 GB200 NVL72 相提并论——一个是 8 GPU 方案,一个是 72 GPU 的机柜级系统。这样不对称的比较,使得 M155X 在竞标和部署讨论中显得缺乏吸引力。换句话说,AMD 拿着“盒子级产品”去和 Nvidia 的“机架级方案”竞争,注定在叙事和客户心智上落入下风。

真正的机会点,出现在 2025 年下半年。届时,AMD 将推出支持 IF64/IF128 高速互联的 M1450X,在机架级别形成完整系统方案,有望与 Nvidia 的 VR200 NVL 系列正面对位。如果 AMD 能在这个时间窗口实现产品、互联和软件栈的同步成熟,那么至少在机架级市场中,它终于有机会以体系化方案而非单点产品与 Nvidia 抗衡。

从 M1325X 的被动,到 M1355X 的错位,再到 M150X 的窗口,AMD 的产品节奏透露出一个核心启示:在 AI 时代,单卡性能不再是市场关注的唯一焦点,系统级、机架级的整体方案才是客户采购决策的基准。AMD 必须抓住 M1450X 的窗口,否则将彻底丧失与 Nvidia 在高端市场“同台竞技”的机会。

八、人才与激励:补上 AI 软件薪酬的“管理盲点”

硬件靠资本,软件靠人才。对于 AMD 来说,真正限制其 AI 软件突破的,并非研发方向模糊,而是人才供给不足和留存乏力。原因很简单:薪酬体系存在结构性短板。

在 GPU 软件领域,核心竞争对手并不是 Intel 或传统半导体厂商,而是 Nvidia、TPU 团队以及一线 AI Labs。这些组织给出的总薪酬包往往高出 AMD 一大截,尤其是在 RSU(限制性股票)和长期激励上差距显著。结果是,AMD 即便在市场上能招到人,也往往无法吸引或留住真正的顶尖工程师。对比之下,AMD 的薪酬体系更像是“硬件公司”的延伸,而非“软件驱动企业”的配置。

这种错位直接反映在团队结构上。AMD 的软件团队往往缺乏能够独立驱动大规模开源项目的“明星工程师”,更多依赖外部适配和补课式追赶。人才不足,导致软件迭代始终跟不上硬件节奏;而软件差距又反过来影响客户采纳,形成恶性循环。

报告提出的对策很明确:AMD 必须重新定义对 AI 软件人才的激励标准,把 Nvidia 和 AI Labs 当作真正的薪酬对标对象,而不是延续半导体行业的平均水平。具体手段包括显著提升 RSU 权重,用长期激励而非一次性奖金来绑定关键工程师。只有这样,AMD 才可能吸引到“能写出核心库、能领导生态项目”的软件强者,而不是只能满足于“能填补空缺”的普通工程师。

在 AI 竞赛中,硬件靠资本投入可以迅速追赶,但软件护城河必须靠人力积累。如果 AMD 在人才和激励上不补齐短板,那么所谓“战时状态”就只是一句口号。

九、行动清单:资源、节奏、生态、激励的四条主线

AMD 的“战时状态”已经明确,但要把决心转化为结果,必须聚焦在几个核心主线,避免资源分散和节奏失衡。报告中给出的建议可以归纳为四个关键词:资源、节奏、生态、激励。

第一,资源。 重点在于算力基础设施的长期化。内部 GPU 集群不能再依赖零散租用,而必须投入建设规模化、持久化的 10,000+ GPU 环境,形成可持续的“练兵场”。只有让工程师在真实场景下持续迭代,ROCm 才能具备系统级竞争力。

第二,节奏。 产品节奏必须围绕客户采购逻辑来设计,而非单纯跟随硬件制程的自然迭代。从 M125X 与 B200 同期的被动,到 M155X 与 NVL72 错位的尴尬,AMD 已经为节奏失调付出了代价。真正的窗口在 2025 年下半年,M150X 必须以系统方案对位 Nvidia 的 VR200,任何延迟或缺失都会让机会彻底丧失。

第三,生态。 从“产品导向”到“Developers First”不仅需要组织调整,更需要实际落地。开发者云、CI/CD、Python 化支持,都必须形成“可被开发者切身感知”的改进,而不是停留在路线图或内部 KPI 上。能否在社区制造出类似 GPT-J 的临界事件,将决定 AMD 是否有机会撬动开发者心智。

第四,激励。 人才是生态的底层变量。AMD 必须重塑薪酬结构,把 AI 软件工程师的总薪酬与 Nvidia、TPU、顶尖 AI Labs 对标,以 RSU 和长期激励绑定核心工程师。缺乏顶尖人才,再多预算和口号也只能换来“补课式进步”,无法建立真正的领先。

最终可以归纳为一句话:硬件优势可以缩短差距,但唯有在资源、节奏、生态和激励四条主线上形成合力,AMD 才可能在下一阶段的 AI 军备竞赛中赢得一线生机。