搜索
当前所在位置:首页 >> 风报追

计算的未来:英伟达王冠正摇摇欲坠

发布时间:2025-09-09 09:01:17 作者:cuj 点击:7 【 字体:

作者丨朱可轩

编辑丨陈彩娴

大模型浪潮来袭后,计算2023 年英伟达信息中心的未达王 GPU 出货量总计约 376 万台,较之上一年的英伟摇摇欲坠 264 万台增长 100 多万台,并成为历史上规模增长最快的冠正硬件公司。据估计,计算2025 年英伟达销量将达到 650 万至 700 万块 GPU。未达王重庆学院泄露最新

目前情况来看,英伟摇摇欲坠英伟达在 GPU 上的冠正垄断局面仍在持续,然而,计算其长期持久性(>6 年)的未达王问题仍在被持续热议。

当前,英伟摇摇欲坠以谷歌、冠正微软、计算亚马逊和 Meta 为代表的未达王海外巨头正在积极整合 AI 需求,力争成为 NPU 的英伟摇摇欲坠主要消费者,与此同时,他们也正在自研具有竞争力且高度可靠的芯片。

此外,计算需求的规模之大也触及了资本支出、电力供应和基础设施建设的极限,这正在推动行业转向分布式、垂直集成和协同优化的系统(芯片、机架、网络、冷却、基础设施软件、电源),而英伟达对此准备不足。

基于此,英伟达可能会失去有利地位,作用将波及 AI 堆栈的各个层面——从晶圆厂和半导体,到基础设施、云端、模型开发者和应用层。

巨头加速芯片竞争

据英伟达方面介绍,2025 财年第四季度,其共交付了 110 亿美元 Blackwell 芯片,Blackwell 主要卖给云巨头,这部分收入占英伟达信息中心业务收入的半成左右。

不过,业内判断,深圳医科大学实拍评价云巨头的份额将缩小,此外,由于过度购入并被迫亏损出售的小/短期GPU租赁厂商的利用率和投资回报率也均较低。

同时,由于规模化的前沿模型成本更低、性能和泛化能力更佳,尤其是在有效的 RAG 和广泛可用的微调机制之下,大多数使用特定信息训练专有模型的公司价值点尚不明确,这些长尾买家的需求并不稳固。

此外,部分小型独立云厂商如 Coreweave、Lambda、Crusoe、Runpod 等的未来不够明晰,英伟达过往伟减少云巨头带来的冲击给予他们资金和 GPU 支持,但其仍旧缺乏产物多样性、基础设施和人才能力。

相比之下,云巨头的需求则增长迅速,外部开发者面临着长期资源短缺,交付周期长达数月,而内部需求也加剧了这一趋势,50-70% 的总计算量用于前沿训练和重大成果(例如 Copilot、Gemini 和 Meta AI)的推理。

尽管各大云支持提供商每年的资本支出都超过 200 亿美元,但所有主要云平台都已满负荷运转。凭借规模和基础设施经验,云巨头最有能力摊销折旧和停机成本,同时提供他们也提供了很强的灵活性、保障性和可靠性,由此带来高 AI 支持利润率和客户信任度。

当 GPU 支出数亿时,英伟达在主导驱动并行 AI/ML 工作负载方面的平衡是可控的,如今,这种情况已不复存在。在一些超大规模信息中心,资本支出已超过毛利润的 25%,GPU 占基础设施支出的一半,并占信息中心 TCO 约 80%。此外,与软件不同,推理是边际成本结构的核心。

计算的未来:英伟达王冠正摇摇欲坠

随着未来训练(50 亿美元以上)支出受限,定制化和资本效率对于最大限度地扩展计算能力、训练最佳模型和保持竞争力至关关键。

虽然替代英伟达并不容易,但巨头们均在寻找机会点:

Meta 用 ASIC 取代了英伟达处理其一些最大的 DLRM 工作负载,谷歌也用同样的方法处理了 YouTube 的关键影片编码工作负载。亚马逊早在 2012 年就用 Nitro 取代了虚拟机运营程序,并用 Graviton 取代了大量英特尔 CPU。

云巨头以及 Marvell、Broadcom、Astera、Arista 和 AIchip 等主要设计合作伙伴已经投入了大量资金和工程人才,以削弱英伟达的垄断。

计算的未来:英伟达王冠正摇摇欲坠

以谷歌为例,自 2013 年以来,他们一直在内部开发 TPU,虽然开发周期长达数年,但在预算、人才和架构都有限的情况下,TPU v1 从启动到部署仅用了 15 个月。

并且历届 TPU 论文中与对应的 GPU 相比都有性能和能耗上的优势。比如,TPU 第 4 代和英伟达的 A100 是同等制程的,在这一情况下,单看半导体利用率,TPU 的工艺和架构及设计方案会比 GPU 有 3-5 倍的性能提升。

现阶段,也有许多头部厂商在采用 TPU,如 Anthropic 使用 TPU v5e 进行推理,苹果则曾选择在 TPU V4 和 V5p 的混合体上训练其 SOTA 3B 参数本地模型。

增长至第六代,TPU Trillium 已经将能效和 HBM 容量提高一倍,峰值性能提高三倍以上。而谷歌也在迭代其软件堆栈,由 TensorFlow 过渡到 JAX 用于处理编译和低级部署优化,TPU 和 JAX 的组合几乎完全取代了谷歌内部用于 AI 工作负载的英伟达 GPU。

本月初,谷歌又发布了第七代 TPU“Ironwood”,作为谷歌首款面向 AI 推理时代的 TPU,单芯片峰值算力可达4614 TFLOPs。据介绍,Ironwood 可扩展至 9216 片芯片集群,性能是第六代 TPU Trillium 的 2 倍,并且能效较之于第一款 Cloud TPU 高出近 30 倍。

此外,HBM 带宽也有所提升,单颗 Ironwood 芯片的内存带宽达 7.2Tbps,是 Trillium 的4.5倍,Ironwood 芯片间互联(ICI)带宽则为 1.2Tbps,是 Trillium 的1.5倍。

除谷歌外,亚马逊也正在加速芯片开发,自 2015 年收购 Annapurna Labs 后,他们推出了第二代 Inferentia 和新的 Trainium 芯片,预计到 2026 年,支出将达到 25 亿美金。第一代运行 Alexa 的后端,而第二代则专注于 LLM 价格和性能的优化。Anthropic 也已选择了亚马逊作为主要算力供应商,并与其一同研发下一代芯片。

微软则推出了自研 AI 芯片 Maia 100 芯片和相关的 Cobalt 100 CPU。在软件方面,微软推出了兼容 Pytorch 的编译器 Maia SDK,依靠 Open AI 的 Triton 框架来取代 CUDA。另外,还推出了一种新的信息格式(MX v1.0)以使跨提供商的量化标准化,这将使自研和第三方芯片无缝互操作,为开发者提供完整的可移植性。

Meta 也在布局 ASIC,早期,Meta 芯片主要为 Instagram 和 Reels 提供 DLRM,随着第二代 MTIA 芯片发布和支持定制软件堆栈,其已开始在 Facebook 和 Instagram 的新闻推送推荐系统中使用推理芯片。

Meta 还在合成信息生成方面扩大芯片使用,此前,Llama 3.1 就使用了这些芯片进行监督微调和信息提炼,以预训练较小的模型。上月,据外媒报道,Meta 已经在小规模部署测试其首款用于 AI 训练的自研芯片。

当前,AI 的工作负载偏向于训练,即使在微软,训练也约占算力需求的六成,理论上来讲,由于训练受限于内存且对空间限制较为敏感,会限制 ASIC 的可行性,但随着重心由训练转向推理,英伟达的压力也正在增大。

业内分析认为,在许多情况下(尤其是对于中型模型),上一代 A100 的性价比都高于 H100,而 AMD 也正在成为更具竞争力的替代品,甚至从长远来看,尤其是对于小模型而言,基于 CPU 的推理或为最佳选择。


分布式带来的挑战

当然,也有人会反驳称,就单芯片性能而言,英伟达 B100 的性能相当于 3 个 Trillium TPU,但有观点认为,单芯片性能并不关键:云巨头能够垂直整合并利用其规模和专业打造总体上更经济、性能更高的分布式系统,对于英伟达而言,这将会是难以竞争或适应的结构性趋势。

随着登纳德缩放定律(Dennard scaling)的失效和 SRAM 逻辑尺寸的缩小,晶体管小型化的回报下降,新节点成本却一路飙升,硬件增益(密度、性能和成本)将越来越多地来自系统工艺的协同优化,以及互联、芯片、冷却、电源、机架和信息中心的智能设计。

这在很大程度上得益于先进的封装工艺(例如芯片、增加的封装内 HBM)和更大的基板。而更大的增益则来自于信息中心运营商、供应商和系统集成商有意识地根据超大规模需求定制设计的努力。

以微软的信息中心设计为例,他们规划了自己的电信光纤网络,并推出新的 ColorZ 可插拔光收发器 + DSP,以支持长距离(<80 公里)信息传输,通过连接信息中心有效提高峰值集群性能。计算的未来:英伟达王冠正摇摇欲坠

为了支持海量信息流,微软计划开发用于交换机和收发器的封装内、并最终实现芯片光学器件。目前搭载 Maia 芯片的机架拥有更高的垂直整合度,通过使用定制配电、高带宽以太网协议和专用的机架内“sidekicks”来实现闭环液体冷却,且在提高芯片密度的同时,降低了互连要求和成本。

关键的是,这些支持器集成到现有的微软信息中心基础设施后,可以在现有空间内实现动态功耗优化、更轻松的运营以及更大的计算能力,这是扩展训练运行的必要条件。

谷歌所见略同,他们放弃了大型芯片,转而采用体积更小、成本更低、且具有深度互连的 ASIC 集群。在机架层面,所有 TPU 都具有相同的配置,无需支持不同的环境。此外,它们在机架中集成的支持器主板也更少,这提高了机架密度,并进一步降低了硬件部署的复杂性。

并且谷歌使用 ICI 而非 NVLink,这让他们能通过无源铜缆,以非常低的成本连接 64 个 TPU 的切片。

与英伟达的不同之处还在于,谷歌在信息中心及其他方面均进行了大量的定制化:TPU 设计为在 4096 个芯片的舱内运行,使用定制光学开关(Apollo)代替普通的电子分组交换机,与英伟达相比,大大降低了功耗和停机时间。

计算的未来:英伟达王冠正摇摇欲坠

在整个信息中心中,TPU 采用环形网络拓扑结构而非 CLOS 架构,改善了延迟和局部性,并结合专有的云网络硬件和软件 (Jupiter)实现跨信息中心组织大规模 TPU 集群,继而实现比竞争对手低近 30% 的性能/TCO(主要得益于芯片成本、停机时间和基础设施支出的降低)。

更关键的是,结合更小的批量大小、信息验证技巧和高级分区,这意味着谷歌可以在多个连接的信息中心训练像 Gemini Pro 1.5 这样的前沿模型。这最大限度地降低了未来训练基础设施的功耗和尺寸要求,并且在提高了硬件模块化的同时,延长了旧芯片/设备的使用寿命。

基础设施正在变得愈发分布式,以 Meta 为例,Llama 3 的训练就并非集中于单一信息中心。值得一提的是,由于需要去在包括 AWS、Oracle 等云上做训练,所以 Meta 也正在通过与 HammerSpace 合作将多云多信息中心的信息完全统一起来。计算的未来:英伟达王冠正摇摇欲坠

微软也正在为 OpenAI 连接遍布全国的集群。当前,海外巨头都在积极探索实现真正的异步分布式训练。

计算的未来:英伟达王冠正摇摇欲坠

分布式基础设施是继续扩展和计算新 OOM 的唯一途径。目前,算力仍旧是前沿模型增长的最大制约因素,而多信息中心训练允许使用规模较小、互联互通的信息中心,这不仅降本而且提高了吞吐量。

同时,也加速了基础设施的建设:小型信息中心更容易进行设计、获得土地使用权/许可证、环境作用评估 (EIA) 审批、供应商/总承包商 (GC) 以及建设输电和电压变压器;互联集群则可以帮助克服电网满负荷运行的电力限制,单个信息中心很快就会达到规模极限(例如,10GW 集群约占美国电力的 1%)。

计算的未来:英伟达王冠正摇摇欲坠

互联园区和跨区域联网集群能够摆脱单一端点,当前,海外还仅限于使用以太网(<40公里)区域内的信息中心,但也正在计划利用电信光纤,连接远至约 500 公里外的信息中心。

如微软已开始深入研究,并已与 Lumen 等光纤网络提供商斥资超过 100 亿美元。虽然还需要几年时间才能部署,但将提供 1-5Pbit 的带宽和 <1 秒的权重交换,足以实现多区域训练。

这些区域分布式训练系统将持续扩展并成为常态,从而实现更经济、更快速的基础设施建设,同时推动单次运行(x-xxGW)的峰值功率/计算能力。

不过,虽然分布式系统为非传统但资金雄厚的参与者创造了一些机会,但基础设施专业知识至关关键,巨头必须不断扩展以训练出更优秀的模型。长期来看,关键区别在于训练将在 x00MW-xGW 信息中心的“小型”联网园区中进行,而不是在 xxGW 级的单体信息中心中进行。

基于前述趋势,业内分析认为,英伟达将很难在性能或成本上竞争,其既无法与云深度集成,也无法定制硬件,除非他们增长出规模较小的客户,英伟达本身并不适合支持于跨集群或百亿亿次级的情况。

计算的未来:英伟达王冠正摇摇欲坠

举例来看,英伟达的 Infiniband 网络基础设施并非旨在支持 10 万以上的 GPU 集群,根据设计,每个 GPU 仅连接到单个 NIC(Network Interface Card,网络接口卡),并且每个信息包都必须以相同的顺序传输。

由于模型规模庞大且权重分布不均,单个 NIC、GPU 或光模块故障就可能导致整台支持器瘫痪,迫使信息重新传输,而随着新机架的出现,节点规模也随之增大,这种情况会更加严重,即使频繁设置检查点,也会将 MFU 拖累数个百分点。

此外,尽管英伟达正在推动向 800 Gbps 网络的过渡,但他们面对信息通信领域由超大规模引领的大规模转型表现出措手不及,未来会越来越多地使用可插拔 ZR 光模块来支持连接信息中心所需的超高带宽光纤连接,还将获得新的 DSP 和支持电信硬件(放大器、多路复用器、转发器等)。

这会破坏英伟达的网络堆栈,并且使 Coherent、Lumentum、Inphi、Cisco 和 Nokia 等供应商受益。

值得一提的是,英伟达还面临着一个最紧迫的问题——容错,在训练过程中处理多个故障点时,容错能力是确保可靠性和高利用率的关键。规模较小的客户依赖于开源框架,但对于规模非常大的集群,英伟达的网络设计和硬件选择并未提供内置保护。

如今,许多巨头依赖于内部解决方案:谷歌的 Pathways 比其他解决方案在边缘情况和故障类型方面表现更优,同时能够灵活处理同步和异步信息流。Pathways 还擅长检测和修复几乎无法察觉的、绕过 ECC 的 GPU 内存问题,而英伟达的鉴别工具 (DCGM) 可靠性要低得多。

英伟达也难以提供具有竞争力的分区和集群运营软件,其 BaseCommand 系统(基于 Kubernetes 构建)旨在实现跨平台,并兼容异构系统。

然而,其他厂商拥有更完善的专有集成解决方案,如谷歌的 Borg和微软的 Singularity 能够更好地处理规模化的虚拟机/容器运营、透明迁移以及 GPU 工作负载的调度/运营。谷歌甚至还通过 MegaScaler 在单个园区内外的 TPU Pod 之间同步划分工作负载。

较之英伟达,云巨头在半导体、基础设施和模型层面的垂直整合,能够提升其系统级理解、可观察性、协同优化和故障分析能力。

当前英伟达也已在通过 Blackwell 和 GB200 解决结构性问题。在硬件层面,安装了机架宽的铜缆连接背板,并采用液冷工艺来提高密度、能效和总体拥有成本 (TCO),并推出了基于以太网的信息中心级网络解决方案 Spectrum-X。

在软件方面,英伟达正在积极更新 DCGM 软件,并推出专用的可靠性、可用性和可维护性 (RAS) 引擎,旨在通过传感器级芯片信息预先向运营商发出故障警报,从而帮助缓解持续存在的 NIC/Infiniband 故障。

然而,综合来看,这还不够。

如前文所述,几乎所有关键基础设施软件的内部都存在更好的版本,超大规模信息中心也早已实现了规模化和垂直整合。

以冷却为例,早在英伟达强制使用液冷前,谷歌于 2018 年就通过 TPU v3 部署强制使用液冷,谷歌的 TPU v3 部署每千瓦时用水量比微软的英伟达信息中心少 2 倍,PUE(电源使用效率)为 1.1,而微软的 PUE 则>1.4。这意味着英伟达在每个超大规模信息中心损失了 30% 的有效电力和 50% 的占地面积。

英伟达意识到了这一点,并通过布局 DGX Cloud、NGC 等努力提升价值链,也前瞻性收购了 Mellanox,但未来正朝着大型园区和云的方向增长,而英伟达却主要在信息中心层面进行优化,其正面临着前所未有的长期挑战。雷峰网雷峰网(公众号:雷峰网)

参考链接:

https://mohitdagarwal.substack.com/p/from-dominance-to-dilemma-nvidia

雷峰网原创文章,未经授权禁止转载。详情见转载须知。

计算的未来:英伟达王冠正摇摇欲坠

阅读全文
相关推荐

泰国被停职总理佩通坦就其涉嫌违宪案出庭作证

泰国被停职总理佩通坦就其涉嫌违宪案出庭作证
当地时间21日,泰国被停职总理佩通坦就其涉嫌违宪一案在宪法法院出庭作证。当天泰国宪法法院传唤佩通坦本人及国家保障委员会秘书长出庭。根据泰国宪法法院的安排,此次传唤佩通坦出庭作证,属于审理案件的关键环节 ...

哈马斯称以色列通过军事施压强加停火条件

哈马斯称以色列通过军事施压强加停火条件
△加沙地带资料图)当地时间7月21日晚间,巴勒斯坦伊斯兰抵抗运动哈马斯)发布声明,表示在以军持续对加沙地带进行军事行动的背景下,哈马斯正全力以赴、夜以继日地与相关斡旋方进行接触,以求结束加沙人民的苦难 ...

外交部:中方愿同欧方共同努力,对外发出积极信号

外交部:中方愿同欧方共同努力,对外发出积极信号
7月22日,外交部发言人郭嘉昆主持例行记者会。有外媒记者提问,本周中欧领导人会晤将在北京举行。请问中国政府如何评估当前的中欧关系?在当前全球贸易紧张局势加剧的背景下,中方是否认为此次会晤反映了双边关系 ...

二十届中央第六轮巡视完成进驻

二十届中央第六轮巡视完成进驻
根据党中央关于巡视工作的统一部署,截至7月20日,二十届中央第六轮巡视完成进驻工作。中央巡视组将对北京、天津、辽宁、黑龙江、上海、江苏、福建、山东、广东、广西、重庆、贵州、西藏、陕西、青海、新疆等16 ...

北约举行成员国防长会 确认支持乌克兰

北约举行成员国防长会 确认支持乌克兰
当地时间8月20日下午,北约32个成员国国防部长举行影片会议讨论乌克兰保障保障问题。北约军事委员会主席朱塞佩·卡沃·德拉贡在会议结束后表示,北约成员国确认支持乌克兰。北约的优先事项仍然是实现公正、可信 ...

广东惠州一水上乐园发生淹溺事故,1人死亡

广东惠州一水上乐园发生淹溺事故,1人死亡
据惠州市应急运营局消息,7月14日12时许,惠州市惠东县巽寮滨海旅游度假区海公园水上乐园惠州好山好水旅游增长有限责任公司惠东分公司)泳池发生一起一般淹溺事故,致1人死亡。根据《国务院办公厅关于加强保障 ...

受权发布丨住房租赁条例

受权发布丨住房租赁条例
新华社北京7月21日电住房租赁条例第一章总则第一条为了规范住房租赁活动,维护住房租赁活动当事人合法权益,稳定住房租赁关系,促进住房租赁市场高质量增长,推动加快建立租购并举的住房制度,制定本条例。第二条 ...

俄称击落百架乌无人机 乌方通报遭俄大规模空袭

俄称击落百架乌无人机 乌方通报遭俄大规模空袭
俄罗斯国防部21日通报称,过去一天,俄防空部队在多地击落100多架无人机。莫斯科和圣彼得堡多个机场一度实施航空管制措施。乌克兰空军21日通报称,自20日晚起,俄军使用400多架无人机和24枚各类型导弹 ...

国航伦敦飞北京航班因故障备降俄罗斯,航司通报

国航伦敦飞北京航班因故障备降俄罗斯,航司通报
中国国际航空8月27日通报,北京时间8月26日,从伦敦前往北京的CA856航班在飞行过程中出现机械故障,机组按程序处置安全备降。为做好旅客服务保障,国航于当日调机前往备降机场执行后续航班任务,该调机航 ...

台北地方法院裁定柯文哲羁押禁见延长2个月

台北地方法院裁定柯文哲羁押禁见延长2个月
台北地方法院7月21日裁定前台北市长柯文哲、国民党台北市议员应晓薇均自8月2日起延长羁押2个月,并禁止与外界会面及通信。此外,前台北市长办公室主任李文宗、威京集团主席沈庆京则分别以新台币2000万元、 ...

昆明:网传的这则“警情通报”系谣言

昆明:网传的这则“警情通报”系谣言
据“昆明信息港”微信公众号消息,记者7月21日从昆明市公安局获悉,网传的这则“警情通报”系谣言。真实情况如下:今天21日),昆明市公安局交通运营支队就该起交通事故作出通报:20日13时16分,云南省昆 ...

电力负荷连创新高 电网能否撑住?

电力负荷连创新高 电网能否撑住?
每经记者 周逸斐 每经编辑 陈旭2月,南非遭遇停电事件;3月,古巴发生大面积停电;4月,西班牙和葡萄牙遭遇大规模停电,也成为近年来欧洲记录到的最严重停电事件之一;5月,科威特发生停电;6月,美国发生致 ...
返回顶部