蛋糕的物理学 · 用黄仁勋的「五层蛋糕」拆解中美 AI 对抗

框架黄仁勋用蛋糕比喻，同时也在卖芯片，立场要打个折；但这套分层本身中立有力——正好拿来给中美各层「分别打分」。

§ 00 / 框架

一块蛋糕，
和一句说漏嘴的判断

2025 到 2026 年间，黄仁勋反复用一个比喻描述人工智能：它不是一次性的技术突破，而是一块自下而上叠起来的五层蛋糕。

从底到顶分别是——能源（算力即电力，每个 token 都是电与热的转换）、芯片（把电变成实时算力的并行处理器）、基础设施（数据中心级的「AI 工厂」，靠 NVLink、超节点把 GPU、网络、软件整合成算力系统）、模型（把算力变成智能）、应用（价值最终落地之处）。他的核心论断是：每一层都是上一层的物理地基，最上层应用一旦跑通，需求会层层向下传导，反过来验证下面几千亿美元投入的合理性。虎嗅 Bernard Marr · Davos 2026

图｜黄仁勋「AI 五层蛋糕」中美逐层对比。需求自上而下传导，地基自下而上支撑；右栏标注每层领先方——绿＝中国 · 琥珀＝美国 · 灰＝胶着。 ▸ 点击任意一层，跳到对应章节。

这个框架之所以特别适合拆解中美对抗，是因为黄仁勋本人就是用它来点评中美的。2025 年 11 月在 FT 的 Future of AI 峰会上，他先抛出一句惊人的话——「China is going to win the AI race（中国会赢得这场 AI 竞赛）」，理由直指蛋糕最底层：中国能源更便宜、监管更宽松。话一出口引发轩然大波，他随即澄清改口：「中国只是纳秒之差紧追美国，美国必须靠赢得全球开发者来领先。」CNBC The Hill

他先看的是蛋糕底层，所以说「中国会赢」；他改口时强调的是顶层的全球开发者。这恰好点破了整个棋局——越往下，中国越占优；越往上，美国越占优。

本文核心论点 · 基于黄仁勋的「五层蛋糕」

作为同时在卖蛋糕第二层（芯片）的人，黄仁勋的话当然带着游说色彩——他需要美国放松出口管制，好把芯片卖给中国。但这套分层框架本身是中立而有力的——而且它还藏着一个连黄仁勋都没点破的动力学：模型层（第四层）的架构创新会自我扩散，反向重写下面三层的需求，这是本文最后单独论述的核心命题（见 §07）。接下来，我们先逐层把中美摆上桌。

① 能源中国唯一结构性领先的一层。全文最大的开放问题：底层的电力优势，能不能向上传导、抵消芯片的劣势？

§ 01 / 能源

能源层 —
中国的物理主场

领先方 · 中国（结构性）

「算力即电力」是黄仁勋整套理论的地基，也是他判断「中国会赢」的第一理由——中国的能源总量约为美国的两倍，且仍在快速扩张。Brookings Fortune IEEE ComSoc

这一层的较量不是比谁有钱、谁会设计芯片，而是比一件笨重的事：能不能把足够多的电，足够快地送到数据中心门口。在这件事上，美国正撞上自己的天花板。美国新建数据中心普遍卡在并网排队（部分项目 24–72 个月）和变压器交期（2–4 年）上；Stargate、xAI 的 GW 级集群都在抢同一张电网的容量。Fortune · 电网逼近极限 Data Center Knowledge Belfer Center

中国的局面相反：在建核电规模全球最大，风、光、水、核全面扩张，部分区域电力备用裕度高达 80–100%；「东数西算」工程更是直接把算力需求调度到西部的廉价清洁电基地。能源因此成为五层里中国唯一称得上「结构性领先」的一层。NucNet · 核电 Carbon Brief 国务院 · 东数西算

图｜2024 年发电总量：中国约 8 万亿 kWh、美国约 4.3 万亿——中国约 2 倍，且 2024 一年新增 543 GW（超过美国历史总装机），数据中心电价不到美国一半、建设周期以「月」计而非「年」。来源 Ember / REGlobal · NAM。

美国 AI 的真正短板不在芯片设计、不在资本，而在把电送到机房的速度。能源是一层「向上传导」的优势——它能直接喂养第三层的超大集群，这也正是中国 CloudMatrix 路线得以成立的前提（见 §03）。

② 芯片美国的咽喉锁。但黑市价飙升 + 昇腾爬产说明：管制抬高了门槛，没堵死路——卡的是「最高端」，不是「能用」。

§ 02 / 芯片

芯片层 —
美国的咽喉锁

领先方 · 美国（压倒性）

如果说能源是中国的主场，芯片就是美国的咽喉锁——这是中美差距最大、最难追、也是出口管制的全部战场。

维度

美国 / Nvidia 阵营

中国阵营

旗舰算力

Blackwell B300 / GB300 NVL72

昇腾 910C(≈H100 80%) → 950PR/950DT（2026）

制程

台积电 3nm/2nm · EUV

SMIC 7nm 良率 ~20–40% · 5nm 试产 · 无 EUV

高带宽内存

SK海力士/三星/美光成熟

长鑫 CXMT · 自研 HBM3 冲 2026 量产

软件生态

CUDA · 400 万开发者 · 20 年

CANN/MindSpore 起步

获取方式

自由

H200 限量(抽 25%)+走私+80% 国产令

单颗芯片，中国落后大约一代。但更深的护城河不在硅片上，而在软件——CUDA 二十年积累的四百万开发者生态，是中国短期内最难复制的东西。一个标志性细节：连 DeepSeek 这样的中国前沿团队，训练时也要退回 Nvidia 硬件。ChinaTalk · CUDA 护城河 CFR / Tom's Hardware

管制把这道锁拧到了最紧，2026 年则进入「受控有偿放行」的新阶段：2026 年 1 月美国允许 H200 对华出口，代价是 25% 销售额上缴美国政府 + 安全审查，但截至年中实际出货仍近乎为零。黄仁勋 2026 年 4 月公开承认 Nvidia 在华份额「已跌到零」（中国一度占其数据中心营收约 1/4）。缺口由灰色渠道补上——Epoch AI 2026 年 4 月估计，截至 2025 年累计走私入华约 29 万–160 万张 H100 当量、中位 66 万张，约占中国总算力的三分之一；2026 年 3 月更曝出 25 亿美元的 Super Micro 走私大案。Nextgov · H200 抽 25% Tom's Hardware · 份额归零 Epoch · 走私估算 CNBC · Super Micro 案

25% → 0

NVIDIA 在华数据中心营收份额
2026.4 黄仁勋自陈

25%

H200 对华出口
需上缴美国政府的分成

66 万

走私入华 H100 当量(中位)
≈ 中国总算力 1/3 · Epoch

8,192

华为 Atlas 950 超节点
昇腾芯片数 · 2026 Q4

数据：Tom's Hardware（在华份额）· Nextgov（25% 分成）· Epoch AI（走私估算）· DCD（Atlas 950）

交互 · 出口管制时间线 ▸ 点击节点

2022.102023.102024.122025.012025.042025.072026.012026.04

2022 年 10 月 · BIS 首次划线

美国对华先进 AI 芯片实质禁运（A100/H100），设定「算力 + 互联带宽」双阈值，并限制半导体设备与超算——「小院高墙」正式落地。

2023 年 10 月 · 堵漏

封堵 Nvidia 为规避而降配的 A800/H800，改用 TPP + 性能密度阈值；Nvidia 转而推出更低配的 H20/L20 填缝。

2024 年 12 月 · 全面升级

首次对 HBM 实施全国性管制、新增 24 类设备，实体清单一次性加入约 140 家中国企业——从「卡芯片」延伸到「卡制造能力」。

2025 年 1 月 · AI 扩散规则

拜登政府按国家分三级配额、并首次试图管制「模型权重」本身；该框架随后被特朗普政府废止。

2025 年 4 月 · H20 被禁

连「合规降配卡」H20 也被叫停，Nvidia 计提约 45 亿美元库存减值——围堵收到最紧。

2025 年 7 月 · H20 解禁

与稀土谈判挂钩，H20 重新获批——政策从「围堵」转向「受控放行」，开始把管制当筹码。

2026 年 1 月 · H200 放行

允许更强的 H200 对华出口，代价是 25% 销售额上缴美国政府 + 安全审查；但截至年中实际出货仍近乎为零。

2026 年 4 月 · 份额归零

黄仁勋公开承认 Nvidia 在华份额「已跌到零」（中国一度占其数据中心营收约 1/4）——管制与国产替代双向挤压的结果。

黑市价格追踪 ▸ B300 整机（中国灰市）

▸ 悬停或点击曲线上的点看每月报价。 图｜中国灰市/黑市 B300 整机（8×B300）报价：2025 年底约 ¥400 万 → 2026 年 4 月约 ¥700 万（≈$100 万、近乎翻倍），约为美国官方价（~$55 万）的 1.8 倍；拐点对应 2026-03-19 Super Micro 25 亿美元走私网络被查、灰市断供。短租一度达 ¥19 万/月。5–6 月数据为延伸估计（待核实）。来源 TNW/Reuters · 新浪财经。

¥700万

B300 整机（8卡）
≈$1M · 美国价 1.8×

¥300–350万

B200 整机柜
较美国 +约 50%

~¥140万

H200 8 卡模组
渠道/灰市报价

×3 → $8.2万

A100 五年旧服务器
查私+海关冻结后翻 3 倍

数据：Reuters/新浪（B300）· CryptoBriefing（B200 +50%）· 新浪（H200 模组）· Tom's Hardware（A100）。黑市价多为业内/媒体援引，含估算成分。

芯片是唯一能同时卡住中国第三层（基建）和第四层（模型）的咽喉——这正是「小院高墙」死守此层的全部逻辑。而中国的反制不是正面攻这道墙，而是绕过它（见下两层）。

③ 基础设施CloudMatrix / Atlas 950 是「用电力补芯片」最生动的物证：四倍功耗换系统级追平，正是第①层优势在向上传导。

§ 03 / 基础设施

基建层 —
AI 工厂与超节点

领先方 · 美国（中国系统级追赶）

黄仁勋的「AI 工厂」概念就长在这一层：把 GPU、网络、软件整合成一座产 token 的工厂。论资本与单卡能效，美国领先；论「用规模和系统设计弥补单卡」，中国找到了自己的打法。Tom's Hardware · 7250 亿 capex TechCrunch · OpenAI 1.4 万亿 Introl · Colossus 2 Epoch · 各国算力份额

维度

美国

中国

资本开支

四大云厂 2026 capex ~7100 亿美元

阿里 3 年 3800 亿元 + 字节/运营商

超级承诺

OpenAI Stargate ~7GW 已签 / 承诺 $1.4T（或下调 $600B+转租）

东数西算 + $2950 亿国家算力网（80% 国产）

标杆集群

xAI Colossus · ~2GW / 55.5 万 GPU（2026.1）

华为 Atlas 950 SuperPoD · 8,192 颗昇腾（2026 Q4）

互联技术

NVLink/NVSwitch/GB200 NVL72

系统级集群算力 ~2×，但功耗 ~4.1×

装机总量

全球占比 ~74.5%

全球占比 ~14.1%

华为 CloudMatrix 384 是这套打法最经典的样本：用 384 颗昇腾 910C 对标英伟达 72 颗 GB200 机柜——系统级算力约 2 倍、HBM 容量约 3.6 倍，代价是功耗约 4.1 倍。SemiAnalysis 的概括一针见血：「芯片落后一代，系统设计领先一代」。而 2026 年华为又把它推进一代——CloudMatrix 384 的后继 Atlas 950 SuperPoD（2026 Q4）塞进 8,192 颗昇腾 950，规模较前代增约 20 倍，华为称算力高于英伟达拟于 2026 推出的 NVL144。SemiAnalysis Tom's Hardware · 4× 功耗 DCD · Atlas 950

翻译成蛋糕语言：中国正在用第一层的电力优势，去补第二层的芯片劣势。这是「层层传导」最生动的案例——能源便宜，就敢用四倍的电、堆几倍的芯片，把单卡的代差在系统层面抹平。

图｜全球 AI 超算 GPU 集群性能份额——美国 74.5% vs 中国 14.1%（数据集覆盖全球约 10–20% 算力，截至 2025-05 仍为最新）。来源 Epoch AI。

美国比的是「每瓦特能算多少」，中国比的是「能拉来多少瓦特」。当电不要钱，能效就不再是约束。

CloudMatrix 384 的战略含义

· 产业链最值得细读的一节。中国占「重制造」中段、美国占高 IP 两端；HBM 占 GPU 成本 45%，是整盘棋的题眼。

深潜 · 产业链

从沙子到 token —
一座 AI 工厂的上下游

把芯片层（§02）和基建层（§03）拆开看，它们不是两块铁板，而是一条从沙子到 token 的产业链。中美在每一段的强弱完全不同——这决定了「卡脖子」到底卡在哪几环、「破局」又能从哪几环使力。

产业链强弱地图 · ■ 美主导 ■ 中主导 ■ 均势

上游 · 芯片与器件

最高端 GPU美
Nvidia ~75–80%

HBM 内存美
三家垄断·CXMT 落后 3–4 年

先进封装美/台
台积电 CoWoS

EDA 工具美
S/C/S ~75%·先进节点禁

制程·EUV美/台
台积电 2nm·ASML 禁运

交换芯片美
博通+美满 ~99%

光模块成品中
旭创/新易盛全球前二 ⚠光芯片被卡

电力设备中
全球 ~60% 变压器产能

液冷散热中
英维克国内 >35%

中游 · 组装与运营

服务器 ODM 整柜中/台
富士康~40%·工业富联>40%

IDC 运营托管均势
Equinix/DR vs GDS/世纪互联

下游 · 云与 AI 工厂

超大规模云·资本美
四大厂 2026 ~$7250 亿 capex

推理使用量中
日 token 140 万亿·MoE 低价

中国真正握住的，是几段「重制造」环节：光模块（中际旭创、新易盛 2025 年全球营收前二、中国厂商合计约 70% 供应）、电力设备（掌控全球约 60% 变压器产能，交货约 25 周 vs 西方 127 周）、液冷散热（英维克国内份额超 35%）、以及 服务器整柜组装（富士康约 40%、工业富联 AI 服务器全球超 40%）。LightCounting 新浪 · 变压器交期工业富联

但越靠近「高 IP」上游，美方掌控越彻底：最高端 GPU（Nvidia ~75–80%）、HBM（SK海力士/三星/美光垄断，长鑫 CXMT 落后 3–4 年、2026 才量产 HBM3）、先进封装（台积电 CoWoS，CoW 环节难替代）、EDA（三巨头约 75%、先进节点仍管制）、交换芯片（博通+美满约 99%）。这几环是「小院高墙」真正的砖——也是中国砸最多钱、却最难翻越的。SemiAnalysis · HBM 成本 CoWoS 扩产 EDA 格局

最隐蔽的一处：中国在光模块「成品」全球第一，但模块里的 EML 激光芯片仍被美日垄断（前五约 76%）、200G 缺口超 60%。领先的是组装，卡脖子的是芯片。

光模块的隐形卡点 · 下一代 CPO 还可能把价值迁回美系

成本拆解 ▸ 内存为何成第一成本项

图｜单颗 B200 GPU 模组成本拆解：HBM 内存约 45%，已超过 GPU 逻辑裸片（13%）成为第一大成本项；下一代 Rubin 整柜物料 ~$780 万、内存仍占 ~25%。这正是中美死磕 HBM 与先进封装的根因。来源 SiliconAnalysts · Tom's Hardware。整柜分项含估算成分。

把整条链铺开，结论和五层蛋糕一致、但更精确：美国占两端——上游的高 IP（GPU / HBM / EDA / 封装）与下游的资本 / 云；中国占中段——光模块、电力、液冷、整柜组装的「重制造」。链条两端是「比特与资本」，中段是「原子与工程」。出口管制之所以偏偏选在芯片 / HBM / EUV / EDA 下手，正因为那是少数几个美国能单点掐断、而中国十年内难自给的环节。

④ 模型差距已收窄到 2.7%。Mythos 那段在提醒你：真正的天花板是「不敢公开」的——公开榜单上根本看不到。

§ 04 / 模型

模型层 —
闭源天花板与开源洪水

领先方 · 胶着（闭源美国 / 开源中国）

这是五层里差距最小、也最可能反超的一层。一句话概括：美国守着闭源前沿，中国控着开源生态。

前沿闭源的天花板仍在美国——截至 2026 年中是 Claude Opus 4.8 / Fable 5、GPT-5.5、Gemini 3.5 / 3.1 Pro、Grok 4.3。但 Stanford HAI 2026 年 AI Index 显示差距已收窄到个位数：最强美国模型仅领先约 2.7%，Chatbot Arena 的 ELO 差从 2023 年约 1300 分缩到约 39 分（缩窄约 97%），榜首中美「多次易主」。回看 2025 年 1 月，DeepSeek R1 一度追平最强闭源、把英伟达单日打下约 17%、市值蒸发近 6000 亿美元——那是这一层的「斯普特尼克时刻」。Stanford HAI 2026 TNW · ELO 差 39 IG · 英伟达 −17% 能力的绝对水位也在指数级抬升：研究机构 METR 测得前沿模型能自主完成的任务长度（50% 成功率）已从 2020 年的 9 秒涨到 2026 年 2 月的约 14.5 小时，大约每 7 个月翻一倍——这是衡量「模型层时钟」走多快最硬的一把尺。METR · 任务时长

而在开源权重这条赛道，中国已经反超：阿里 Qwen 系列累计下载超 7 亿次、衍生模型超 11 万个，成为全球第一基座；中国模型在 Hugging Face 的新增下载占比约 41%，反超美国。到 2026 年中，中国开源旗舰——DeepSeek V4、Qwen3.7、智谱 GLM-5.2、月之暗面 Kimi K2.7——几乎都用 MIT/Apache 宽松许可；其中 GLM-5.2 更号称「以 1/6 成本击败 GPT-5.5」。一句业内评语：「Qwen 一家几乎抵得上整个美国开源生态。」HF 2026 排名中国开源反超 SCMP · GLM-5.2

围绕 DeepSeek「数百万美元就训出前沿模型」的著名争议，到 2026 年已经落定，而且变成一道「你算哪本账」的题：DeepSeek 在一篇经 Nature 同行评审的论文里披露，R1 的强化学习训练只花了约 29.4 万美元（不含约 600 万美元的底座预训练）；而 SemiAnalysis 估算其含研发与基础设施的总投入约 13 亿美元、约 1 万张 H800 + 1 万张 H100。同一件事，单次算力账与全成本账能差三个数量级——这恰恰说明「效率叙事」既真实、又容易被选择性放大。Nature · $294K SemiAnalysis · 全成本 $13 亿

而前沿俱乐部其实只有两家——除中美外，2026 年全球还没有第三方能独立做出真正的「前沿级」闭源模型。最接近的是欧洲 Mistral（传以约 €200 亿估值融资），但仍落后一档、且走开源；中东的 UAE G42、沙特 Humain 本质是「用美国芯片 + 美国栈」的代工型主权 AI（2025-11 美国授权对其出口最高 7 万颗 Blackwell，条件是对华脱钩）；英、印、日韩、东南亚多是在美 / 中开源基座上做本地化微调。一句话：能造前沿的是中美，其余地区在选择「用谁的栈」。TechCrunch · Mistral 商务部 · 对中东授权 G7 可信伙伴

档案 · 模型层的暗面：MYTHOS

2026 年最能说明「前沿差距有多陡」的，是 Anthropic 的 Mythos。它先因约 3000 份内部文件泄露而曝光，官方承认其网络安全能力「远超所有其他 AI」；正式发布时被拆成两档——公众只能用屏蔽了高危能力的 Fable 5，全部能力（Mythos 5）只给受信任组织。它在 SWE-bench Verified 93.9%、USAMO 97.6%、Cybench 直接打满，能以 $50–$2,000 的成本自主挖出 OpenBSD 27 年、FFmpeg 16 年的远程漏洞——而 Anthropic 自陈「没有专门训练它获得这些安全能力」，安全能力只是通用能力的下游后果。结局更耐人寻味：发布仅三天，美国政府以国安为由勒令对所有外国人停用，连最强模型也成了「能一键断供」的受控资产。「太强，不敢公开」第一次成为真实的产品决策。

完整脉络见 DeepDive · Mythos 报告 · Anthropic Fable 5 / Mythos 5 · Nextgov · 政府下架

图｜前沿模型能自主完成的任务时长（50% 成功率，对数轴）：2020 年约 9 秒 → 2026.2 约 14.5 小时，约每 7 个月翻倍——「模型层时钟」。端点为实测值，曲线按 METR 实测翻倍率绘制。来源 METR。

黄仁勋「必须赢得全球开发者」的焦虑正源于此：闭源天花板可以靠管制和算力守住个位数的领先，但开源生态一旦被中国模型占据，第四、五层的「开发者心智」就可能易主——而那是花钱也买不回来的。

⑤ 应用没有简单赢家。美国赢「为软件付费」的文化，中国赢消费规模 + 制造 + 数据主权。变现能力才是分水岭。

§ 05 / 应用

应用层 —
谁能把蛋糕吃成现金

领先方 · 各有主场

黄仁勋强调：只有应用层产生规模化回报，才能验证下面四层数千亿美元的投入。这是「钱从哪来」的一层，也是没有简单赢家的一层。

维度

美国

中国

主场

企业级 SaaS / Agent（金融·法律·医疗·编码）

消费超级 App · 制造/机器人 · 政务产业脑

变现能力

强（订阅+按量+垂直高毛利）

弱：定制率~70% · 私有部署毛利~35%

商业模式

「从席位到算力」按 token 计费跑通

价格战 · 靠规模与成本取胜

护城河

数据飞轮+合规+开发者生态

数据不出境→垂直「事实垄断窗口」

美国的优势是「为软件付费」这件事本身——成熟的 B2B SaaS 文化，让 Claude、ChatGPT、Codex 能在企业里跑通订阅与按量计费，垂直 Agent 还能拿到高毛利。中国的优势在另一侧：消费级规模、制造业与具身智能的落地场景，以及一道独特的护城河——数据不出境，让外资模型无法处理金融、医疗、政务的核心数据，给国产厂商留出约 2024–2028 年的「事实垄断窗口」。《数据安全法》 CSIS

但中国软件产业的结构性短板也在这一层暴露：定制化率约 70%、大量要求私有化部署、私有部署毛利仅约 35%——这意味着即便应用跑起来，把它「吃成可持续现金流」远比美国吃力。

$225B / $37B

美 vs 中 SaaS 市场规模
B2B 变现规模差距

57.6%

中国 ERP 本地部署占比
偏私有化 · 2024

75–85% / 65%

纯订阅 vs 含实施 SaaS 毛利
中国实施重→毛利低

2024–2028

数据不出境窗口
国产垂直「事实垄断」

数据：Bonafide（SaaS 市场规模）· Grand View（中国 ERP 本地部署）· FLG Partners（SaaS 毛利基准）· 《数据安全法》（数据出境）

⑥ 综合这张评分卡是静态快照，别当结论看——它会被下一节的模型层创新、和结语的泡沫风险反复重写。

§ 06 / 综合

一场
自下而上的战争

把五层叠回去，一张评分卡足以概括整个棋局。

层

领先方

差距 / 关键变量

1 能源

中国

约 2× 总量 · 美国能否破电网瓶颈

2 芯片

美国（压倒）

约一代 + 生态代差 · EUV/CUDA/管制

3 基础设施

美国

74.5% vs 14.1% · 中国系统级换能效

4 模型

胶着

闭源个位数% · 开源中国领先

5 应用

各有主场

美 B2B 变现 · 中消费+制造

规律清晰得近乎对称：蛋糕越往下（能源、算力规模），中国的「物理优势」越突出；越往上（前沿模型、B2B 变现、开发者生态），美国的「软实力优势」越突出。

由此可以读懂两套战略的全部意图。美国的出口管制，是死守第二层（芯片）这道唯一的咽喉——因为它能同时卡住中国的第三、四层。中国的反制思路，则是绕过这道墙：用第一层的电力 + 第三层的系统设计 + 第四层的开源生态，去对冲第二层的封锁。CloudMatrix 384 就是这套「绕行」最完整的物理证明。CSIS · 管制的极限 CSIS · 算力差与反制 RAND 研究机构也在用类似的「约束分层」看 AI：Epoch AI 判断到 2030 年算力仍可再放大约一万倍，但会依次撞上四道约束——电力（最先）、芯片制造、训练数据、数据中心延迟——这几乎正是这块蛋糕由下而上的前几层（一次 2030 年的前沿训练或需约 6GW，相当于今天全部数据中心耗电的 30%）。Epoch · 2030 能否继续 scaling

五层蛋糕：美国在芯片层卡位、中国从能源层绕墙破局示意插画 — 图｜「卡位 vs 破局」示意：美国在**芯片层**砌墙设锁（出口管制），中国从**能源层**用电力与系统设计绕墙而上。概念插画（Gemini「Nano Banana」生成）。

管制押注的是：守住芯片，就能拖住一切。中国押注的是：把其它四层都做强，芯片这一层就没那么致命。

两套战略的对赌 · 本文综合判断

⑦ 扩散全文最反直觉的命题：模型层创新会双向扩散、反向重写其余四层。世界模型那条把战场从「比特」引向「原子」。

§ 07 / 扩散

真正的扰动源
模型层如何重写整块蛋糕

前面六节像一张静态快照。但蛋糕不是静止的——每一层「需要提供什么」，其实是由模型层正在选择的架构决定的。

黄仁勋讲的是「应用需求自上而下传导」。这一节要补上一个他没强调、却更要命的反向命题：模型层的每一次架构跃迁，都会自我扩散——向上重塑应用，向下重写芯片、基建、能源的需求曲线。模型层（第四层）才是这块蛋糕真正的扰动源。下面七条正在发生的路线——前六条多在「让同等能力更省资源」，第七条相反、是「开辟全新模态、把需求推向新量级」——每一条都在改写其余几层要造什么。

① MoE 稀疏化 —— 把「更大 = 更贵」解耦

2026 年中最便宜的 frontier 级模型 DeepSeek-V4-Pro 有 1.6 万亿总参数、推理时只激活 490 亿（激活比约 3%）；MoE 已是 GPT-5、Llama 4、Gemini 3 的「无争议标准」。↓ 向下：MoE 的悖论是「FLOPs 更少、显存更多」（每个专家都要常驻内存、对 all-to-all 互联要求极高），逼出 NVIDIA GB300 NVL72 这种整机柜「Wide Expert Parallelism」（72 卡共享 130 TB/s NVLink），把每百万 token 成本压到约 $0.12、比 Hopper 低 35 倍。↑ 向上：单位 token 成本骤降，让「全程调用最强模型」在应用层第一次经济可行。这正是侵蚀 §02 芯片护城河、点燃 §05 价格战的根源——也是中国在算力受限下追平的主路径。arXiv · DeepSeek-V3 硬件反思 NVIDIA Signal65

图｜MoE 把「能力规模」与「单次算力」解耦：DeepSeek-V4-Pro 总参 1.6T、推理仅激活约 490 亿（~3%）。代价是全部专家须常驻显存。来源 TechCrunch。

② 推理 / 测试时计算 —— 把算力从「训练」搬到「永续推理」

o1、DeepSeek R1、GPT-5.5 这类「想得更久」的模型，把智能来源从「训练更大」换成「推理时多算」。↓ 向下：算力重心整体迁移——Deloitte 估计推理已占总算力约 三分之二（2023 年仅约 1/3、2025 年约 1/2），且即便芯片更高效，总算力需求到 2030 年仍每年增长 4–5 倍；一次扩展推理查询的算力是普通查询的 30–100 倍，哪怕只占 10% 请求也能让总能耗翻倍。Deloitte 2026这把 §03 从「训练工厂」重定义为「推理工厂」，把 §01 的耗电从一次性训练搬到永不停机的推理侧。↑ 向上：Agent、深度研究、可验证推理成为可能，代价是每次查询的成本与延迟上升（§05 那场「token 账单」焦虑的技术根源）。Introl Towards Data Science Hugging Face

③ 扩散语言模型 —— 让「高速」来自架构而非专用硅

2026 年扩散路线从初创独苗变成一线大厂下场：Inception 的 Mercury 2（2026 年 6 月）在 Blackwell 上跑到约 1000 tok/s、比同级自回归快 5–10×；同月 Google DeepMind 开源 DiffusionGemma，单 H100 上比 Gemma 4 快约 4 倍（代价是推理质量明显回落）。↓ 向下：并行解码打破自回归的串行内存带宽瓶颈，单卡吞吐数量级提升——削弱「必须买 Groq / Cerebras 专用推理芯片」的必要性，给 §02 又开一条绕行路。↑ 向上：亚秒级语音与实时 Agent 成为默认体验。Inception · Mercury 2 DiffusionGemma

④ SSM / 线性注意力 / 混合架构 —— 拆掉 KV cache 这堵内存墙

2026 年 3 月，CMU、普林斯顿、Cartesia、Together 联合发布 Mamba-3，把状态空间模型从「研究好奇」推成「生产可选项」：7B 模型在 64K 上下文下显存约 19GB（Transformer 约 33GB）、吞吐约 2,600 tok/s（约 7×）。↓ 向下：固定大小的递归状态消掉了随上下文线性膨胀的 KV cache，直接攻「内存墙」、改写 §02 对 HBM 的需求曲线（Jamba 式混合在 64K 下 KV cache 仅为全 Transformer 的 10–15%）。↑ 向上：长文档、长程 Agent、持久记忆在经济上第一次可行。Spheron · Mamba-3 AI21 · 混合 LLM

⑤ 小模型 / 端侧 / 蒸馏 —— 把推理从云端搬到设备

一个 7B 小模型比 70–175B 大模型便宜 10–30 倍；蒸馏 + 量化 + 剪枝能在保留 90–95% 精度的同时把体积压到 1/10–1/20；混合部署里端侧已能接住 90–95% 的查询、只把 5–10% 抛给云端，Gartner 更预测到 2027 年企业用的任务专用小模型数量将是大模型的 3 倍。↓ 向下：推理从数据中心下沉到设备 NPU / Apple Silicon，减少云算力依赖、把 §01 的能耗分散化。↑ 向上：隐私本地 App、离线 Agent 改写 §05 的商业模式——从「云订阅」转向「端侧」，也恰好利好中国的数据不出境场景。Iterathon Tredence · Gartner 3×

⑥ Tokenizer-free / 字节级 —— 最底层的一次重写

Meta 的 Byte Latent Transformer（BLT）证明「动态字节块」可以不靠固定词表、直接从原始字节学习、scaling 不输 token 方案；2026 年 5 月 Meta + 斯坦福 + UW 进一步提出 Fast BLT，用块级扩散 / 自推测解码把字节级模型的推理内存带宽成本再砍 50% 以上（部分配置达 87–92%）。潜在级联最深：一旦离散 token 被取代，整条「按 token 计费」的商业链（§05）、「每秒 token」的算力度量（§03）、乃至 tokenizer 决定的多语言与鲁棒性，全都要重算。这是目前最靠近地基的一次「左移」。VentureBeat · BLT MarkTechPost · Fast BLT

⑦ Diffusion Transformer · 世界模型 · 具身（VLA）—— 不是省资源，而是开新模态

前六条都在「让同等能力更省资源」；这一类正相反——开辟全新模态、反把需求推向新量级。它们共用一个架构底座：Diffusion Transformer（DiT）——把扩散模型的骨干从 U-Net 换成 Transformer、按「时空 patch」生成，Sora、视频与世界模型都建在其上，2026 年已是「生产级视频生成的事实标准」（质量/训练美元比更高、更易 scale）。新形态有三支：视频生成（Sora、快手 Kling 3.0、阿里 Wan、字节 Seedance 2.0——中国模型已占 Artificial Analysis 视频榜前列）、世界模型（Google Genie 3 实时可交互 3D、NVIDIA Cosmos 3 全模态物理 AI、李飞飞 World Labs 的 Marble、阿里「Happy Oyster」）、以及打通「感知—语言—动作」的 VLA 具身模型（2026 年中已成机器人基础模型主流）。↑ 反向放大算力：世界模型训练/推理需要 LLM 的 8–32 倍 GPU 算力，时空 patch 对显存与带宽是另一个量级——这一类不缓解、反而抬高 §01–§03 的需求。↺ 反哺数据层：世界模型还能生成合成训练数据与安全仿真环境（Waymo 2026 年用 Genie 3 造自动驾驶世界模型、批量造出真实路上罕见的极端场景），把「真实数据稀缺」这个训练瓶颈一并改写——Epoch AI 估计人类公开文本数据将在 2028 年前后见底，世界模型生成的合成数据与仿真，正是绕过这道「数据墙」的主要出路之一。Epoch · 数据墙↓ 解锁新应用：机器人/具身、自动驾驶、游戏与 3D、影视、工业仿真——把 AI 从「比特」推向「原子」，恰好接上 §05 里中国制造业 + 物理 AI 的主场。WaveSpeed · DiT 2026 NVIDIA Cosmos 3 Spheron · 世界模型需 8–32× 算力 Introl · Genie 3 / Waymo 中国视频模型对比

图｜推理已超过训练成为算力主力：占比从 2023 年约 1/3 → 2025 约 1/2 → 2026 约 2/3——这正把「AI 工厂」从训练重定义为推理。来源 Deloitte 2026。

黄仁勋说需求从应用自上而下传导。但真正决定每一层要造什么的，是模型层的下一个架构拐点——谁先跑出它，谁就重写其余四层的游戏规则。

本文核心命题 · 模型层是双向扰动源

把七条路线叠回蛋糕，会看到三股力量同时在跑：

向下扩散（MoE / 蒸馏 / SSM / 扩散 LLM）：让同等能力需要更少算力、更少显存、更少电 → 侵蚀芯片护城河、压低应用成本——结构性利好「算力受限」的中国。
向上 / 横向放大（推理 / 测试时计算）：让算力需求从一次性训练转向永续推理 → 抬高基建与能源的长期需求——结构性利好「有电、有芯片」的美国。
开辟新模态（DiT / 世界模型 / 具身）：把算力与数据需求推向新量级，并开出机器人、自动驾驶、视频等全新应用——这一类直接放大整块蛋糕，也把战场引向中国押注的「物理 AI」。

所以中美博弈最深的胜负手，可能既不在芯片、也不在电，而在谁主导模型层的下一次范式迁移。DeepSeek 的 MoE、字节级架构的探索、以及中国在视频与世界模型上的并跑已经证明：模型层是中国少数几次「在算力劣势下仍能扰动全局」的地方。出口管制锁得住芯片，锁不住一个更聪明的架构。

· 攻防真正的战场不在权重。蒸馏冷战 + 人才流入 −89% 说明：美国守得住「能造前沿」，守不住「能力被学走、心智被开源夺走」。

深潜 · 攻防

下毒、蒸馏与霸权 —
真正的战场不在权重

前面讲的是「谁能造」。但中美对抗最隐蔽的战场是另外三件事：谁能毒（污染数据）、谁能偷（蒸馏能力）、谁能守（护住壁垒与霸权）。这三件事都不在「权重谁更大」上。

一、数据下毒：AI 最长、最没人查的供应链

2025 年 10 月，Anthropic 联合英国 AI 安全研究所做了迄今最大规模的投毒实验，结论颠覆直觉：给任意规模的大模型植入后门，所需的中毒文档数量几乎恒定——约 250 份就够，与模型多大、训练数据多多无关。而污染网络爬取数据集只需其 0.01%（建几百个网页即可）。更糟的是，Anthropic 另一项研究证明这类后门能挺过标准安全训练（SFT/RLHF/对抗训练）而不被清除。Anthropic · 250 文档投毒 Sleeper Agents

这对整条供应链是结构性威胁：污染一个开源底座，就会把后门带进每一个下游微调版本和上层应用——而 Llama、Qwen 这种被海量二次微调的开源权重风险最大（LoRA/PEFT 微调都清不掉继承的后门）。配套的攻击面已经成熟：HuggingFace 上扫出约 35 万处不安全问题、一个伪装成 OpenAI 的恶意模型被下载 24.4 万次；AI 推荐的依赖包有 19.7% 根本不存在（slopsquatting，攻击者抢注即可投毒）；第一个恶意 MCP 包已在 2025 年 9 月进入公开注册表。CSO · 恶意模型 slopsquatting 19.7% OWASP · 供应链

网络数据 0.01% 可污染 → 250 份文档即植后门 → 后门挺过安全训练 → 污染开源底座 → 扩散到数千下游模型与百万用户。数据既是 AI 的原料，也是它最缺校验的供应链。

为什么「数据」本身是一条脆弱供应链

二、蒸馏冷战：对手不偷权重，而是把能力「学」走

2026 年真正的窃密战不是偷权重，而是蒸馏——让小模型在前沿模型的 API 输出上训练，以几分之一成本复刻其能力。2 月，Anthropic 指控 DeepSeek、月之暗面、MiniMax 对 Claude 发动蒸馏（合计超 1600 万次交互、约 2.4 万欺诈账户）；6 月又指控阿里 Qwen 发动「迄今最大一次」（2026-04-22 至 06-05、超 2880 万次、约 2.5 万账户），目标正是 Claude 最值钱的软件工程与 agentic 推理能力。OpenAI 则向国会指 DeepSeek 蒸馏，证据之一是其回答与 ChatGPT 写作风格 74.2% 相似。

1,600 万+

DeepSeek+MiniMax+月暗蒸馏 Claude
2.4 万欺诈账户 · 2026.2

2,880 万+

阿里 Qwen 蒸馏 Claude（最大一次）
2.5 万账户 · 2026.4–6

74.2%

DeepSeek 与 ChatGPT 写作风格相似
OpenAI 向国会指控

7 + 7 项

前 Google 工程师窃 TPU 机密
经济间谍+窃密全部成立 · 2026.1

来源：Anthropic · CNBC · 阿里 · Rest of World · DOJ

把各家最想拿到的资产排个序，会发现「权重」反而不是最稀缺的：模型权重价值极高但可被物理防护（RAND 列出 38 种攻击向量、5 个安全等级）；system prompt 几乎守不住（研究结论「提示保密不可实现」）；而真正最难复制的，是后训练 / RLHF 的数据与配方、训练数据配比，以及人才——前沿实验室每年光买人类数据就约 10 亿美元。蒸馏战之所以打成这样，恰恰证明：对手偷不走配方与人才，就退而求其次，用 API 把「能力的影子」学走。真正的护城河，是花钱也买不到的配方与人。RAND · 保护权重 Toloka · 数据护城河

三、美国如何拉大优势：进攻牌很强，软肋有三个

白宫 2025 年 7 月《赢得竞赛：美国 AI 行动计划》是总纲。把它的牌摊开，会看到进攻面咄咄逼人、防守面却各有破口——而中美最强模型差距已收窄到约 2.7%（2026-03），优势在缩小。

算力霸权进攻
Stargate $5000 亿 / 10GW

出口管制 2.0进攻
芯片/HBM/权重(4E091)/定位法

保护权重进攻
RAND 38 向量·当国家资产

卖全栈给盟友进攻
AI Exports·中东样板

人才/移民软肋
AI 研究者流入降 89%

能源/电力软肋
2028 缺口 49GW

开发者心智告急
开源下载中超美·成本 ~9×

最锋利的进攻牌是「卖美国全栈给盟友、把中国挤出」（2025-07 行政令设 American AI Exports Program；中东即样板）和「把模型权重当国安资产、必要时一键断供」（2026-06 政府勒令 Anthropic 对所有外国人停用 Fable 5/Mythos 5）。但断供这张牌是双刃的：它既展示了美国的杠杆，也成了盟友求自主的催化剂，G7 因此在谈一份「可信伙伴白名单」——谁能用美国前沿模型、谁被锁在外面，正在被重新划线。行政令 · 出口美国 AI 栈 Lawfare · 人才软肋 USCC · 开源告急

把攻防铺开，结论很冷峻：美国守得住「能造前沿」，却守不住「能力被学走、心智被开源夺走」。出口管制锁芯片、保护权重锁外泄、卖全栈锁盟友——这些都管用；但蒸馏绕开了权重防护，人才流入暴跌、电力撞墙、全球开发者正流向更便宜的中国开源。优势能不能拉大，最终不取决于封锁得多严，而取决于美国能否补上人才、电力、生态这三个自己的破口。

结语记住这对赛跑：能力时钟（METR，每 7 月翻倍）vs 约束时钟（Epoch，2030 撞墙）。谁更快，决定蛋糕做大还是塌。

§ 08 / 结语

蛋糕会
从哪一层塌

黄仁勋这套理论里藏着一个他没明说的风险：既然需求是「自上而下传导」的，那么一旦最上层的应用回报不及预期，崩塌也会自上而下。

如果第五层的商业回报撑不起前四层数千亿美元的投入（这正是「AI 泡沫论」的核心），最先承压的会是离现金流最远的中间两层——那些靠债务和股权预付撑起来的芯片订单与数据中心。这条循环到 2026 年已被量化：跨七大供应商的算力承诺合计约 1.15–1.4 万亿美元，而 OpenAI 2025 年营收约 130 亿——承诺是营收的约 75 倍；2026 年还出现 OpenAI 下调总盘子、改「租用」的收缩信号。能源（第一层）反而最抗跌：电厂和电网无论如何都有别的用途。Bloomberg · 循环交易 Fortune · 循环融资 The Register

这给中美对抗留下一个反直觉的尾注：如果蛋糕真的塌一半，美国押注最重的中间三层（芯片+基建）暴露最大，而中国押注的两端（能源在底、制造业应用在顶）反而更接近实体经济、更经得起挤泡沫。这不是预测，而是一个值得在未来 18 个月持续观察的结构性问题。

最后值得并置两张研究机构的时间表：METR 测得 AI 能自主完成的任务时长每约 7 个月翻一倍，并按简化模型推测 AI 研发自动化或在 2030 年代初接近完成；而 Epoch AI 提醒，scaling 会在 2030 年前依次撞上电力、芯片、数据三道墙。能力时钟与约束时钟正在赛跑——谁更快，决定这块蛋糕是继续做大、还是从某一层塌下来。（另一类研究如 Apollo Research 则提醒：越逼近自动化，模型「钻评估空子、欺骗性对齐」的风险越需要被认真评估。）METR · R&D 自动化时间表 Apollo Research

五层蛋糕最大的价值，不是告诉你「谁会赢」，而是逼你问对问题：不要笼统地问「中美 AI 谁强」，而要问「在哪一层、强多少、靠什么撑住」。把这五个问题分别回答清楚，整盘棋就清楚了。

一块蛋糕，和一句说漏嘴的判断

能源层 —中国的物理主场

芯片层 —美国的咽喉锁

基建层 —AI 工厂 与 超节点

从沙子到 token —一座 AI 工厂的上下游

模型层 —闭源天花板 与 开源洪水

应用层 —谁能把蛋糕吃成现金

一场自下而上的战争

真正的扰动源模型层如何重写整块蛋糕