DEEPDIVE / [POLITICAL] · 中美 AI 对抗 · 五层蛋糕 DD · 0021 · 2026-06-24 · v2 · 数据刷新至 2026 年中
中美 AI 对抗 · 逐层拆解

蛋糕的物理学
谁在赢,赢在哪一层

黄仁勋说 AI 是一块五层蛋糕:能源、芯片、基础设施、模型、应用,自下而上叠起来。把中美对抗放进这个框架会发现一条清晰的分界线——越往下,中国的物理优势越强;越往上,美国的软实力优势越强。而出口管制的全部意图,是死守中间那一层。

AI Buzzwords · DeepDive  |  2026-06-24  |  约 6,500 字 · 阅读 18 分钟
能源 · 中
发电总量约 2×
结构性领先
芯片 · 美
压倒性领先
约一代 + 生态代差
基建 · 美
全球算力 74.5%
vs 中国 14.1%
模型 · 胶着
闭源美领先个位数%
开源中领先
应用 · 各主场
美赢 B2B 变现
中赢消费+制造
框架黄仁勋用蛋糕比喻,同时也在卖芯片,立场要打个折;但这套分层本身中立有力——正好拿来给中美各层「分别打分」。
§ 00 / 框架

一块蛋糕,
和一句说漏嘴的判断

2025 到 2026 年间,黄仁勋反复用一个比喻描述人工智能:它不是一次性的技术突破,而是一块自下而上叠起来的五层蛋糕

从底到顶分别是——能源(算力即电力,每个 token 都是电与热的转换)、芯片(把电变成实时算力的并行处理器)、基础设施(数据中心级的「AI 工厂」,靠 NVLink、超节点把 GPU、网络、软件整合成算力系统)、模型(把算力变成智能)、应用(价值最终落地之处)。他的核心论断是:每一层都是上一层的物理地基,最上层应用一旦跑通,需求会层层向下传导,反过来验证下面几千亿美元投入的合理性。虎嗅 Bernard Marr · Davos 2026

▲ 越往上 · 美国软实力越强(前沿模型 · B2B 变现 · 开发者生态) L5 应用 APPLICATIONS 各有主场 L4 模型 MODELS 胶着 L3 基础设施 INFRASTRUCTURE 美国领先 L2 芯片 CHIPS 美国压倒 L1 能源 ENERGY 中国领先 ▼ 越往下 · 中国物理优势越强(能源 · 算力规模) 应用层 · 点击跳转 模型层 · 点击跳转 基础设施层 · 点击跳转 芯片层 · 点击跳转 能源层 · 点击跳转
图|黄仁勋「AI 五层蛋糕」中美逐层对比。需求自上而下传导,地基自下而上支撑;右栏标注每层领先方——绿=中国 · 琥珀=美国 · 灰=胶着。 ▸ 点击任意一层,跳到对应章节。

这个框架之所以特别适合拆解中美对抗,是因为黄仁勋本人就是用它来点评中美的。2025 年 11 月在 FT 的 Future of AI 峰会上,他先抛出一句惊人的话——「China is going to win the AI race(中国会赢得这场 AI 竞赛)」,理由直指蛋糕最底层:中国能源更便宜、监管更宽松。话一出口引发轩然大波,他随即澄清改口:「中国只是纳秒之差紧追美国,美国必须靠赢得全球开发者来领先。」CNBC The Hill

他先看的是蛋糕底层,所以说「中国会赢」;他改口时强调的是顶层的全球开发者。这恰好点破了整个棋局——越往下,中国越占优;越往上,美国越占优

本文核心论点 · 基于黄仁勋的「五层蛋糕」

作为同时在卖蛋糕第二层(芯片)的人,黄仁勋的话当然带着游说色彩——他需要美国放松出口管制,好把芯片卖给中国。但这套分层框架本身是中立而有力的——而且它还藏着一个连黄仁勋都没点破的动力学:模型层(第四层)的架构创新会自我扩散,反向重写下面三层的需求,这是本文最后单独论述的核心命题(见 §07)。接下来,我们先逐层把中美摆上桌。

① 能源中国唯一结构性领先的一层。全文最大的开放问题:底层的电力优势,能不能向上传导、抵消芯片的劣势?
§ 01 / 能源

能源层 —
中国的物理主场

领先方 · 中国(结构性)

「算力即电力」是黄仁勋整套理论的地基,也是他判断「中国会赢」的第一理由——中国的能源总量约为美国的两倍,且仍在快速扩张。Brookings Fortune IEEE ComSoc

这一层的较量不是比谁有钱、谁会设计芯片,而是比一件笨重的事:能不能把足够多的电,足够快地送到数据中心门口。在这件事上,美国正撞上自己的天花板。美国新建数据中心普遍卡在并网排队(部分项目 24–72 个月)和变压器交期(2–4 年)上;Stargate、xAI 的 GW 级集群都在抢同一张电网的容量。Fortune · 电网逼近极限 Data Center Knowledge Belfer Center

中国的局面相反:在建核电规模全球最大,风、光、水、核全面扩张,部分区域电力备用裕度高达 80–100%;「东数西算」工程更是直接把算力需求调度到西部的廉价清洁电基地。能源因此成为五层里中国唯一称得上「结构性领先」的一层。NucNet · 核电 Carbon Brief 国务院 · 东数西算

中国 ~8,000 TWh 美国 ~4,300 TWh 年发电总量 · 中国 ≈ 美国的 2 倍
图|2024 年发电总量:中国约 8 万亿 kWh、美国约 4.3 万亿——中国约 2 倍,且 2024 一年新增 543 GW(超过美国历史总装机),数据中心电价不到美国一半、建设周期以「月」计而非「年」。来源 Ember / REGlobal · NAM

美国 AI 的真正短板不在芯片设计、不在资本,而在把电送到机房的速度。能源是一层「向上传导」的优势——它能直接喂养第三层的超大集群,这也正是中国 CloudMatrix 路线得以成立的前提(见 §03)。

② 芯片美国的咽喉锁。但黑市价飙升 + 昇腾爬产说明:管制抬高了门槛,没堵死路——卡的是「最高端」,不是「能用」。
§ 02 / 芯片

芯片层 —
美国的咽喉锁

领先方 · 美国(压倒性)

如果说能源是中国的主场,芯片就是美国的咽喉锁——这是中美差距最大、最难追、也是出口管制的全部战场。

维度
美国 / Nvidia 阵营
中国阵营
旗舰算力
Blackwell B300 / GB300 NVL72
昇腾 910C(≈H100 80%) → 950PR/950DT(2026)
制程
台积电 3nm/2nm · EUV
SMIC 7nm 良率 ~20–40% · 5nm 试产 · 无 EUV
高带宽内存
SK海力士/三星/美光成熟
长鑫 CXMT · 自研 HBM3 冲 2026 量产
软件生态
CUDA · 400 万开发者 · 20 年
CANN/MindSpore 起步
获取方式
自由
H200 限量(抽 25%)+走私+80% 国产令

单颗芯片,中国落后大约一代。但更深的护城河不在硅片上,而在软件——CUDA 二十年积累的四百万开发者生态,是中国短期内最难复制的东西。一个标志性细节:连 DeepSeek 这样的中国前沿团队,训练时也要退回 Nvidia 硬件。ChinaTalk · CUDA 护城河 CFR / Tom's Hardware

管制把这道锁拧到了最紧,2026 年则进入「受控有偿放行」的新阶段:2026 年 1 月美国允许 H200 对华出口,代价是 25% 销售额上缴美国政府 + 安全审查,但截至年中实际出货仍近乎为零。黄仁勋 2026 年 4 月公开承认 Nvidia 在华份额「已跌到零」(中国一度占其数据中心营收约 1/4)。缺口由灰色渠道补上——Epoch AI 2026 年 4 月估计,截至 2025 年累计走私入华约 29 万–160 万张 H100 当量、中位 66 万张,约占中国总算力的三分之一;2026 年 3 月更曝出 25 亿美元的 Super Micro 走私大案。Nextgov · H200 抽 25% Tom's Hardware · 份额归零 Epoch · 走私估算 CNBC · Super Micro 案

25% → 0
NVIDIA 在华数据中心营收份额
2026.4 黄仁勋自陈
25%
H200 对华出口
需上缴美国政府的分成
66 万
走私入华 H100 当量(中位)
≈ 中国总算力 1/3 · Epoch
8,192
华为 Atlas 950 超节点
昇腾芯片数 · 2026 Q4

数据:Tom's Hardware(在华份额)· Nextgov(25% 分成)· Epoch AI(走私估算)· DCD(Atlas 950)

交互 · 出口管制时间线 ▸ 点击节点

2022 年 10 月 · BIS 首次划线

美国对华先进 AI 芯片实质禁运(A100/H100),设定「算力 + 互联带宽」双阈值,并限制半导体设备与超算——「小院高墙」正式落地。

2023 年 10 月 · 堵漏

封堵 Nvidia 为规避而降配的 A800/H800,改用 TPP + 性能密度阈值;Nvidia 转而推出更低配的 H20/L20 填缝。

2024 年 12 月 · 全面升级

首次对 HBM 实施全国性管制、新增 24 类设备,实体清单一次性加入约 140 家中国企业——从「卡芯片」延伸到「卡制造能力」。

2025 年 1 月 · AI 扩散规则

拜登政府按国家分三级配额、并首次试图管制「模型权重」本身;该框架随后被特朗普政府废止。

2025 年 4 月 · H20 被禁

连「合规降配卡」H20 也被叫停,Nvidia 计提约 45 亿美元库存减值——围堵收到最紧。

2025 年 7 月 · H20 解禁

与稀土谈判挂钩,H20 重新获批——政策从「围堵」转向「受控放行」,开始把管制当筹码。

2026 年 1 月 · H200 放行

允许更强的 H200 对华出口,代价是 25% 销售额上缴美国政府 + 安全审查;但截至年中实际出货仍近乎为零。

2026 年 4 月 · 份额归零

黄仁勋公开承认 Nvidia 在华份额「已跌到零」(中国一度占其数据中心营收约 1/4)——管制与国产替代双向挤压的结果。

黑市价格追踪 ▸ B300 整机(中国灰市)

0 200 400 600 ¥万元 · 8×B300 整机 美国官方价 ≈ ¥400万($55万) 3/19 走私网络被查 2025·12 · 约 ¥400 万(实测) 2026·01 · 约 ¥410 万(估算) 2026·02 · 约 ¥435 万(估算) 2026·03 · 约 ¥520 万 · 走私案拐点(估算) 2026·04 · 约 ¥700 万 ≈ $1M(实测) 2026·05 · 约 ¥700 万 · 持平偏高(估算) 2026·06 · 约 ¥700 万 · 持平偏高(估算) ¥400万 ¥700万 ≈ $1M +75% 近乎翻倍 25·12 26·1 2 3 4 5 6月
▸ 悬停或点击曲线上的点看每月报价。 图|中国灰市/黑市 B300 整机(8×B300)报价:2025 年底约 ¥400 万 → 2026 年 4 月约 ¥700 万(≈$100 万、近乎翻倍),约为美国官方价(~$55 万)的 1.8 倍;拐点对应 2026-03-19 Super Micro 25 亿美元走私网络被查、灰市断供。短租一度达 ¥19 万/月。5–6 月数据为延伸估计(待核实)。来源 TNW/Reuters · 新浪财经
¥700万
B300 整机(8卡)
≈$1M · 美国价 1.8×
¥300–350万
B200 整机柜
较美国 +约 50%
~¥140万
H200 8 卡模组
渠道/灰市报价
×3 → $8.2万
A100 五年旧服务器
查私+海关冻结后翻 3 倍

数据:Reuters/新浪(B300)· CryptoBriefing(B200 +50%)· 新浪(H200 模组)· Tom's Hardware(A100)。黑市价多为业内/媒体援引,含估算成分。

芯片是唯一能同时卡住中国第三层(基建)和第四层(模型)的咽喉——这正是「小院高墙」死守此层的全部逻辑。而中国的反制不是正面攻这道墙,而是绕过它(见下两层)。

③ 基础设施CloudMatrix / Atlas 950 是「用电力补芯片」最生动的物证:四倍功耗换系统级追平,正是第①层优势在向上传导。
§ 03 / 基础设施

基建层 —
AI 工厂 与 超节点

领先方 · 美国(中国系统级追赶)

黄仁勋的「AI 工厂」概念就长在这一层:把 GPU、网络、软件整合成一座产 token 的工厂。论资本与单卡能效,美国领先;论「用规模和系统设计弥补单卡」,中国找到了自己的打法。Tom's Hardware · 7250 亿 capex TechCrunch · OpenAI 1.4 万亿 Introl · Colossus 2 Epoch · 各国算力份额

维度
美国
中国
资本开支
四大云厂 2026 capex ~7100 亿美元
阿里 3 年 3800 亿元 + 字节/运营商
超级承诺
OpenAI Stargate ~7GW 已签 / 承诺 $1.4T(或下调 $600B+转租)
东数西算 + $2950 亿国家算力网(80% 国产)
标杆集群
xAI Colossus · ~2GW / 55.5 万 GPU(2026.1)
华为 Atlas 950 SuperPoD · 8,192 颗昇腾(2026 Q4)
互联技术
NVLink/NVSwitch/GB200 NVL72
系统级集群算力 ~2×,但功耗 ~4.1×
装机总量
全球占比 ~74.5%
全球占比 ~14.1%

华为 CloudMatrix 384 是这套打法最经典的样本:用 384 颗昇腾 910C 对标英伟达 72 颗 GB200 机柜——系统级算力约 2 倍、HBM 容量约 3.6 倍,代价是功耗约 4.1 倍。SemiAnalysis 的概括一针见血:「芯片落后一代,系统设计领先一代」。而 2026 年华为又把它推进一代——CloudMatrix 384 的后继 Atlas 950 SuperPoD(2026 Q4)塞进 8,192 颗昇腾 950,规模较前代增约 20 倍,华为称算力高于英伟达拟于 2026 推出的 NVL144。SemiAnalysis Tom's Hardware · 4× 功耗 DCD · Atlas 950

翻译成蛋糕语言:中国正在用第一层的电力优势,去补第二层的芯片劣势。这是「层层传导」最生动的案例——能源便宜,就敢用四倍的电、堆几倍的芯片,把单卡的代差在系统层面抹平。

美国 74.5% 中国 14.1% 欧盟 4.8% 挪威 1.8% 日本 1.4%
图|全球 AI 超算 GPU 集群性能份额——美国 74.5% vs 中国 14.1%(数据集覆盖全球约 10–20% 算力,截至 2025-05 仍为最新)。来源 Epoch AI

美国比的是「每瓦特能算多少」,中国比的是「能拉来多少瓦特」。当电不要钱,能效就不再是约束。

CloudMatrix 384 的战略含义

· 产业链最值得细读的一节。中国占「重制造」中段、美国占高 IP 两端;HBM 占 GPU 成本 45%,是整盘棋的题眼。
深潜 · 产业链

从沙子到 token —
一座 AI 工厂的上下游

把芯片层(§02)和基建层(§03)拆开看,它们不是两块铁板,而是一条从沙子到 token 的产业链。中美在每一段的强弱完全不同——这决定了「卡脖子」到底卡在哪几环、「破局」又能从哪几环使力。

产业链强弱地图 · ■ 美主导 ■ 中主导 ■ 均势

上游 · 芯片与器件
最高端 GPU
Nvidia ~75–80%
HBM 内存
三家垄断·CXMT 落后 3–4 年
先进封装美/台
台积电 CoWoS
EDA 工具
S/C/S ~75%·先进节点禁
制程·EUV美/台
台积电 2nm·ASML 禁运
交换芯片
博通+美满 ~99%
光模块成品
旭创/新易盛 全球前二 ⚠光芯片被卡
电力设备
全球 ~60% 变压器产能
液冷散热
英维克 国内 >35%
中游 · 组装与运营
服务器 ODM 整柜中/台
富士康~40%·工业富联>40%
IDC 运营托管均势
Equinix/DR vs GDS/世纪互联
下游 · 云与 AI 工厂
超大规模云·资本
四大厂 2026 ~$7250 亿 capex
推理使用量
日 token 140 万亿·MoE 低价

中国真正握住的,是几段「重制造」环节:光模块(中际旭创、新易盛 2025 年全球营收前二、中国厂商合计约 70% 供应)、电力设备(掌控全球约 60% 变压器产能,交货约 25 周 vs 西方 127 周)、液冷散热(英维克国内份额超 35%)、以及 服务器整柜组装(富士康约 40%、工业富联 AI 服务器全球超 40%)。LightCounting 新浪 · 变压器交期 工业富联

但越靠近「高 IP」上游,美方掌控越彻底:最高端 GPU(Nvidia ~75–80%)、HBM(SK海力士/三星/美光垄断,长鑫 CXMT 落后 3–4 年、2026 才量产 HBM3)、先进封装(台积电 CoWoS,CoW 环节难替代)、EDA(三巨头约 75%、先进节点仍管制)、交换芯片(博通+美满约 99%)。这几环是「小院高墙」真正的砖——也是中国砸最多钱、却最难翻越的。SemiAnalysis · HBM 成本 CoWoS 扩产 EDA 格局

最隐蔽的一处:中国在光模块「成品」全球第一,但模块里的 EML 激光芯片仍被美日垄断(前五约 76%)、200G 缺口超 60%。领先的是组装,卡脖子的是芯片。

光模块的隐形卡点 · 下一代 CPO 还可能把价值迁回美系

成本拆解 ▸ 内存为何成第一成本项

单颗 B200 GPU 模组 COGS ≈ $6,400 45% 17% 13% 24% HBM 内存 先进封装 GPU 逻辑 测试/其他
图|单颗 B200 GPU 模组成本拆解:HBM 内存约 45%,已超过 GPU 逻辑裸片(13%)成为第一大成本项;下一代 Rubin 整柜物料 ~$780 万、内存仍占 ~25%。这正是中美死磕 HBM 与先进封装的根因。来源 SiliconAnalysts · Tom's Hardware。整柜分项含估算成分。

把整条链铺开,结论和五层蛋糕一致、但更精确:美国占两端——上游的高 IP(GPU / HBM / EDA / 封装)与下游的资本 / 云;中国占中段——光模块、电力、液冷、整柜组装的「重制造」。链条两端是「比特与资本」,中段是「原子与工程」。出口管制之所以偏偏选在芯片 / HBM / EUV / EDA 下手,正因为那是少数几个美国能单点掐断、而中国十年内难自给的环节。

④ 模型差距已收窄到 2.7%。Mythos 那段在提醒你:真正的天花板是「不敢公开」的——公开榜单上根本看不到。
§ 04 / 模型

模型层 —
闭源天花板 与 开源洪水

领先方 · 胶着(闭源美国 / 开源中国)

这是五层里差距最小、也最可能反超的一层。一句话概括:美国守着闭源前沿,中国控着开源生态。

前沿闭源的天花板仍在美国——截至 2026 年中是 Claude Opus 4.8 / Fable 5、GPT-5.5、Gemini 3.5 / 3.1 Pro、Grok 4.3。但 Stanford HAI 2026 年 AI Index 显示差距已收窄到个位数:最强美国模型仅领先约 2.7%,Chatbot Arena 的 ELO 差从 2023 年约 1300 分缩到约 39 分(缩窄约 97%),榜首中美「多次易主」。回看 2025 年 1 月,DeepSeek R1 一度追平最强闭源、把英伟达单日打下约 17%、市值蒸发近 6000 亿美元——那是这一层的「斯普特尼克时刻」。Stanford HAI 2026 TNW · ELO 差 39 IG · 英伟达 −17% 能力的绝对水位也在指数级抬升:研究机构 METR 测得前沿模型能自主完成的任务长度(50% 成功率)已从 2020 年的 9 秒涨到 2026 年 2 月的约 14.5 小时,大约每 7 个月翻一倍——这是衡量「模型层时钟」走多快最硬的一把尺。METR · 任务时长

而在开源权重这条赛道,中国已经反超:阿里 Qwen 系列累计下载超 7 亿次、衍生模型超 11 万个,成为全球第一基座;中国模型在 Hugging Face 的新增下载占比约 41%,反超美国。到 2026 年中,中国开源旗舰——DeepSeek V4、Qwen3.7、智谱 GLM-5.2、月之暗面 Kimi K2.7——几乎都用 MIT/Apache 宽松许可;其中 GLM-5.2 更号称「以 1/6 成本击败 GPT-5.5」。一句业内评语:「Qwen 一家几乎抵得上整个美国开源生态。」HF 2026 排名 中国开源反超 SCMP · GLM-5.2

围绕 DeepSeek「数百万美元就训出前沿模型」的著名争议,到 2026 年已经落定,而且变成一道「你算哪本账」的题:DeepSeek 在一篇经 Nature 同行评审的论文里披露,R1 的强化学习训练只花了约 29.4 万美元(不含约 600 万美元的底座预训练);而 SemiAnalysis 估算其含研发与基础设施的总投入约 13 亿美元、约 1 万张 H800 + 1 万张 H100。同一件事,单次算力账与全成本账能差三个数量级——这恰恰说明「效率叙事」既真实、又容易被选择性放大。Nature · $294K SemiAnalysis · 全成本 $13 亿

而前沿俱乐部其实只有两家——除中美外,2026 年全球还没有第三方能独立做出真正的「前沿级」闭源模型。最接近的是欧洲 Mistral(传以约 €200 亿估值融资),但仍落后一档、且走开源;中东的 UAE G42、沙特 Humain 本质是「用美国芯片 + 美国栈」的代工型主权 AI(2025-11 美国授权对其出口最高 7 万颗 Blackwell,条件是对华脱钩);英、印、日韩、东南亚多是在美 / 中开源基座上做本地化微调。一句话:能造前沿的是中美,其余地区在选择「用谁的栈」。TechCrunch · Mistral 商务部 · 对中东授权 G7 可信伙伴

档案 · 模型层的暗面:MYTHOS

2026 年最能说明「前沿差距有多陡」的,是 Anthropic 的 Mythos。它先因约 3000 份内部文件泄露而曝光,官方承认其网络安全能力「远超所有其他 AI」;正式发布时被拆成两档——公众只能用屏蔽了高危能力的 Fable 5,全部能力(Mythos 5)只给受信任组织。它在 SWE-bench Verified 93.9%、USAMO 97.6%、Cybench 直接打满,能以 $50–$2,000 的成本自主挖出 OpenBSD 27 年、FFmpeg 16 年的远程漏洞——而 Anthropic 自陈「没有专门训练它获得这些安全能力」,安全能力只是通用能力的下游后果。结局更耐人寻味:发布仅三天,美国政府以国安为由勒令对所有外国人停用,连最强模型也成了「能一键断供」的受控资产。「太强,不敢公开」第一次成为真实的产品决策。

完整脉络见 DeepDive · Mythos 报告 · Anthropic Fable 5 / Mythos 5 · Nextgov · 政府下架

10 秒 1 分 10 分 1 时 8 时 2020 2022 2024 2026 GPT-3 · 9 秒 Opus 4.6 · 14.5 小时 每 ~7 个月翻倍
图|前沿模型能自主完成的任务时长(50% 成功率,对数轴):2020 年约 9 秒 → 2026.2 约 14.5 小时,约每 7 个月翻倍——「模型层时钟」。端点为实测值,曲线按 METR 实测翻倍率绘制。来源 METR

黄仁勋「必须赢得全球开发者」的焦虑正源于此:闭源天花板可以靠管制和算力守住个位数的领先,但开源生态一旦被中国模型占据,第四、五层的「开发者心智」就可能易主——而那是花钱也买不回来的。

⑤ 应用没有简单赢家。美国赢「为软件付费」的文化,中国赢消费规模 + 制造 + 数据主权。变现能力才是分水岭。
§ 05 / 应用

应用层 —
谁能把蛋糕吃成现金

领先方 · 各有主场

黄仁勋强调:只有应用层产生规模化回报,才能验证下面四层数千亿美元的投入。这是「钱从哪来」的一层,也是没有简单赢家的一层。

维度
美国
中国
主场
企业级 SaaS / Agent(金融·法律·医疗·编码)
消费超级 App · 制造/机器人 · 政务产业脑
变现能力
强(订阅+按量+垂直高毛利)
弱:定制率~70% · 私有部署毛利~35%
商业模式
「从席位到算力」按 token 计费跑通
价格战 · 靠规模与成本取胜
护城河
数据飞轮+合规+开发者生态
数据不出境→垂直「事实垄断窗口」

美国的优势是「为软件付费」这件事本身——成熟的 B2B SaaS 文化,让 Claude、ChatGPT、Codex 能在企业里跑通订阅与按量计费,垂直 Agent 还能拿到高毛利。中国的优势在另一侧:消费级规模、制造业与具身智能的落地场景,以及一道独特的护城河——数据不出境,让外资模型无法处理金融、医疗、政务的核心数据,给国产厂商留出约 2024–2028 年的「事实垄断窗口」。《数据安全法》 CSIS

但中国软件产业的结构性短板也在这一层暴露:定制化率约 70%、大量要求私有化部署、私有部署毛利仅约 35%——这意味着即便应用跑起来,把它「吃成可持续现金流」远比美国吃力。

$225B / $37B
美 vs 中 SaaS 市场规模
B2B 变现规模差距
57.6%
中国 ERP 本地部署占比
偏私有化 · 2024
75–85% / 65%
纯订阅 vs 含实施 SaaS 毛利
中国实施重→毛利低
2024–2028
数据不出境窗口
国产垂直「事实垄断」

数据:Bonafide(SaaS 市场规模)· Grand View(中国 ERP 本地部署)· FLG Partners(SaaS 毛利基准)· 《数据安全法》(数据出境)

⑥ 综合这张评分卡是静态快照,别当结论看——它会被下一节的模型层创新、和结语的泡沫风险反复重写。
§ 06 / 综合

一场
自下而上的战争

把五层叠回去,一张评分卡足以概括整个棋局。

领先方
差距 / 关键变量
1 能源
中国
约 2× 总量 · 美国能否破电网瓶颈
2 芯片
美国(压倒)
约一代 + 生态代差 · EUV/CUDA/管制
3 基础设施
美国
74.5% vs 14.1% · 中国系统级换能效
4 模型
胶着
闭源个位数% · 开源中国领先
5 应用
各有主场
美 B2B 变现 · 中消费+制造

规律清晰得近乎对称:蛋糕越往下(能源、算力规模),中国的「物理优势」越突出;越往上(前沿模型、B2B 变现、开发者生态),美国的「软实力优势」越突出。

由此可以读懂两套战略的全部意图。美国的出口管制,是死守第二层(芯片)这道唯一的咽喉——因为它能同时卡住中国的第三、四层。中国的反制思路,则是绕过这道墙:用第一层的电力 + 第三层的系统设计 + 第四层的开源生态,去对冲第二层的封锁。CloudMatrix 384 就是这套「绕行」最完整的物理证明。CSIS · 管制的极限 CSIS · 算力差与反制 RAND 研究机构也在用类似的「约束分层」看 AI:Epoch AI 判断到 2030 年算力仍可再放大约一万倍,但会依次撞上四道约束——电力(最先)、芯片制造、训练数据、数据中心延迟——这几乎正是这块蛋糕由下而上的前几层(一次 2030 年的前沿训练或需约 6GW,相当于今天全部数据中心耗电的 30%)。Epoch · 2030 能否继续 scaling

五层蛋糕:美国在芯片层卡位、中国从能源层绕墙破局 示意插画
图|「卡位 vs 破局」示意:美国在芯片层砌墙设锁(出口管制),中国从能源层用电力与系统设计绕墙而上。概念插画(Gemini「Nano Banana」生成)。

管制押注的是:守住芯片,就能拖住一切。中国押注的是:把其它四层都做强,芯片这一层就没那么致命。

两套战略的对赌 · 本文综合判断

⑦ 扩散全文最反直觉的命题:模型层创新会双向扩散、反向重写其余四层。世界模型那条把战场从「比特」引向「原子」。
§ 07 / 扩散

真正的扰动源
模型层如何重写整块蛋糕

前面六节像一张静态快照。但蛋糕不是静止的——每一层「需要提供什么」,其实是由模型层正在选择的架构决定的。

黄仁勋讲的是「应用需求自上而下传导」。这一节要补上一个他没强调、却更要命的反向命题:模型层的每一次架构跃迁,都会自我扩散——向上重塑应用,向下重写芯片、基建、能源的需求曲线。模型层(第四层)才是这块蛋糕真正的扰动源。下面七条正在发生的路线——前六条多在「让同等能力更省资源」,第七条相反、是「开辟全新模态、把需求推向新量级」——每一条都在改写其余几层要造什么。

① MoE 稀疏化 —— 把「更大 = 更贵」解耦

2026 年中最便宜的 frontier 级模型 DeepSeek-V4-Pro 有 1.6 万亿总参数、推理时只激活 490 亿(激活比约 3%);MoE 已是 GPT-5、Llama 4、Gemini 3 的「无争议标准」。↓ 向下:MoE 的悖论是「FLOPs 更少、显存更多」(每个专家都要常驻内存、对 all-to-all 互联要求极高),逼出 NVIDIA GB300 NVL72 这种整机柜「Wide Expert Parallelism」(72 卡共享 130 TB/s NVLink),把每百万 token 成本压到约 $0.12、比 Hopper 低 35 倍。↑ 向上:单位 token 成本骤降,让「全程调用最强模型」在应用层第一次经济可行。这正是侵蚀 §02 芯片护城河、点燃 §05 价格战的根源——也是中国在算力受限下追平的主路径。arXiv · DeepSeek-V3 硬件反思 NVIDIA Signal65

激活 ~490 亿 · 约 3% 总参数 1.6 万亿
图|MoE 把「能力规模」与「单次算力」解耦:DeepSeek-V4-Pro 总参 1.6T、推理仅激活约 490 亿(~3%)。代价是全部专家须常驻显存。来源 TechCrunch

② 推理 / 测试时计算 —— 把算力从「训练」搬到「永续推理」

o1、DeepSeek R1、GPT-5.5 这类「想得更久」的模型,把智能来源从「训练更大」换成「推理时多算」。↓ 向下:算力重心整体迁移——Deloitte 估计推理已占总算力约 三分之二(2023 年仅约 1/3、2025 年约 1/2),且即便芯片更高效,总算力需求到 2030 年仍每年增长 4–5 倍;一次扩展推理查询的算力是普通查询的 30–100 倍,哪怕只占 10% 请求也能让总能耗翻倍。Deloitte 2026这把 §03 从「训练工厂」重定义为「推理工厂」,把 §01 的耗电从一次性训练搬到永不停机的推理侧。↑ 向上:Agent、深度研究、可验证推理成为可能,代价是每次查询的成本与延迟上升(§05 那场「token 账单」焦虑的技术根源)。Introl Towards Data Science Hugging Face

③ 扩散语言模型 —— 让「高速」来自架构而非专用硅

2026 年扩散路线从初创独苗变成一线大厂下场:Inception 的 Mercury 2(2026 年 6 月)在 Blackwell 上跑到约 1000 tok/s、比同级自回归快 5–10×;同月 Google DeepMind 开源 DiffusionGemma,单 H100 上比 Gemma 4 快约 4 倍(代价是推理质量明显回落)。↓ 向下:并行解码打破自回归的串行内存带宽瓶颈,单卡吞吐数量级提升——削弱「必须买 Groq / Cerebras 专用推理芯片」的必要性,给 §02 又开一条绕行路。↑ 向上:亚秒级语音与实时 Agent 成为默认体验。Inception · Mercury 2 DiffusionGemma

④ SSM / 线性注意力 / 混合架构 —— 拆掉 KV cache 这堵内存墙

2026 年 3 月,CMU、普林斯顿、Cartesia、Together 联合发布 Mamba-3,把状态空间模型从「研究好奇」推成「生产可选项」:7B 模型在 64K 上下文下显存约 19GB(Transformer 约 33GB)、吞吐约 2,600 tok/s(约 7×)。↓ 向下:固定大小的递归状态消掉了随上下文线性膨胀的 KV cache,直接攻「内存墙」、改写 §02 对 HBM 的需求曲线(Jamba 式混合在 64K 下 KV cache 仅为全 Transformer 的 10–15%)。↑ 向上:长文档、长程 Agent、持久记忆在经济上第一次可行。Spheron · Mamba-3 AI21 · 混合 LLM

⑤ 小模型 / 端侧 / 蒸馏 —— 把推理从云端搬到设备

一个 7B 小模型比 70–175B 大模型便宜 10–30 倍;蒸馏 + 量化 + 剪枝能在保留 90–95% 精度的同时把体积压到 1/10–1/20;混合部署里端侧已能接住 90–95% 的查询、只把 5–10% 抛给云端,Gartner 更预测到 2027 年企业用的任务专用小模型数量将是大模型的 3 倍↓ 向下:推理从数据中心下沉到设备 NPU / Apple Silicon,减少云算力依赖、把 §01 的能耗分散化。↑ 向上:隐私本地 App、离线 Agent 改写 §05 的商业模式——从「云订阅」转向「端侧」,也恰好利好中国的数据不出境场景。Iterathon Tredence · Gartner 3×

⑥ Tokenizer-free / 字节级 —— 最底层的一次重写

Meta 的 Byte Latent Transformer(BLT)证明「动态字节块」可以不靠固定词表、直接从原始字节学习、scaling 不输 token 方案;2026 年 5 月 Meta + 斯坦福 + UW 进一步提出 Fast BLT,用块级扩散 / 自推测解码把字节级模型的推理内存带宽成本再砍 50% 以上(部分配置达 87–92%)。潜在级联最深:一旦离散 token 被取代,整条「按 token 计费」的商业链(§05)、「每秒 token」的算力度量(§03)、乃至 tokenizer 决定的多语言与鲁棒性,全都要重算。这是目前最靠近地基的一次「左移」。VentureBeat · BLT MarkTechPost · Fast BLT

⑦ Diffusion Transformer · 世界模型 · 具身(VLA)—— 不是省资源,而是开新模态

前六条都在「让同等能力更省资源」;这一类正相反——开辟全新模态、反把需求推向新量级。它们共用一个架构底座:Diffusion Transformer(DiT)——把扩散模型的骨干从 U-Net 换成 Transformer、按「时空 patch」生成,Sora、视频与世界模型都建在其上,2026 年已是「生产级视频生成的事实标准」(质量/训练美元比更高、更易 scale)。新形态有三支:视频生成Sora、快手 Kling 3.0、阿里 Wan、字节 Seedance 2.0——中国模型已占 Artificial Analysis 视频榜前列)、世界模型(Google Genie 3 实时可交互 3D、NVIDIA Cosmos 3 全模态物理 AI、李飞飞 World Labs 的 Marble、阿里「Happy Oyster」)、以及打通「感知—语言—动作」的 VLA 具身模型(2026 年中已成机器人基础模型主流)。↑ 反向放大算力:世界模型训练/推理需要 LLM 的 8–32 倍 GPU 算力,时空 patch 对显存与带宽是另一个量级——这一类不缓解、反而抬高 §01–§03 的需求。↺ 反哺数据层:世界模型还能生成合成训练数据与安全仿真环境(Waymo 2026 年用 Genie 3 造自动驾驶世界模型、批量造出真实路上罕见的极端场景),把「真实数据稀缺」这个训练瓶颈一并改写——Epoch AI 估计人类公开文本数据将在 2028 年前后见底,世界模型生成的合成数据与仿真,正是绕过这道「数据墙」的主要出路之一。Epoch · 数据墙↓ 解锁新应用:机器人/具身、自动驾驶、游戏与 3D、影视、工业仿真——把 AI 从「比特」推向「原子」,恰好接上 §05 里中国制造业 + 物理 AI 的主场。WaveSpeed · DiT 2026 NVIDIA Cosmos 3 Spheron · 世界模型需 8–32× 算力 Introl · Genie 3 / Waymo 中国视频模型对比

33% 2023 50% 2025 67% 2026 推理 训练
图|推理已超过训练成为算力主力:占比从 2023 年约 1/3 → 2025 约 1/2 → 2026 约 2/3——这正把「AI 工厂」从训练重定义为推理。来源 Deloitte 2026

黄仁勋说需求从应用自上而下传导。但真正决定每一层要造什么的,是模型层的下一个架构拐点——谁先跑出它,谁就重写其余四层的游戏规则。

本文核心命题 · 模型层是双向扰动源

把七条路线叠回蛋糕,会看到三股力量同时在跑:

向下扩散(MoE / 蒸馏 / SSM / 扩散 LLM):让同等能力需要更少算力、更少显存、更少电 → 侵蚀芯片护城河、压低应用成本——结构性利好「算力受限」的中国。
向上 / 横向放大(推理 / 测试时计算):让算力需求从一次性训练转向永续推理 → 抬高基建与能源的长期需求——结构性利好「有电、有芯片」的美国。
开辟新模态(DiT / 世界模型 / 具身):把算力与数据需求推向新量级,并开出机器人、自动驾驶、视频等全新应用——这一类直接放大整块蛋糕,也把战场引向中国押注的「物理 AI」。

所以中美博弈最深的胜负手,可能既不在芯片、也不在电,而在谁主导模型层的下一次范式迁移。DeepSeek 的 MoE、字节级架构的探索、以及中国在视频与世界模型上的并跑已经证明:模型层是中国少数几次「在算力劣势下仍能扰动全局」的地方。出口管制锁得住芯片,锁不住一个更聪明的架构。

· 攻防真正的战场不在权重。蒸馏冷战 + 人才流入 −89% 说明:美国守得住「能造前沿」,守不住「能力被学走、心智被开源夺走」。
深潜 · 攻防

下毒、蒸馏与霸权 —
真正的战场不在权重

前面讲的是「谁能造」。但中美对抗最隐蔽的战场是另外三件事:谁能毒(污染数据)、谁能偷(蒸馏能力)、谁能守(护住壁垒与霸权)。这三件事都不在「权重谁更大」上。

一、数据下毒:AI 最长、最没人查的供应链

2025 年 10 月,Anthropic 联合英国 AI 安全研究所做了迄今最大规模的投毒实验,结论颠覆直觉:给任意规模的大模型植入后门,所需的中毒文档数量几乎恒定——约 250 份就够,与模型多大、训练数据多多无关。而污染网络爬取数据集只需其 0.01%(建几百个网页即可)。更糟的是,Anthropic 另一项研究证明这类后门能挺过标准安全训练(SFT/RLHF/对抗训练)而不被清除Anthropic · 250 文档投毒 Sleeper Agents

这对整条供应链是结构性威胁:污染一个开源底座,就会把后门带进每一个下游微调版本和上层应用——而 Llama、Qwen 这种被海量二次微调的开源权重风险最大(LoRA/PEFT 微调都清不掉继承的后门)。配套的攻击面已经成熟:HuggingFace 上扫出约 35 万处不安全问题、一个伪装成 OpenAI 的恶意模型被下载 24.4 万次;AI 推荐的依赖包有 19.7% 根本不存在(slopsquatting,攻击者抢注即可投毒);第一个恶意 MCP 包已在 2025 年 9 月进入公开注册表。CSO · 恶意模型 slopsquatting 19.7% OWASP · 供应链

网络数据 0.01% 可污染 → 250 份文档即植后门 → 后门挺过安全训练 → 污染开源底座 → 扩散到数千下游模型与百万用户。数据既是 AI 的原料,也是它最缺校验的供应链。

为什么「数据」本身是一条脆弱供应链

二、蒸馏冷战:对手不偷权重,而是把能力「学」走

2026 年真正的窃密战不是偷权重,而是 蒸馏——让小模型在前沿模型的 API 输出上训练,以几分之一成本复刻其能力。2 月,Anthropic 指控 DeepSeek、月之暗面、MiniMax 对 Claude 发动蒸馏(合计超 1600 万次交互、约 2.4 万欺诈账户);6 月又指控阿里 Qwen 发动「迄今最大一次」(2026-04-22 至 06-05、超 2880 万次、约 2.5 万账户),目标正是 Claude 最值钱的软件工程与 agentic 推理能力。OpenAI 则向国会指 DeepSeek 蒸馏,证据之一是其回答与 ChatGPT 写作风格 74.2% 相似

1,600 万+
DeepSeek+MiniMax+月暗 蒸馏 Claude
2.4 万欺诈账户 · 2026.2
2,880 万+
阿里 Qwen 蒸馏 Claude(最大一次)
2.5 万账户 · 2026.4–6
74.2%
DeepSeek 与 ChatGPT 写作风格相似
OpenAI 向国会指控
7 + 7 项
前 Google 工程师窃 TPU 机密
经济间谍+窃密 全部成立 · 2026.1

来源:Anthropic · CNBC · 阿里 · Rest of World · DOJ

把各家最想拿到的资产排个序,会发现「权重」反而不是最稀缺的:模型权重价值极高但可被物理防护(RAND 列出 38 种攻击向量、5 个安全等级);system prompt 几乎守不住(研究结论「提示保密不可实现」);而真正最难复制的,是后训练 / RLHF 的数据与配方、训练数据配比,以及人才——前沿实验室每年光买人类数据就约 10 亿美元。蒸馏战之所以打成这样,恰恰证明:对手偷不走配方与人才,就退而求其次,用 API 把「能力的影子」学走。真正的护城河,是花钱也买不到的配方与人。RAND · 保护权重 Toloka · 数据护城河

三、美国如何拉大优势:进攻牌很强,软肋有三个

白宫 2025 年 7 月《赢得竞赛:美国 AI 行动计划》是总纲。把它的牌摊开,会看到进攻面咄咄逼人、防守面却各有破口——而中美最强模型差距已收窄到约 2.7%(2026-03),优势在缩小。

算力霸权进攻
Stargate $5000 亿 / 10GW
出口管制 2.0进攻
芯片/HBM/权重(4E091)/定位法
保护权重进攻
RAND 38 向量·当国家资产
卖全栈给盟友进攻
AI Exports·中东样板
人才/移民软肋
AI 研究者流入降 89%
能源/电力软肋
2028 缺口 49GW
开发者心智告急
开源下载中超美·成本 ~9×

最锋利的进攻牌是「卖美国全栈给盟友、把中国挤出」(2025-07 行政令设 American AI Exports Program;中东即样板)和「把模型权重当国安资产、必要时一键断供」(2026-06 政府勒令 Anthropic 对所有外国人停用 Fable 5/Mythos 5)。但断供这张牌是双刃的:它既展示了美国的杠杆,也成了盟友求自主的催化剂,G7 因此在谈一份「可信伙伴白名单」——谁能用美国前沿模型、谁被锁在外面,正在被重新划线。行政令 · 出口美国 AI 栈 Lawfare · 人才软肋 USCC · 开源告急

把攻防铺开,结论很冷峻:美国守得住「能造前沿」,却守不住「能力被学走、心智被开源夺走」。出口管制锁芯片、保护权重锁外泄、卖全栈锁盟友——这些都管用;但蒸馏绕开了权重防护,人才流入暴跌、电力撞墙、全球开发者正流向更便宜的中国开源。优势能不能拉大,最终不取决于封锁得多严,而取决于美国能否补上人才、电力、生态这三个自己的破口。

结语记住这对赛跑:能力时钟(METR,每 7 月翻倍)vs 约束时钟(Epoch,2030 撞墙)。谁更快,决定蛋糕做大还是塌。
§ 08 / 结语

蛋糕会
哪一层

黄仁勋这套理论里藏着一个他没明说的风险:既然需求是「自上而下传导」的,那么一旦最上层的应用回报不及预期,崩塌也会自上而下。

如果第五层的商业回报撑不起前四层数千亿美元的投入(这正是「AI 泡沫论」的核心),最先承压的会是离现金流最远的中间两层——那些靠债务和股权预付撑起来的芯片订单与数据中心。这条循环到 2026 年已被量化:跨七大供应商的算力承诺合计约 1.15–1.4 万亿美元,而 OpenAI 2025 年营收约 130 亿——承诺是营收的约 75 倍;2026 年还出现 OpenAI 下调总盘子、改「租用」的收缩信号。能源(第一层)反而最抗跌:电厂和电网无论如何都有别的用途。Bloomberg · 循环交易 Fortune · 循环融资 The Register

这给中美对抗留下一个反直觉的尾注:如果蛋糕真的塌一半,美国押注最重的中间三层(芯片+基建)暴露最大,而中国押注的两端(能源在底、制造业应用在顶)反而更接近实体经济、更经得起挤泡沫。这不是预测,而是一个值得在未来 18 个月持续观察的结构性问题。

最后值得并置两张研究机构的时间表:METR 测得 AI 能自主完成的任务时长每约 7 个月翻一倍,并按简化模型推测 AI 研发自动化或在 2030 年代初接近完成;而 Epoch AI 提醒,scaling 会在 2030 年前依次撞上电力、芯片、数据三道墙。能力时钟与约束时钟正在赛跑——谁更快,决定这块蛋糕是继续做大、还是从某一层塌下来。(另一类研究如 Apollo Research 则提醒:越逼近自动化,模型「钻评估空子、欺骗性对齐」的风险越需要被认真评估。)METR · R&D 自动化时间表 Apollo Research

五层蛋糕最大的价值,不是告诉你「谁会赢」,而是逼你问对问题:不要笼统地问「中美 AI 谁强」,而要问「在哪一层、强多少、靠什么撑住」。把这五个问题分别回答清楚,整盘棋就清楚了。