黄仁勋说 AI 是一块五层蛋糕:能源、芯片、基础设施、模型、应用,自下而上叠起来。把中美对抗放进这个框架会发现一条清晰的分界线——越往下,中国的物理优势越强;越往上,美国的软实力优势越强。而出口管制的全部意图,是死守中间那一层。
2025 到 2026 年间,黄仁勋反复用一个比喻描述人工智能:它不是一次性的技术突破,而是一块自下而上叠起来的五层蛋糕。
从底到顶分别是——能源(算力即电力,每个 token 都是电与热的转换)、芯片(把电变成实时算力的并行处理器)、基础设施(数据中心级的「AI 工厂」,靠 NVLink、超节点把 GPU、网络、软件整合成算力系统)、模型(把算力变成智能)、应用(价值最终落地之处)。他的核心论断是:每一层都是上一层的物理地基,最上层应用一旦跑通,需求会层层向下传导,反过来验证下面几千亿美元投入的合理性。虎嗅 Bernard Marr · Davos 2026
这个框架之所以特别适合拆解中美对抗,是因为黄仁勋本人就是用它来点评中美的。2025 年 11 月在 FT 的 Future of AI 峰会上,他先抛出一句惊人的话——「China is going to win the AI race(中国会赢得这场 AI 竞赛)」,理由直指蛋糕最底层:中国能源更便宜、监管更宽松。话一出口引发轩然大波,他随即澄清改口:「中国只是纳秒之差紧追美国,美国必须靠赢得全球开发者来领先。」CNBC The Hill
他先看的是蛋糕底层,所以说「中国会赢」;他改口时强调的是顶层的全球开发者。这恰好点破了整个棋局——越往下,中国越占优;越往上,美国越占优。
本文核心论点 · 基于黄仁勋的「五层蛋糕」
作为同时在卖蛋糕第二层(芯片)的人,黄仁勋的话当然带着游说色彩——他需要美国放松出口管制,好把芯片卖给中国。但这套分层框架本身是中立而有力的——而且它还藏着一个连黄仁勋都没点破的动力学:模型层(第四层)的架构创新会自我扩散,反向重写下面三层的需求,这是本文最后单独论述的核心命题(见 §07)。接下来,我们先逐层把中美摆上桌。
「算力即电力」是黄仁勋整套理论的地基,也是他判断「中国会赢」的第一理由——中国的能源总量约为美国的两倍,且仍在快速扩张。Brookings Fortune IEEE ComSoc
这一层的较量不是比谁有钱、谁会设计芯片,而是比一件笨重的事:能不能把足够多的电,足够快地送到数据中心门口。在这件事上,美国正撞上自己的天花板。美国新建数据中心普遍卡在并网排队(部分项目 24–72 个月)和变压器交期(2–4 年)上;Stargate、xAI 的 GW 级集群都在抢同一张电网的容量。Fortune · 电网逼近极限 Data Center Knowledge Belfer Center
中国的局面相反:在建核电规模全球最大,风、光、水、核全面扩张,部分区域电力备用裕度高达 80–100%;「东数西算」工程更是直接把算力需求调度到西部的廉价清洁电基地。能源因此成为五层里中国唯一称得上「结构性领先」的一层。NucNet · 核电 Carbon Brief 国务院 · 东数西算
美国 AI 的真正短板不在芯片设计、不在资本,而在把电送到机房的速度。能源是一层「向上传导」的优势——它能直接喂养第三层的超大集群,这也正是中国 CloudMatrix 路线得以成立的前提(见 §03)。
如果说能源是中国的主场,芯片就是美国的咽喉锁——这是中美差距最大、最难追、也是出口管制的全部战场。
单颗芯片,中国落后大约一代。但更深的护城河不在硅片上,而在软件——CUDA 二十年积累的四百万开发者生态,是中国短期内最难复制的东西。一个标志性细节:连 DeepSeek 这样的中国前沿团队,训练时也要退回 Nvidia 硬件。ChinaTalk · CUDA 护城河 CFR / Tom's Hardware
管制把这道锁拧到了最紧,2026 年则进入「受控有偿放行」的新阶段:2026 年 1 月美国允许 H200 对华出口,代价是 25% 销售额上缴美国政府 + 安全审查,但截至年中实际出货仍近乎为零。黄仁勋 2026 年 4 月公开承认 Nvidia 在华份额「已跌到零」(中国一度占其数据中心营收约 1/4)。缺口由灰色渠道补上——Epoch AI 2026 年 4 月估计,截至 2025 年累计走私入华约 29 万–160 万张 H100 当量、中位 66 万张,约占中国总算力的三分之一;2026 年 3 月更曝出 25 亿美元的 Super Micro 走私大案。Nextgov · H200 抽 25% Tom's Hardware · 份额归零 Epoch · 走私估算 CNBC · Super Micro 案
数据:Tom's Hardware(在华份额)· Nextgov(25% 分成)· Epoch AI(走私估算)· DCD(Atlas 950)
交互 · 出口管制时间线 ▸ 点击节点
美国对华先进 AI 芯片实质禁运(A100/H100),设定「算力 + 互联带宽」双阈值,并限制半导体设备与超算——「小院高墙」正式落地。
封堵 Nvidia 为规避而降配的 A800/H800,改用 TPP + 性能密度阈值;Nvidia 转而推出更低配的 H20/L20 填缝。
首次对 HBM 实施全国性管制、新增 24 类设备,实体清单一次性加入约 140 家中国企业——从「卡芯片」延伸到「卡制造能力」。
拜登政府按国家分三级配额、并首次试图管制「模型权重」本身;该框架随后被特朗普政府废止。
连「合规降配卡」H20 也被叫停,Nvidia 计提约 45 亿美元库存减值——围堵收到最紧。
与稀土谈判挂钩,H20 重新获批——政策从「围堵」转向「受控放行」,开始把管制当筹码。
允许更强的 H200 对华出口,代价是 25% 销售额上缴美国政府 + 安全审查;但截至年中实际出货仍近乎为零。
黄仁勋公开承认 Nvidia 在华份额「已跌到零」(中国一度占其数据中心营收约 1/4)——管制与国产替代双向挤压的结果。
黑市价格追踪 ▸ B300 整机(中国灰市)
数据:Reuters/新浪(B300)· CryptoBriefing(B200 +50%)· 新浪(H200 模组)· Tom's Hardware(A100)。黑市价多为业内/媒体援引,含估算成分。
芯片是唯一能同时卡住中国第三层(基建)和第四层(模型)的咽喉——这正是「小院高墙」死守此层的全部逻辑。而中国的反制不是正面攻这道墙,而是绕过它(见下两层)。
黄仁勋的「AI 工厂」概念就长在这一层:把 GPU、网络、软件整合成一座产 token 的工厂。论资本与单卡能效,美国领先;论「用规模和系统设计弥补单卡」,中国找到了自己的打法。Tom's Hardware · 7250 亿 capex TechCrunch · OpenAI 1.4 万亿 Introl · Colossus 2 Epoch · 各国算力份额
华为 CloudMatrix 384 是这套打法最经典的样本:用 384 颗昇腾 910C 对标英伟达 72 颗 GB200 机柜——系统级算力约 2 倍、HBM 容量约 3.6 倍,代价是功耗约 4.1 倍。SemiAnalysis 的概括一针见血:「芯片落后一代,系统设计领先一代」。而 2026 年华为又把它推进一代——CloudMatrix 384 的后继 Atlas 950 SuperPoD(2026 Q4)塞进 8,192 颗昇腾 950,规模较前代增约 20 倍,华为称算力高于英伟达拟于 2026 推出的 NVL144。SemiAnalysis Tom's Hardware · 4× 功耗 DCD · Atlas 950
翻译成蛋糕语言:中国正在用第一层的电力优势,去补第二层的芯片劣势。这是「层层传导」最生动的案例——能源便宜,就敢用四倍的电、堆几倍的芯片,把单卡的代差在系统层面抹平。
美国比的是「每瓦特能算多少」,中国比的是「能拉来多少瓦特」。当电不要钱,能效就不再是约束。
CloudMatrix 384 的战略含义
把芯片层(§02)和基建层(§03)拆开看,它们不是两块铁板,而是一条从沙子到 token 的产业链。中美在每一段的强弱完全不同——这决定了「卡脖子」到底卡在哪几环、「破局」又能从哪几环使力。
产业链强弱地图 · ■ 美主导 ■ 中主导 ■ 均势
中国真正握住的,是几段「重制造」环节:光模块(中际旭创、新易盛 2025 年全球营收前二、中国厂商合计约 70% 供应)、电力设备(掌控全球约 60% 变压器产能,交货约 25 周 vs 西方 127 周)、液冷散热(英维克国内份额超 35%)、以及 服务器整柜组装(富士康约 40%、工业富联 AI 服务器全球超 40%)。LightCounting 新浪 · 变压器交期 工业富联
但越靠近「高 IP」上游,美方掌控越彻底:最高端 GPU(Nvidia ~75–80%)、HBM(SK海力士/三星/美光垄断,长鑫 CXMT 落后 3–4 年、2026 才量产 HBM3)、先进封装(台积电 CoWoS,CoW 环节难替代)、EDA(三巨头约 75%、先进节点仍管制)、交换芯片(博通+美满约 99%)。这几环是「小院高墙」真正的砖——也是中国砸最多钱、却最难翻越的。SemiAnalysis · HBM 成本 CoWoS 扩产 EDA 格局
最隐蔽的一处:中国在光模块「成品」全球第一,但模块里的 EML 激光芯片仍被美日垄断(前五约 76%)、200G 缺口超 60%。领先的是组装,卡脖子的是芯片。
光模块的隐形卡点 · 下一代 CPO 还可能把价值迁回美系
成本拆解 ▸ 内存为何成第一成本项
把整条链铺开,结论和五层蛋糕一致、但更精确:美国占两端——上游的高 IP(GPU / HBM / EDA / 封装)与下游的资本 / 云;中国占中段——光模块、电力、液冷、整柜组装的「重制造」。链条两端是「比特与资本」,中段是「原子与工程」。出口管制之所以偏偏选在芯片 / HBM / EUV / EDA 下手,正因为那是少数几个美国能单点掐断、而中国十年内难自给的环节。
这是五层里差距最小、也最可能反超的一层。一句话概括:美国守着闭源前沿,中国控着开源生态。
前沿闭源的天花板仍在美国——截至 2026 年中是 Claude Opus 4.8 / Fable 5、GPT-5.5、Gemini 3.5 / 3.1 Pro、Grok 4.3。但 Stanford HAI 2026 年 AI Index 显示差距已收窄到个位数:最强美国模型仅领先约 2.7%,Chatbot Arena 的 ELO 差从 2023 年约 1300 分缩到约 39 分(缩窄约 97%),榜首中美「多次易主」。回看 2025 年 1 月,DeepSeek R1 一度追平最强闭源、把英伟达单日打下约 17%、市值蒸发近 6000 亿美元——那是这一层的「斯普特尼克时刻」。Stanford HAI 2026 TNW · ELO 差 39 IG · 英伟达 −17% 能力的绝对水位也在指数级抬升:研究机构 METR 测得前沿模型能自主完成的任务长度(50% 成功率)已从 2020 年的 9 秒涨到 2026 年 2 月的约 14.5 小时,大约每 7 个月翻一倍——这是衡量「模型层时钟」走多快最硬的一把尺。METR · 任务时长
而在开源权重这条赛道,中国已经反超:阿里 Qwen 系列累计下载超 7 亿次、衍生模型超 11 万个,成为全球第一基座;中国模型在 Hugging Face 的新增下载占比约 41%,反超美国。到 2026 年中,中国开源旗舰——DeepSeek V4、Qwen3.7、智谱 GLM-5.2、月之暗面 Kimi K2.7——几乎都用 MIT/Apache 宽松许可;其中 GLM-5.2 更号称「以 1/6 成本击败 GPT-5.5」。一句业内评语:「Qwen 一家几乎抵得上整个美国开源生态。」HF 2026 排名 中国开源反超 SCMP · GLM-5.2
围绕 DeepSeek「数百万美元就训出前沿模型」的著名争议,到 2026 年已经落定,而且变成一道「你算哪本账」的题:DeepSeek 在一篇经 Nature 同行评审的论文里披露,R1 的强化学习训练只花了约 29.4 万美元(不含约 600 万美元的底座预训练);而 SemiAnalysis 估算其含研发与基础设施的总投入约 13 亿美元、约 1 万张 H800 + 1 万张 H100。同一件事,单次算力账与全成本账能差三个数量级——这恰恰说明「效率叙事」既真实、又容易被选择性放大。Nature · $294K SemiAnalysis · 全成本 $13 亿
而前沿俱乐部其实只有两家——除中美外,2026 年全球还没有第三方能独立做出真正的「前沿级」闭源模型。最接近的是欧洲 Mistral(传以约 €200 亿估值融资),但仍落后一档、且走开源;中东的 UAE G42、沙特 Humain 本质是「用美国芯片 + 美国栈」的代工型主权 AI(2025-11 美国授权对其出口最高 7 万颗 Blackwell,条件是对华脱钩);英、印、日韩、东南亚多是在美 / 中开源基座上做本地化微调。一句话:能造前沿的是中美,其余地区在选择「用谁的栈」。TechCrunch · Mistral 商务部 · 对中东授权 G7 可信伙伴
档案 · 模型层的暗面:MYTHOS
2026 年最能说明「前沿差距有多陡」的,是 Anthropic 的 Mythos。它先因约 3000 份内部文件泄露而曝光,官方承认其网络安全能力「远超所有其他 AI」;正式发布时被拆成两档——公众只能用屏蔽了高危能力的 Fable 5,全部能力(Mythos 5)只给受信任组织。它在 SWE-bench Verified 93.9%、USAMO 97.6%、Cybench 直接打满,能以 $50–$2,000 的成本自主挖出 OpenBSD 27 年、FFmpeg 16 年的远程漏洞——而 Anthropic 自陈「没有专门训练它获得这些安全能力」,安全能力只是通用能力的下游后果。结局更耐人寻味:发布仅三天,美国政府以国安为由勒令对所有外国人停用,连最强模型也成了「能一键断供」的受控资产。「太强,不敢公开」第一次成为真实的产品决策。
完整脉络见 DeepDive · Mythos 报告 · Anthropic Fable 5 / Mythos 5 · Nextgov · 政府下架
黄仁勋「必须赢得全球开发者」的焦虑正源于此:闭源天花板可以靠管制和算力守住个位数的领先,但开源生态一旦被中国模型占据,第四、五层的「开发者心智」就可能易主——而那是花钱也买不回来的。
黄仁勋强调:只有应用层产生规模化回报,才能验证下面四层数千亿美元的投入。这是「钱从哪来」的一层,也是没有简单赢家的一层。
美国的优势是「为软件付费」这件事本身——成熟的 B2B SaaS 文化,让 Claude、ChatGPT、Codex 能在企业里跑通订阅与按量计费,垂直 Agent 还能拿到高毛利。中国的优势在另一侧:消费级规模、制造业与具身智能的落地场景,以及一道独特的护城河——数据不出境,让外资模型无法处理金融、医疗、政务的核心数据,给国产厂商留出约 2024–2028 年的「事实垄断窗口」。《数据安全法》 CSIS
但中国软件产业的结构性短板也在这一层暴露:定制化率约 70%、大量要求私有化部署、私有部署毛利仅约 35%——这意味着即便应用跑起来,把它「吃成可持续现金流」远比美国吃力。
数据:Bonafide(SaaS 市场规模)· Grand View(中国 ERP 本地部署)· FLG Partners(SaaS 毛利基准)· 《数据安全法》(数据出境)
把五层叠回去,一张评分卡足以概括整个棋局。
规律清晰得近乎对称:蛋糕越往下(能源、算力规模),中国的「物理优势」越突出;越往上(前沿模型、B2B 变现、开发者生态),美国的「软实力优势」越突出。
由此可以读懂两套战略的全部意图。美国的出口管制,是死守第二层(芯片)这道唯一的咽喉——因为它能同时卡住中国的第三、四层。中国的反制思路,则是绕过这道墙:用第一层的电力 + 第三层的系统设计 + 第四层的开源生态,去对冲第二层的封锁。CloudMatrix 384 就是这套「绕行」最完整的物理证明。CSIS · 管制的极限 CSIS · 算力差与反制 RAND 研究机构也在用类似的「约束分层」看 AI:Epoch AI 判断到 2030 年算力仍可再放大约一万倍,但会依次撞上四道约束——电力(最先)、芯片制造、训练数据、数据中心延迟——这几乎正是这块蛋糕由下而上的前几层(一次 2030 年的前沿训练或需约 6GW,相当于今天全部数据中心耗电的 30%)。Epoch · 2030 能否继续 scaling
管制押注的是:守住芯片,就能拖住一切。中国押注的是:把其它四层都做强,芯片这一层就没那么致命。
两套战略的对赌 · 本文综合判断
前面六节像一张静态快照。但蛋糕不是静止的——每一层「需要提供什么」,其实是由模型层正在选择的架构决定的。
黄仁勋讲的是「应用需求自上而下传导」。这一节要补上一个他没强调、却更要命的反向命题:模型层的每一次架构跃迁,都会自我扩散——向上重塑应用,向下重写芯片、基建、能源的需求曲线。模型层(第四层)才是这块蛋糕真正的扰动源。下面七条正在发生的路线——前六条多在「让同等能力更省资源」,第七条相反、是「开辟全新模态、把需求推向新量级」——每一条都在改写其余几层要造什么。
2026 年中最便宜的 frontier 级模型 DeepSeek-V4-Pro 有 1.6 万亿总参数、推理时只激活 490 亿(激活比约 3%);MoE 已是 GPT-5、Llama 4、Gemini 3 的「无争议标准」。↓ 向下:MoE 的悖论是「FLOPs 更少、显存更多」(每个专家都要常驻内存、对 all-to-all 互联要求极高),逼出 NVIDIA GB300 NVL72 这种整机柜「Wide Expert Parallelism」(72 卡共享 130 TB/s NVLink),把每百万 token 成本压到约 $0.12、比 Hopper 低 35 倍。↑ 向上:单位 token 成本骤降,让「全程调用最强模型」在应用层第一次经济可行。这正是侵蚀 §02 芯片护城河、点燃 §05 价格战的根源——也是中国在算力受限下追平的主路径。arXiv · DeepSeek-V3 硬件反思 NVIDIA Signal65
o1、DeepSeek R1、GPT-5.5 这类「想得更久」的模型,把智能来源从「训练更大」换成「推理时多算」。↓ 向下:算力重心整体迁移——Deloitte 估计推理已占总算力约 三分之二(2023 年仅约 1/3、2025 年约 1/2),且即便芯片更高效,总算力需求到 2030 年仍每年增长 4–5 倍;一次扩展推理查询的算力是普通查询的 30–100 倍,哪怕只占 10% 请求也能让总能耗翻倍。Deloitte 2026这把 §03 从「训练工厂」重定义为「推理工厂」,把 §01 的耗电从一次性训练搬到永不停机的推理侧。↑ 向上:Agent、深度研究、可验证推理成为可能,代价是每次查询的成本与延迟上升(§05 那场「token 账单」焦虑的技术根源)。Introl Towards Data Science Hugging Face
2026 年扩散路线从初创独苗变成一线大厂下场:Inception 的 Mercury 2(2026 年 6 月)在 Blackwell 上跑到约 1000 tok/s、比同级自回归快 5–10×;同月 Google DeepMind 开源 DiffusionGemma,单 H100 上比 Gemma 4 快约 4 倍(代价是推理质量明显回落)。↓ 向下:并行解码打破自回归的串行内存带宽瓶颈,单卡吞吐数量级提升——削弱「必须买 Groq / Cerebras 专用推理芯片」的必要性,给 §02 又开一条绕行路。↑ 向上:亚秒级语音与实时 Agent 成为默认体验。Inception · Mercury 2 DiffusionGemma
2026 年 3 月,CMU、普林斯顿、Cartesia、Together 联合发布 Mamba-3,把状态空间模型从「研究好奇」推成「生产可选项」:7B 模型在 64K 上下文下显存约 19GB(Transformer 约 33GB)、吞吐约 2,600 tok/s(约 7×)。↓ 向下:固定大小的递归状态消掉了随上下文线性膨胀的 KV cache,直接攻「内存墙」、改写 §02 对 HBM 的需求曲线(Jamba 式混合在 64K 下 KV cache 仅为全 Transformer 的 10–15%)。↑ 向上:长文档、长程 Agent、持久记忆在经济上第一次可行。Spheron · Mamba-3 AI21 · 混合 LLM
一个 7B 小模型比 70–175B 大模型便宜 10–30 倍;蒸馏 + 量化 + 剪枝能在保留 90–95% 精度的同时把体积压到 1/10–1/20;混合部署里端侧已能接住 90–95% 的查询、只把 5–10% 抛给云端,Gartner 更预测到 2027 年企业用的任务专用小模型数量将是大模型的 3 倍。↓ 向下:推理从数据中心下沉到设备 NPU / Apple Silicon,减少云算力依赖、把 §01 的能耗分散化。↑ 向上:隐私本地 App、离线 Agent 改写 §05 的商业模式——从「云订阅」转向「端侧」,也恰好利好中国的数据不出境场景。Iterathon Tredence · Gartner 3×
Meta 的 Byte Latent Transformer(BLT)证明「动态字节块」可以不靠固定词表、直接从原始字节学习、scaling 不输 token 方案;2026 年 5 月 Meta + 斯坦福 + UW 进一步提出 Fast BLT,用块级扩散 / 自推测解码把字节级模型的推理内存带宽成本再砍 50% 以上(部分配置达 87–92%)。潜在级联最深:一旦离散 token 被取代,整条「按 token 计费」的商业链(§05)、「每秒 token」的算力度量(§03)、乃至 tokenizer 决定的多语言与鲁棒性,全都要重算。这是目前最靠近地基的一次「左移」。VentureBeat · BLT MarkTechPost · Fast BLT
前六条都在「让同等能力更省资源」;这一类正相反——开辟全新模态、反把需求推向新量级。它们共用一个架构底座:Diffusion Transformer(DiT)——把扩散模型的骨干从 U-Net 换成 Transformer、按「时空 patch」生成,Sora、视频与世界模型都建在其上,2026 年已是「生产级视频生成的事实标准」(质量/训练美元比更高、更易 scale)。新形态有三支:视频生成(Sora、快手 Kling 3.0、阿里 Wan、字节 Seedance 2.0——中国模型已占 Artificial Analysis 视频榜前列)、世界模型(Google Genie 3 实时可交互 3D、NVIDIA Cosmos 3 全模态物理 AI、李飞飞 World Labs 的 Marble、阿里「Happy Oyster」)、以及打通「感知—语言—动作」的 VLA 具身模型(2026 年中已成机器人基础模型主流)。↑ 反向放大算力:世界模型训练/推理需要 LLM 的 8–32 倍 GPU 算力,时空 patch 对显存与带宽是另一个量级——这一类不缓解、反而抬高 §01–§03 的需求。↺ 反哺数据层:世界模型还能生成合成训练数据与安全仿真环境(Waymo 2026 年用 Genie 3 造自动驾驶世界模型、批量造出真实路上罕见的极端场景),把「真实数据稀缺」这个训练瓶颈一并改写——Epoch AI 估计人类公开文本数据将在 2028 年前后见底,世界模型生成的合成数据与仿真,正是绕过这道「数据墙」的主要出路之一。Epoch · 数据墙↓ 解锁新应用:机器人/具身、自动驾驶、游戏与 3D、影视、工业仿真——把 AI 从「比特」推向「原子」,恰好接上 §05 里中国制造业 + 物理 AI 的主场。WaveSpeed · DiT 2026 NVIDIA Cosmos 3 Spheron · 世界模型需 8–32× 算力 Introl · Genie 3 / Waymo 中国视频模型对比
黄仁勋说需求从应用自上而下传导。但真正决定每一层要造什么的,是模型层的下一个架构拐点——谁先跑出它,谁就重写其余四层的游戏规则。
本文核心命题 · 模型层是双向扰动源
把七条路线叠回蛋糕,会看到三股力量同时在跑:
向下扩散(MoE / 蒸馏 / SSM / 扩散 LLM):让同等能力需要更少算力、更少显存、更少电 → 侵蚀芯片护城河、压低应用成本——结构性利好「算力受限」的中国。
向上 / 横向放大(推理 / 测试时计算):让算力需求从一次性训练转向永续推理 → 抬高基建与能源的长期需求——结构性利好「有电、有芯片」的美国。
开辟新模态(DiT / 世界模型 / 具身):把算力与数据需求推向新量级,并开出机器人、自动驾驶、视频等全新应用——这一类直接放大整块蛋糕,也把战场引向中国押注的「物理 AI」。
所以中美博弈最深的胜负手,可能既不在芯片、也不在电,而在谁主导模型层的下一次范式迁移。DeepSeek 的 MoE、字节级架构的探索、以及中国在视频与世界模型上的并跑已经证明:模型层是中国少数几次「在算力劣势下仍能扰动全局」的地方。出口管制锁得住芯片,锁不住一个更聪明的架构。
前面讲的是「谁能造」。但中美对抗最隐蔽的战场是另外三件事:谁能毒(污染数据)、谁能偷(蒸馏能力)、谁能守(护住壁垒与霸权)。这三件事都不在「权重谁更大」上。
2025 年 10 月,Anthropic 联合英国 AI 安全研究所做了迄今最大规模的投毒实验,结论颠覆直觉:给任意规模的大模型植入后门,所需的中毒文档数量几乎恒定——约 250 份就够,与模型多大、训练数据多多无关。而污染网络爬取数据集只需其 0.01%(建几百个网页即可)。更糟的是,Anthropic 另一项研究证明这类后门能挺过标准安全训练(SFT/RLHF/对抗训练)而不被清除。Anthropic · 250 文档投毒 Sleeper Agents
这对整条供应链是结构性威胁:污染一个开源底座,就会把后门带进每一个下游微调版本和上层应用——而 Llama、Qwen 这种被海量二次微调的开源权重风险最大(LoRA/PEFT 微调都清不掉继承的后门)。配套的攻击面已经成熟:HuggingFace 上扫出约 35 万处不安全问题、一个伪装成 OpenAI 的恶意模型被下载 24.4 万次;AI 推荐的依赖包有 19.7% 根本不存在(slopsquatting,攻击者抢注即可投毒);第一个恶意 MCP 包已在 2025 年 9 月进入公开注册表。CSO · 恶意模型 slopsquatting 19.7% OWASP · 供应链
网络数据 0.01% 可污染 → 250 份文档即植后门 → 后门挺过安全训练 → 污染开源底座 → 扩散到数千下游模型与百万用户。数据既是 AI 的原料,也是它最缺校验的供应链。
为什么「数据」本身是一条脆弱供应链
2026 年真正的窃密战不是偷权重,而是 蒸馏——让小模型在前沿模型的 API 输出上训练,以几分之一成本复刻其能力。2 月,Anthropic 指控 DeepSeek、月之暗面、MiniMax 对 Claude 发动蒸馏(合计超 1600 万次交互、约 2.4 万欺诈账户);6 月又指控阿里 Qwen 发动「迄今最大一次」(2026-04-22 至 06-05、超 2880 万次、约 2.5 万账户),目标正是 Claude 最值钱的软件工程与 agentic 推理能力。OpenAI 则向国会指 DeepSeek 蒸馏,证据之一是其回答与 ChatGPT 写作风格 74.2% 相似。
来源:Anthropic · CNBC · 阿里 · Rest of World · DOJ
把各家最想拿到的资产排个序,会发现「权重」反而不是最稀缺的:模型权重价值极高但可被物理防护(RAND 列出 38 种攻击向量、5 个安全等级);system prompt 几乎守不住(研究结论「提示保密不可实现」);而真正最难复制的,是后训练 / RLHF 的数据与配方、训练数据配比,以及人才——前沿实验室每年光买人类数据就约 10 亿美元。蒸馏战之所以打成这样,恰恰证明:对手偷不走配方与人才,就退而求其次,用 API 把「能力的影子」学走。真正的护城河,是花钱也买不到的配方与人。RAND · 保护权重 Toloka · 数据护城河
白宫 2025 年 7 月《赢得竞赛:美国 AI 行动计划》是总纲。把它的牌摊开,会看到进攻面咄咄逼人、防守面却各有破口——而中美最强模型差距已收窄到约 2.7%(2026-03),优势在缩小。
最锋利的进攻牌是「卖美国全栈给盟友、把中国挤出」(2025-07 行政令设 American AI Exports Program;中东即样板)和「把模型权重当国安资产、必要时一键断供」(2026-06 政府勒令 Anthropic 对所有外国人停用 Fable 5/Mythos 5)。但断供这张牌是双刃的:它既展示了美国的杠杆,也成了盟友求自主的催化剂,G7 因此在谈一份「可信伙伴白名单」——谁能用美国前沿模型、谁被锁在外面,正在被重新划线。行政令 · 出口美国 AI 栈 Lawfare · 人才软肋 USCC · 开源告急
把攻防铺开,结论很冷峻:美国守得住「能造前沿」,却守不住「能力被学走、心智被开源夺走」。出口管制锁芯片、保护权重锁外泄、卖全栈锁盟友——这些都管用;但蒸馏绕开了权重防护,人才流入暴跌、电力撞墙、全球开发者正流向更便宜的中国开源。优势能不能拉大,最终不取决于封锁得多严,而取决于美国能否补上人才、电力、生态这三个自己的破口。
黄仁勋这套理论里藏着一个他没明说的风险:既然需求是「自上而下传导」的,那么一旦最上层的应用回报不及预期,崩塌也会自上而下。
如果第五层的商业回报撑不起前四层数千亿美元的投入(这正是「AI 泡沫论」的核心),最先承压的会是离现金流最远的中间两层——那些靠债务和股权预付撑起来的芯片订单与数据中心。这条循环到 2026 年已被量化:跨七大供应商的算力承诺合计约 1.15–1.4 万亿美元,而 OpenAI 2025 年营收约 130 亿——承诺是营收的约 75 倍;2026 年还出现 OpenAI 下调总盘子、改「租用」的收缩信号。能源(第一层)反而最抗跌:电厂和电网无论如何都有别的用途。Bloomberg · 循环交易 Fortune · 循环融资 The Register
这给中美对抗留下一个反直觉的尾注:如果蛋糕真的塌一半,美国押注最重的中间三层(芯片+基建)暴露最大,而中国押注的两端(能源在底、制造业应用在顶)反而更接近实体经济、更经得起挤泡沫。这不是预测,而是一个值得在未来 18 个月持续观察的结构性问题。
最后值得并置两张研究机构的时间表:METR 测得 AI 能自主完成的任务时长每约 7 个月翻一倍,并按简化模型推测 AI 研发自动化或在 2030 年代初接近完成;而 Epoch AI 提醒,scaling 会在 2030 年前依次撞上电力、芯片、数据三道墙。能力时钟与约束时钟正在赛跑——谁更快,决定这块蛋糕是继续做大、还是从某一层塌下来。(另一类研究如 Apollo Research 则提醒:越逼近自动化,模型「钻评估空子、欺骗性对齐」的风险越需要被认真评估。)METR · R&D 自动化时间表 Apollo Research
五层蛋糕最大的价值,不是告诉你「谁会赢」,而是逼你问对问题:不要笼统地问「中美 AI 谁强」,而要问「在哪一层、强多少、靠什么撑住」。把这五个问题分别回答清楚,整盘棋就清楚了。