把大模型接进金融、医疗、政务这类敏感场景,你迟早要回答一个最贵的问题——为「别让云端看见我的数据」,你愿意多付几倍算力?
你正要把大模型接进金融、医疗、政务、法律这类「数据一旦泄露就是事故」的业务,却没人能干脆回答一个最朴素的问题——把数据交给云端推理,到底安不安全?为这份安全,我要多付多少倍算力? 如果你卡在这里,这篇就是为你写的。它把 TEE、MPC、同态加密、拆分推理摆成同一道「信任定价」题:你愿意信谁(信芯片厂、信多方不合谋、还是只信数学),直接决定你多付 1.05 倍、几百倍,还是几千倍算力。
它写给三种人,对应三个你会真正用到它的瞬间:
· 技术决策者(CTO / 架构师 / 平台负责人)——在 TEE、MPC、同态加密、拆分推理之间选型,被各家「≤3× 开销」「零信任」「数据不出域」的话术绕晕时。这篇给你一张直接照着走的决策树,和四条路线的真实开销:1.05× / 10–100× / 数千倍 / 近乎为零。
· 安全与合规负责人(CISO / 数据合规 / 信创)——要向董事会、监管或客户说清「我们的 AI 推理保护到什么程度、代价是什么」;尤其当信创要求撞上「国产 GPU 至今没有商用机密计算」这堵硬墙。
· 隐私计算的研究者、创业者与投资人——判断一个号称「隐私保护」的方案,到底是密码学级别的保障,还是只是「传特征不传原图」这种会被反演攻击打穿的经验性安慰。
LLM 密态推理四条技术路线的演进与终局:TEE、MPC、同态加密与拆分推理,本质上是同一道「信任定价」题的四个答案。这篇长文拆解它们的演进脉络、实测开销、产业落地,以及中国市场独有的结构性矛盾。
在读任何技术细节之前,先把选型问题收敛掉。企业采用 LLM 的算力路径,本质上只需要依次回答四个问题:数据敏感吗 → 有卡吗 → 缓解措施够吗 → 有信创要求吗。每个落点对应的技术路线,正文会逐一拆解。
信芯片厂商(TEE)付不到 10% 的算力溢价;信多方不合谋(MPC)付 10–100 倍;只信数学(FHE)付 3–5 个数量级;架构级弱保障(拆分推理)接近零成本,但形式化保障最弱。
NVIDIA H100/Blackwell 已把开销压到个位数百分比,Apple、Anthropic、Google 已实际部署。MPC/FHE 短期只会在金融、医疗等强合规、可容忍高延迟的窄场景落地。
CPU 侧国产机密计算(海光 CSV、鲲鹏 iTrustee)已规模商用,但国产 AI 加速卡的 GPU 机密计算几乎空白——这给「MPC 跑国产卡」和「回流自建」留出了窗口。
联邦学习、差分隐私、zkML——这三者常被混在「隐私计算」的大筐里,但它们与密态推理的目标正交:联邦学习解决数据不出域的协同训练,差分隐私解决输出与统计层面的隐私泄露,zkML 解决推理结果的可验证性而非输入机密性。
密态推理只问一件事:当用户把 prompt 发给云端大模型、或模型方把权重托管到第三方算力上时,如何保证输入、输出(有时还有权重)在计算过程中不被算力提供方看到?这是「数据使用中(data-in-use)」的机密性问题——传输加密(TLS)和存储加密都覆盖不到的最后一段。
这个问题的产业权重正在被政策端持续抬升:国家数据局《可信数据空间发展行动计划(2024—2028年)》把可信数据空间定义为「联接多方主体、实现数据资源共享共用的数据流通利用基础设施」,并点名高性能密态计算是破解数据流通难题的核心技术之一。换句话说,密态推理能否规模化,决定的不只是云上 AI 的安全形态,还有数据要素市场这个更大命题的技术底座。而这恰恰取决于四条技术路线能否把「信任成本」和「算力成本」同时压到产业可接受的区间。
四条路线不是在竞争同一个位置,而是在「信任假设 × 性能开销」的二维平面上各占一角。下面这把梯子(横轴为对数刻度的相对明文开销),是理解整个赛道的钥匙。
第一代主角是 Intel SGX——在 CPU 里划出一块加密「飞地」。但它的两个硬伤几乎定义了赛道的早期困境:一是 enclave 内存只有 128MB 级别,跑大模型权重根本不够;二是侧信道攻击史触目惊心——2018 年 Foreshadow 直接攻破了 SGX 远程证明;2020 年 CacheOut 与 SGAxe 进一步证明,即便开启全部侧信道防护,攻击者仍能提取证明密钥、伪造合法的 Intel 机器签名 (CVE-2020-0549)。Intel 后来在新一代客户端 CPU 上事实性地弃用了 SGX。
第二代是 VM 级机密计算:Intel TDX、AMD SEV-SNP 把保护边界从「一段代码」放大到「整台虚拟机」。这一步对 AI 至关重要——不用改模型代码,把整个推理栈塞进机密 VM 即可。
真正的转折点是 2023 年 NVIDIA 在 Hopper(H100)上首次把 TEE 扩展到 GPU。CC 模式下,每次写入 HBM 的数据都在 GPU 安全引擎内用 AES-256-GCM 加密,密钥在 GPU 内生成、永不离开芯片;CPU 与 GPU 之间的数据走加密的 bounce buffer。
Apple Private Cloud Compute(PCC)是迄今最完整的架构范本:定制 Apple silicon 服务器做信任根、裁剪版 OS、Swift 写推理控制层保证内存安全、请求处理完即删,并向用户设备提供可验证的软件证明(Apple Security 官方架构文)。2025 年 Apple 进一步把 PCC 扩展到自有数据中心之外——Apple Intelligence 的部分推理跑在 Google Cloud 的 NVIDIA Blackwell GPU 上,采用「NVIDIA 机密计算 + Intel TDX + Google Titan 安全芯片」三层硬件信任栈,号称业界首个可全球规模运行的端到端机密推理流水线。
Anthropic 在 2025 年与 Pattern Labs(现 Irregular)发布《Confidential Inference via Trusted Virtual Machines》白皮书并落地了 Confidential Inference 系统。其威胁模型极为激进:假设服务提供方本身是对抗性的,攻击者完全控制包括宿主机在内的所有机器。潜台词很清楚——这正是把前沿模型部署到不受信任司法管辖区数据中心所需要的能力。
CPU 侧已规模商用。海光 CSV 是目前唯一规模商业化的国产 CPU 机密计算技术:内存加密用国密 SM4,远程证明用 SM2 签名;CSV3(海光四号,2023 年底)增加内存完整性保护后,能力已与 Intel TDX、AMD SEV-SNP 相当。阿里云已推出基于海光 CSV 的机密虚拟机实例。华为鲲鹏 iTrustee 获 CC EAL4+ 认证,TEE 安全内存最大可配 128GB。
GPU 侧几乎是空白——这是信创最大的硬件瓶颈。截至 2025 年,没有任何一款国产 AI 加速卡(昇腾、摩尔线程、壁仞、寒武纪、天数智芯)拥有像 H100 那样商用、产品化的 GPU 机密计算模式。最接近的是华为苏黎世研究中心与 ETH Zurich 的学术原型 ASCEND-CC (arXiv:2407.11888)——在昇腾 910A 上改固件实现 NPU 机密计算,推理开销仅 0.028%–0.91%,但它是单租户研究原型,不是商用功能。
信任根问题是这条路线的原罪。TEE 的全部安全性押在两件事上:芯片厂商没有后门、证明体系可信(对 NVIDIA 这种美国厂商,在信创语境下本身就是信任问题);以及侧信道防护到位(SGX 的历史证明远非高枕无忧)。一句话:TEE 是「信任转移」而非「信任消除」——它把信任从「整个云厂商」收敛到了「芯片厂商 + 一段可验证代码」。
「TEE 把信任从整个云厂商,收敛到芯片厂商加一段可验证的代码。这是巨大的进步,但它是信任转移,不是信任消除。」—— 本文核心论点之一
MPC 把数据切成秘密分片,分发给多个参与方协同计算,任何单方都看不到原始数据。这是一个比「信芯片厂」更弱、但比「只信数学」更强的中间假设。
早期是 ABY、SPDZ、CrypTFlow 等通用框架。2022 年起,针对 Transformer 的安全推理协议密集涌现:Iron、Cheetah、CipherGPT,直到 2023 年的 PUMA 成为里程碑——首个开源、不改模型即可安全推理预训练 Transformer 的 MPC 方案,首次实现 LLaMA-7B 级别的 MPC 推理:约 5 分钟生成 1 个 token。随后是性能竞赛:BumbleBee(NDSS 2025)把矩阵乘法通信砍掉 80–90%;微软 SIGMA 用函数秘密分享 + GPU 加速,把延迟再提升 11–19 倍,首次实现 GPT 类生成模型的安全推理。
非线性算子是主战场。GELU、Softmax、LayerNorm 这些非多项式函数在密文上极其昂贵——整个 MPC-Transformer 的优化史,基本就是「如何更便宜地近似非线性算子」的历史。
值得注意的是,PUMA、BumbleBee 这两个里程碑协议都出自国内团队,并依托开源的 SecretFlow 技术栈对外开放——在 MPC-Transformer 这个细分方向上,中国的工程贡献处于全球第一梯队。产业侧,华控清交、翼方健数、光之树等厂商在推进 LLM 密算产品化,普遍主打密评 / 国密合规优势;而「纯密码学方案成本过高、需与可信硬件协同」已是业内普遍的工程共识——MPC + TEE 混合被广泛视为规模化的现实路径。
根本瓶颈不是计算而是通信。GB 级甚至数百 GB 的数据交换,在 WAN 下是决定性瓶颈。这决定了 MPC 短期内只适合「多方带宽好、可容忍分钟级延迟、强合规」的窄场景。GPU 加速 MPC(SIGMA 即代表)是当前最有希望改变开销曲线的方向。
FHE 允许直接在密文上做任意计算:客户端加密、服务器算、客户端解密,服务器全程看不到明文。信任假设最干净,开销最恐怖——DARPA 的说法是,笔记本上 1 毫秒能算完的计算,用今天的 FHE 要算几周。
CKKS、BFV/BGV、TFHE 是三大主流方案。针对 Transformer 的非交互式 HE 推理是 2024–2026 年的研究热点:NEXUS(NDSS 2025)是首批用 RNS-CKKS 实现非交互式 Transformer 推理的工作,但 BERT-base(128 token)需要约 1103 秒——且有研究指出其非线性近似的最大相对误差高达 297%。即便有专用近似和 GPU 实现,FHE 跑完整 LLM 推理的开销仍在数千到数十万倍区间。
DARPA DPRIVE 计划资助了 Intel、Duality、SRI、Galois 四个团队做 FHE 的 ASIC 加速器,目标是把开销拉到明文一个数量级以内;Intel 联合微软的 ASIC 号称能加速约百万倍。Cornami 走可重构众核,Optalysys 走光学计算,Niobium 已流片,Fabric Cryptography 的芯片预计一年内量产。这些加速器宣称的 1000–5000 倍提升「是否够用」,仍是开放问题。
部署现实:FHE 今天能落地的是「小而美」的检索类,不是 LLM 推理。Apple 用 HE 做的是加密数据库查询(来电号码查询全程不暴露所查号码),不是用 HE 跑神经网络。Zama 以超 10 亿美元估值成为 FHE 首个独角兽,但其 FHEVM 链上吞吐至今只有每秒几十笔的量级。这本身就说明:FHE 的产业化突破口在轻量级、高价值、可容忍延迟的场景。混合方案(HE 只管线性算子,非线性交给 MPC 或 TEE)是更务实的工程路径——BOLT、BumbleBee 本质都是 HE/MPC 混合。
把同态加密从「理论上界」拉向工程可用,国内出现了一条值得关注的混合路线——荆华密算的密态训练/推理平台是代表。其思路可以用三句话概括:第一,线性与非线性算子分离计算,密码学开销最重的部分被结构性拆开;第二,CPU-TEE 与 GPU 异构调度——密钥管理与敏感控制面落在 CPU 可信执行环境里(毫秒级随机密钥生成与注销),大规模矩阵运算交给 GPU;第三,加密粒度做到请求级,每个推理请求随机加密、逐 token 密态计算,输入与结果仅输入者可见。
与多数只做密态推理的方案不同,荆华覆盖到了密态训练(密文模型训练、密文检索、密态向量库),并宣称在适配主流国产 GPU 的前提下,密态训练与推理相对明文的时间损耗均控制在 3 倍以内——若经独立验证,这将显著低于纯 MPC(10–100×)与纯 FHE(10³–10⁵×)的区间,代价是引入了对 CPU-TEE 的硬件信任(部署要求 CPU 支持开启 TEE)。落地形态包括密态计算一体机(推理:双路 CPU + 4 卡 GPU;训练:双至四路 CPU + 8 卡 GPU)与软件部署;公开披露的项目包括乐城医疗密态训练可信空间与长三角医疗先行区平台,信通院密态标准与等保四级评审在 2026 年推进中。
需要客观标注的是:「≤3×」为厂商宣称,尚缺公开的第三方基准;且该路线的信任假设不再是「只信数学」,而是「数学 + CPU 芯片厂」的混合——这正是它换来性能的代价,也是把它放在本章而非单列一章的原因。
这条混合路线的行业意义在于:它示范了 HE 在 LLM 场景的现实出路不是「等 ASIC 拯救纯 FHE」,而是把密码学保障用在刀刃上、把性能敏感部分交还给硬件信任——本质上是在信任定价梯子的中段,新造了一个档位。
本地跑一个编码器,只把压缩后的中间特征传到云端大模型,原始输入不出端。开销几乎为零——就是正常的神经网络前向计算。
真实实例:GLM-4.5V(智谱 2025 年 8 月发布并开源,106B 总参 / 12B 激活)由视觉编码器、MLP 适配器和语言解码器组成——视觉编码器可前置到端侧,只上传压缩后的视觉特征,是拆分推理在多模态场景的天然落点。Apple Intelligence 的「端侧优先、必须上云才走 PCC」分层架构,本质上也是拆分思想。
本项目配套的开源实现 VIT Secure Inference(GitHub · MIT)把这条路线做成了可直接安装的产品:在本地 Mac 上用 300M 参数的 ViT 视觉编码器(Metal GPU 加速)提取图像特征,经 Gzip 压缩后仅上传约 1MB 的特征向量至云端 GLM-4.5V 完成视觉理解与文字生成——原始图片像素数据永不离开设备,支持 OCR、文档/财报分析、多图对比与医学影像等专项任务。
诚实的边界说明:ViT 编码是单向且大幅压缩信息的过程,显著抬高了重建门槛,但参照下文的特征反演研究,这仍是经验性保障而非密码学保障——这正是它被归入本路线、且建议对高敏场景叠加加噪/混淆的原因。
致命弱点:特征反演攻击。「只传特征不传原图」听起来安全,但大量研究证明中间表示可被部分甚至高保真重建:FIA-Flow(2025)用不到 ImageNet-1K 0.32% 的样本即可训练出黑盒反演模型,高保真重建原图;CapRecover(ACM MM 2025)能从视觉特征直接重建图像的文字描述;针对 LLM 也有 Vec2Text 类 embedding 反演工作。防御手段(对抗训练、特征稀疏化、加噪)都存在精度-隐私权衡,且没有任何一个能提供密码学级别的形式化保障。
定位结论:拆分推理是「成本驱动」而非「保障驱动」的方案。适合隐私敏感度中等、对延迟和成本极度敏感的消费级场景;但凡涉及金融、医疗、政务这种需要可证明机密性的场景,它只能作辅助层,不能作主防线。
| 路线 | 信任根 | 相对明文开销 | 形式化保障 | 代表方案 / 产品 | 信创适配 | 典型场景 | 成熟度 |
|---|---|---|---|---|---|---|---|
| TEE / GPU CC | 芯片厂商 + 可验证代码 | <10% H100 平均 <7%,Blackwell 趋近于零 | 中 依赖硬件 + 远程证明 | NVIDIA H100/Blackwell CC · Apple PCC · Anthropic Confidential Inference | 弱 信任根在 NVIDIA;国产 GPU TEE 空白 | 云端通用机密推理、跨司法辖区部署 | 已规模商用 |
| MPC | 多方不合谋假设 | 10–100× 通信 GB 级,瓶颈在带宽 | 高 密码学 | PUMA · BumbleBee · SIGMA · SecretFlow 开源栈 | 强 纯软件可跑国产卡,易过密评 | 金融 / 医疗跨机构数据融合 | 窄场景落地 |
| HE+TEE 混合 算子分离 |
数学 + CPU 芯片厂(混合) | 宣称 ≤3× 厂商口径,待独立验证 | 较高 密码学为主 + TEE 控制面 | 荆华密算密态训练 / 推理平台(一体机 + 软件部署) | 强 适配主流国产 GPU,国密认证推进中 | 可信数据空间、密态训练、跨境数据流通 | 商用初期 |
| FHE | 只信数学 | 10³–10⁵× 硬件加速是唯一希望 | 最高 密码学 | NEXUS · Zama TFHE · Apple swift-HE(PIR) | 中 算法可国密化,性能暂不可用 | PIR 类轻量加密检索 | 仅轻量检索 |
| 拆分推理 | 「特征难反演」(经验性) | ≈ 0 | 最弱 受特征反演攻击威胁 | GLM-4.5V 端云协同 · VIT Secure Inference · Apple 端云分层 | 不依赖特定硬件 | 消费级 / 低敏场景的默认降本层 | 消费级辅助 |
中国市场不是全球格局的简单缩放——它有三个独特的结构性约束,三者合力催生了中国特有的「回流自建」逻辑。
全球云端机密推理的事实标准正收敛到 NVIDIA GPU CC,但其信任根(远程证明、芯片密钥)完全握在 NVIDIA 手里。你用机密计算是为了不信任算力提供方,结果却必须无条件信任一家美国芯片厂的证明体系。
国产硬件上,密态推理短期只能靠软件密码学方案(MPC)跑在国产 GPU/CPU 上,或靠海光 CSV / 鲲鹏 TEE 做 VM 级保护——无法复制 NVIDIA 那种低开销 GPU 机密推理路径。这反过来强化了「MPC + TEE 混合、且用国密」的技术选择。
GB/T 43206-2023 密评标准 2024 年 4 月落地,叠加「数据要素×」三年行动计划的政策驱动,采用国密算法(SM2/SM3/SM4)的方案在政务、金融等强监管场景获得天然合规优势——这是国际厂商难以复制的本地壁垒。
三点合力的结果:对机密性要求最高的机构(大型银行、三甲医院、政务云),与其纠结于公有云上的机密推理信任链,不如直接私有化部署国产硬件 + 国产密态方案——代价是运维成本上升、对外服务效率受限,但在当前技术约束下这是结构性的理性选择。政策端正在尝试把这部分「回流」的需求重新拉回到可信的云上密态流通:国家数据局《可信数据空间发展行动计划(2024—2028年)》明确点名高性能密态计算;落地侧,据厂商披露,乐城医疗密态训练可信空间(国家首个支持医疗数据集 AI 密态训练的可信空间)与长三角医疗先行区平台,均以「不解密计算」作为解决域外信任问题的技术底座——其建设目标是到 2027 年覆盖长三角 30 家头部药企、2800 家重点医院,接入 1000+ 数据主体。
需求侧的真实采购方高度集中在四类:金融(风控、跨机构数据融合)、医疗(病历、基因数据跨中心协作)、政务(数据要素流通)、跨境(数据出境合规)。而供给侧的市场预测分歧巨大:Grand View Research 给出 2030 年约 1538 亿美元(CAGR 约 64%),Precedence Research 给出 2034 年约 1.28 万亿美元,而 TechSci 等保守预测 2030 年仅在 100–230 亿美元区间。几十倍的预测分歧本身就是信号:这个市场仍处早期、口径混乱、共识未形成。理性的读法是关注增长方向(高速)而非绝对数字。
「信创约束下,密态推理目前没有便宜的云端解。回流自建,是被结构性逼出来的。」—— 中国市场章节核心判断
选型不需要新框架——开篇那棵决策树就是行动指南。下面按四个判断节点逐一展开:每个分支给出落点、行动项与触发回退的阈值。