DEEPDIVE · CONFIDENTIAL LLM INFERENCE · 2026.06

你愿意信谁，
决定你多付多少倍算力

把大模型接进金融、医疗、政务这类敏感场景,你迟早要回答一个最贵的问题——为「别让云端看见我的数据」,你愿意多付几倍算力?

AUTHOR / 冯小平 SERIES / AI DEEPDIVE FILED / DD · 0018 · 2026.06.12 READING / 约 25 MIN

SCROLL

加密解密证明信任密文明文飞地证书密钥多方分片

导读 · 这篇写给谁,你什么时候会突然需要它

当你第一次被迫在「性能」和「别让别人看见我的数据」之间做取舍——你需要的不是某家厂商的 PPT,而是四条路线的真实开销、信任假设与落地边界。

你正要把大模型接进金融、医疗、政务、法律这类「数据一旦泄露就是事故」的业务,却没人能干脆回答一个最朴素的问题——把数据交给云端推理,到底安不安全?为这份安全,我要多付多少倍算力? 如果你卡在这里,这篇就是为你写的。它把 TEE、MPC、同态加密、拆分推理摆成同一道「信任定价」题:你愿意信谁(信芯片厂、信多方不合谋、还是只信数学),直接决定你多付 1.05 倍、几百倍,还是几千倍算力。

它写给三种人,对应三个你会真正用到它的瞬间:

· 技术决策者(CTO / 架构师 / 平台负责人)——在 TEE、MPC、同态加密、拆分推理之间选型,被各家「≤3× 开销」「零信任」「数据不出域」的话术绕晕时。这篇给你一张直接照着走的决策树,和四条路线的真实开销:1.05× / 10–100× / 数千倍 / 近乎为零。

· 安全与合规负责人(CISO / 数据合规 / 信创)——要向董事会、监管或客户说清「我们的 AI 推理保护到什么程度、代价是什么」;尤其当信创要求撞上「国产 GPU 至今没有商用机密计算」这堵硬墙。

· 隐私计算的研究者、创业者与投资人——判断一个号称「隐私保护」的方案,到底是密码学级别的保障,还是只是「传特征不传原图」这种会被反演攻击打穿的经验性安慰。

START

先回答四个问题：算力与密态路线决策树

COMPUTE & CONFIDENTIALITY DECISION TREE

LLM 密态推理四条技术路线的演进与终局：TEE、MPC、同态加密与拆分推理，本质上是同一道「信任定价」题的四个答案。这篇长文拆解它们的演进脉络、实测开销、产业落地，以及中国市场独有的结构性矛盾。

在读任何技术细节之前,先把选型问题收敛掉。企业采用 LLM 的算力路径,本质上只需要依次回答四个问题:数据敏感吗 → 有卡吗 → 缓解措施够吗 → 有信创要求吗。每个落点对应的技术路线,正文会逐一拆解。

绿框 = 低摩擦路径 · 金框 = 信创密算菜单 · 红框 = 机密计算路径 · 虚线 = 结构性回流 · 点击节点可跳转对应章节

TL;DR

三句话读完全文

THREE TAKEAWAYS

01 / 本质

密态推理是一道「信任定价」题

信芯片厂商（TEE）付不到 10% 的算力溢价；信多方不合谋（MPC）付 10–100 倍；只信数学（FHE）付 3–5 个数量级；架构级弱保障（拆分推理）接近零成本，但形式化保障最弱。

02 / 格局

GPU TEE 将成为云端事实标准

NVIDIA H100/Blackwell 已把开销压到个位数百分比，Apple、Anthropic、Google 已实际部署。MPC/FHE 短期只会在金融、医疗等强合规、可容忍高延迟的窄场景落地。

03 / 中国

信创 × 密态推理存在硬件无解区

CPU 侧国产机密计算（海光 CSV、鲲鹏 iTrustee）已规模商用，但国产 AI 加速卡的 GPU 机密计算几乎空白——这给「MPC 跑国产卡」和「回流自建」留出了窗口。

开篇切割：先把「近亲」请出房间

SCOPE & DEFINITION

联邦学习、差分隐私、zkML——这三者常被混在「隐私计算」的大筐里，但它们与密态推理的目标正交：联邦学习解决数据不出域的协同训练，差分隐私解决输出与统计层面的隐私泄露，zkML 解决推理结果的可验证性而非输入机密性。

密态推理只问一件事：当用户把 prompt 发给云端大模型、或模型方把权重托管到第三方算力上时，如何保证输入、输出（有时还有权重）在计算过程中不被算力提供方看到？这是「数据使用中（data-in-use）」的机密性问题——传输加密（TLS）和存储加密都覆盖不到的最后一段。

这个问题的产业权重正在被政策端持续抬升:国家数据局《可信数据空间发展行动计划(2024—2028年)》把可信数据空间定义为「联接多方主体、实现数据资源共享共用的数据流通利用基础设施」,并点名高性能密态计算是破解数据流通难题的核心技术之一。换句话说,密态推理能否规模化,决定的不只是云上 AI 的安全形态,还有数据要素市场这个更大命题的技术底座。而这恰恰取决于四条技术路线能否把「信任成本」和「算力成本」同时压到产业可接受的区间。

FRAME

信任假设 × 性能开销：一张图看懂赛道

THE TRUST-PRICING LADDER

四条路线不是在竞争同一个位置，而是在「信任假设 × 性能开销」的二维平面上各占一角。下面这把梯子（横轴为对数刻度的相对明文开销），是理解整个赛道的钥匙。

信任定价表 / TRUST-PRICING LADDER相对明文推理开销（LOG SCALE）

拆分推理SPLIT INFERENCE · 信「特征难反演」

≈ 0形式化保障最弱

GPU TEECONFIDENTIAL COMPUTING · 信芯片厂商

< 10%H100 平均 <7%，大模型趋近于零

MPCSECURE MULTI-PARTY · 信多方不合谋

10–100×通信 GB 级，瓶颈在带宽

FHEFULLY HOMOMORPHIC · 只信数学

10³–10⁵×硬件加速是唯一希望

1×10×10²×10³×10⁴×10⁵×

核心洞见：机密推理没有免费午餐，你省下的信任，要用算力来买单。越不愿意信任何人（FHE），付的算力越多；越愿意把信任押在芯片厂商身上（TEE），算力越便宜。所谓选型，本质是回答「在你的业务里，你最不愿意信任谁、最能容忍多大的成本」。

TEE：把开销压到个位数，
但信任根在别人手里

TRUSTED EXECUTION ENVIRONMENT

信任假设：芯片厂商 + 一段可远程验证的代码

TEE · 把整条推理栈塞进硬件飞地：明文只在飞地内解密，宿主机与云厂商被挡在外面，但安全性押在「芯片厂没后门 + 远程证明可信」上。

演进脉络：从 enclave 到机密虚拟机，再到 GPU

第一代主角是 Intel SGX——在 CPU 里划出一块加密「飞地」。但它的两个硬伤几乎定义了赛道的早期困境：一是 enclave 内存只有 128MB 级别，跑大模型权重根本不够；二是侧信道攻击史触目惊心——2018 年 Foreshadow 直接攻破了 SGX 远程证明；2020 年 CacheOut 与 SGAxe 进一步证明，即便开启全部侧信道防护，攻击者仍能提取证明密钥、伪造合法的 Intel 机器签名 (CVE-2020-0549)。Intel 后来在新一代客户端 CPU 上事实性地弃用了 SGX。

第二代是 VM 级机密计算：Intel TDX、AMD SEV-SNP 把保护边界从「一段代码」放大到「整台虚拟机」。这一步对 AI 至关重要——不用改模型代码，把整个推理栈塞进机密 VM 即可。

真正的转折点是 2023 年 NVIDIA 在 Hopper（H100）上首次把 TEE 扩展到 GPU。CC 模式下，每次写入 HBM 的数据都在 GPU 安全引擎内用 AES-256-GCM 加密，密钥在 GPU 内生成、永不离开芯片；CPU 与 GPU 之间的数据走加密的 bounce buffer。

<7%

H100 CC 模式下 LLM 推理的平均开销，模型越大、序列越长开销趋近于零

arXiv:2409.03992

4–8%

独立学术基准给出的吞吐惩罚区间，随 batch 与输入增大而减小

arXiv:2509.18886

≈0

Llama-3.1-70B 这类重计算负载在 H100 CC 下的吞吐开销——瓶颈只在 PCIe 数据搬运

PHALA BENCHMARK

1/2/4/8

Blackwell 首发 TEE-I/O：NVLink 内联加密，多卡机密 VM「几乎不损失性能」

NVIDIA CONFIDENTIAL COMPUTING

产业落地：四条路线里唯一已规模化的

Apple Private Cloud Compute（PCC）是迄今最完整的架构范本：定制 Apple silicon 服务器做信任根、裁剪版 OS、Swift 写推理控制层保证内存安全、请求处理完即删，并向用户设备提供可验证的软件证明（Apple Security 官方架构文）。2025 年 Apple 进一步把 PCC 扩展到自有数据中心之外——Apple Intelligence 的部分推理跑在 Google Cloud 的 NVIDIA Blackwell GPU 上，采用「NVIDIA 机密计算 + Intel TDX + Google Titan 安全芯片」三层硬件信任栈，号称业界首个可全球规模运行的端到端机密推理流水线。

Anthropic 在 2025 年与 Pattern Labs（现 Irregular）发布《Confidential Inference via Trusted Virtual Machines》白皮书并落地了 Confidential Inference 系统。其威胁模型极为激进：假设服务提供方本身是对抗性的，攻击者完全控制包括宿主机在内的所有机器。潜台词很清楚——这正是把前沿模型部署到不受信任司法管辖区数据中心所需要的能力。

国产 TEE：CPU 侧成熟，GPU 侧空白

CPU 侧已规模商用。海光 CSV 是目前唯一规模商业化的国产 CPU 机密计算技术：内存加密用国密 SM4，远程证明用 SM2 签名；CSV3（海光四号，2023 年底）增加内存完整性保护后，能力已与 Intel TDX、AMD SEV-SNP 相当。阿里云已推出基于海光 CSV 的机密虚拟机实例。华为鲲鹏 iTrustee 获 CC EAL4+ 认证，TEE 安全内存最大可配 128GB。

GPU 侧几乎是空白——这是信创最大的硬件瓶颈。截至 2025 年，没有任何一款国产 AI 加速卡（昇腾、摩尔线程、壁仞、寒武纪、天数智芯）拥有像 H100 那样商用、产品化的 GPU 机密计算模式。最接近的是华为苏黎世研究中心与 ETH Zurich 的学术原型 ASCEND-CC (arXiv:2407.11888)——在昇腾 910A 上改固件实现 NPU 机密计算，推理开销仅 0.028%–0.91%，但它是单租户研究原型，不是商用功能。

信任根问题是这条路线的原罪。TEE 的全部安全性押在两件事上：芯片厂商没有后门、证明体系可信（对 NVIDIA 这种美国厂商，在信创语境下本身就是信任问题）；以及侧信道防护到位（SGX 的历史证明远非高枕无忧）。一句话：TEE 是「信任转移」而非「信任消除」——它把信任从「整个云厂商」收敛到了「芯片厂商 + 一段可验证代码」。

「TEE 把信任从整个云厂商，收敛到芯片厂商加一段可验证的代码。这是巨大的进步，但它是信任转移，不是信任消除。」

—— 本文核心论点之一

MPC：把信任分散到多方，
代价是 10–100 倍

SECURE MULTI-PARTY COMPUTATION

信任假设：参与方不合谋（介于「信芯片」与「只信数学」之间）

MPC 把数据切成秘密分片，分发给多个参与方协同计算，任何单方都看不到原始数据。这是一个比「信芯片厂」更弱、但比「只信数学」更强的中间假设。

MPC · 数据切成分片分发到互不合谋的多方，谁都看不到原文；代价是参与方之间为每个非线性算子反复通信——瓶颈在带宽而非算力。

从通用框架到 Transformer 专用协议

早期是 ABY、SPDZ、CrypTFlow 等通用框架。2022 年起，针对 Transformer 的安全推理协议密集涌现：Iron、Cheetah、CipherGPT，直到 2023 年的 PUMA 成为里程碑——首个开源、不改模型即可安全推理预训练 Transformer 的 MPC 方案，首次实现 LLaMA-7B 级别的 MPC 推理：约 5 分钟生成 1 个 token。随后是性能竞赛：BumbleBee（NDSS 2025）把矩阵乘法通信砍掉 80–90%；微软 SIGMA 用函数秘密分享 + GPU 加速，把延迟再提升 11–19 倍，首次实现 GPT 类生成模型的安全推理。

非线性算子是主战场。GELU、Softmax、LayerNorm 这些非多项式函数在密文上极其昂贵——整个 MPC-Transformer 的优化史，基本就是「如何更便宜地近似非线性算子」的历史。

5 min

PUMA：LLaMA-7B 在 MPC 下生成 1 个 token 的耗时（8 token 输入）

arXiv:2307.12533

5.64 GB

BumbleBee：LLaMA-7B 生成 8 token 的通信量（约 13.87 分钟，LAN）

IACR 2023/1678 · NDSS 2025

44 s

SIGMA：Llama2-13B 安全推理耗时——代价是数百 GB 的 FSS 预处理密钥

IACR 2023/1269 · PETS 2024

6.7×

SHAFT 相比 BOLT 的 LAN 加速比，并节省 82% 通信、集成 Hugging Face

NDSS 2025

国内产业：中国相对领先的一块

值得注意的是,PUMA、BumbleBee 这两个里程碑协议都出自国内团队,并依托开源的 SecretFlow 技术栈对外开放——在 MPC-Transformer 这个细分方向上,中国的工程贡献处于全球第一梯队。产业侧,华控清交、翼方健数、光之树等厂商在推进 LLM 密算产品化,普遍主打密评 / 国密合规优势;而「纯密码学方案成本过高、需与可信硬件协同」已是业内普遍的工程共识——MPC + TEE 混合被广泛视为规模化的现实路径。

根本瓶颈不是计算而是通信。GB 级甚至数百 GB 的数据交换，在 WAN 下是决定性瓶颈。这决定了 MPC 短期内只适合「多方带宽好、可容忍分钟级延迟、强合规」的窄场景。GPU 加速 MPC（SIGMA 即代表）是当前最有希望改变开销曲线的方向。

FHE：只信数学，
代价是 3–5 个数量级

FULLY HOMOMORPHIC ENCRYPTION

信任假设：只剩「数学难题成立」——不信芯片，不信多方

FHE 允许直接在密文上做任意计算：客户端加密、服务器算、客户端解密，服务器全程看不到明文。信任假设最干净，开销最恐怖——DARPA 的说法是，笔记本上 1 毫秒能算完的计算，用今天的 FHE 要算几周。

FHE · 服务器在密文上盲算、全程不解密，信任假设最干净（只信数学）；代价是 3–5 个数量级的开销，现实落地仍停在加密检索这类轻量任务。

研究前沿与现实开销

CKKS、BFV/BGV、TFHE 是三大主流方案。针对 Transformer 的非交互式 HE 推理是 2024–2026 年的研究热点：NEXUS（NDSS 2025）是首批用 RNS-CKKS 实现非交互式 Transformer 推理的工作,但 BERT-base（128 token）需要约 1103 秒——且有研究指出其非线性近似的最大相对误差高达 297%。即便有专用近似和 GPU 实现，FHE 跑完整 LLM 推理的开销仍在数千到数十万倍区间。

硬件加速是 FHE 的唯一希望

DARPA DPRIVE 计划资助了 Intel、Duality、SRI、Galois 四个团队做 FHE 的 ASIC 加速器，目标是把开销拉到明文一个数量级以内；Intel 联合微软的 ASIC 号称能加速约百万倍。Cornami 走可重构众核，Optalysys 走光学计算，Niobium 已流片，Fabric Cryptography 的芯片预计一年内量产。这些加速器宣称的 1000–5000 倍提升「是否够用」，仍是开放问题。

1103 s

NEXUS 完成一次 BERT-base（128 token）非交互式 HE 推理的耗时

NDSS 2025

10³–10⁵×

FHE 跑完整 LLM 推理相对明文的开销区间——离实时推理仍差数量级

综合多篇文献

$1B+

Zama 2025 年 B 轮估值——FHE 首个独角兽，但主战场是机密区块链而非 LLM

2025.06 SERIES B

PIR

Apple iOS 18 Live Caller ID：BFV + 私有信息检索——FHE 当前真实能力边界的最好注脚

SWIFT-HE, APACHE 2.0

部署现实：FHE 今天能落地的是「小而美」的检索类，不是 LLM 推理。Apple 用 HE 做的是加密数据库查询（来电号码查询全程不暴露所查号码），不是用 HE 跑神经网络。Zama 以超 10 亿美元估值成为 FHE 首个独角兽，但其 FHEVM 链上吞吐至今只有每秒几十笔的量级。这本身就说明：FHE 的产业化突破口在轻量级、高价值、可容忍延迟的场景。混合方案（HE 只管线性算子，非线性交给 MPC 或 TEE）是更务实的工程路径——BOLT、BumbleBee 本质都是 HE/MPC 混合。

工程化混合路线：算子分离 + CPU-TEE 异构

把同态加密从「理论上界」拉向工程可用,国内出现了一条值得关注的混合路线——荆华密算的密态训练/推理平台是代表。其思路可以用三句话概括:第一,线性与非线性算子分离计算,密码学开销最重的部分被结构性拆开;第二,CPU-TEE 与 GPU 异构调度——密钥管理与敏感控制面落在 CPU 可信执行环境里(毫秒级随机密钥生成与注销),大规模矩阵运算交给 GPU;第三,加密粒度做到请求级,每个推理请求随机加密、逐 token 密态计算,输入与结果仅输入者可见。

CASE / 荆华密算 · HE + TEE 混合(算子分离)

同态加密的工程化样本:全链路密态训练与推理

与多数只做密态推理的方案不同,荆华覆盖到了密态训练(密文模型训练、密文检索、密态向量库),并宣称在适配主流国产 GPU 的前提下,密态训练与推理相对明文的时间损耗均控制在 3 倍以内——若经独立验证,这将显著低于纯 MPC(10–100×)与纯 FHE(10³–10⁵×)的区间,代价是引入了对 CPU-TEE 的硬件信任(部署要求 CPU 支持开启 TEE)。落地形态包括密态计算一体机(推理:双路 CPU + 4 卡 GPU;训练:双至四路 CPU + 8 卡 GPU)与软件部署;公开披露的项目包括乐城医疗密态训练可信空间与长三角医疗先行区平台,信通院密态标准与等保四级评审在 2026 年推进中。

算子分离:线性 / 非线性CPU-TEE + GPU 异构请求级随机加密宣称 ≤3×(待独立验证)适配国产 GPU覆盖密态训练

需要客观标注的是:「≤3×」为厂商宣称,尚缺公开的第三方基准;且该路线的信任假设不再是「只信数学」,而是「数学 + CPU 芯片厂」的混合——这正是它换来性能的代价,也是把它放在本章而非单列一章的原因。

这条混合路线的行业意义在于:它示范了 HE 在 LLM 场景的现实出路不是「等 ASIC 拯救纯 FHE」,而是把密码学保障用在刀刃上、把性能敏感部分交还给硬件信任——本质上是在信任定价梯子的中段,新造了一个档位。

拆分推理：接近零开销，
但保障最弱

SPLIT INFERENCE / EDGE-CLOUD

信任假设：「中间特征难以反演」——经验性，而非密码学

本地跑一个编码器，只把压缩后的中间特征传到云端大模型，原始输入不出端。开销几乎为零——就是正常的神经网络前向计算。

拆分推理 · 原图留在端上，只上传压缩特征；开销近乎为零，但特征可被反演攻击部分重建——这是经验性而非密码学保障。

真实实例：GLM-4.5V（智谱 2025 年 8 月发布并开源，106B 总参 / 12B 激活）由视觉编码器、MLP 适配器和语言解码器组成——视觉编码器可前置到端侧，只上传压缩后的视觉特征,是拆分推理在多模态场景的天然落点。Apple Intelligence 的「端侧优先、必须上云才走 PCC」分层架构,本质上也是拆分思想。

CASE / VIT SECURE INFERENCE · 端云协同隐私推理

图片在本地,智能在云端:本方案的开源实现

本项目配套的开源实现 VIT Secure Inference(GitHub · MIT)把这条路线做成了可直接安装的产品:在本地 Mac 上用 300M 参数的 ViT 视觉编码器(Metal GPU 加速)提取图像特征,经 Gzip 压缩后仅上传约 1MB 的特征向量至云端 GLM-4.5V 完成视觉理解与文字生成——原始图片像素数据永不离开设备,支持 OCR、文档/财报分析、多图对比与医学影像等专项任务。

本地 ViT · 300M 参数仅上传 ~1MB 特征向量3× Gzip 压缩0 原始像素上传云端 GLM-4.5VMIT 开源

诚实的边界说明:ViT 编码是单向且大幅压缩信息的过程,显著抬高了重建门槛,但参照下文的特征反演研究,这仍是经验性保障而非密码学保障——这正是它被归入本路线、且建议对高敏场景叠加加噪/混淆的原因。

致命弱点：特征反演攻击。「只传特征不传原图」听起来安全,但大量研究证明中间表示可被部分甚至高保真重建：FIA-Flow（2025）用不到 ImageNet-1K 0.32% 的样本即可训练出黑盒反演模型,高保真重建原图；CapRecover（ACM MM 2025）能从视觉特征直接重建图像的文字描述；针对 LLM 也有 Vec2Text 类 embedding 反演工作。防御手段（对抗训练、特征稀疏化、加噪）都存在精度-隐私权衡,且没有任何一个能提供密码学级别的形式化保障。

定位结论：拆分推理是「成本驱动」而非「保障驱动」的方案。适合隐私敏感度中等、对延迟和成本极度敏感的消费级场景；但凡涉及金融、医疗、政务这种需要可证明机密性的场景,它只能作辅助层,不能作主防线。

⊞

四条路线对照表

SIDE-BY-SIDE COMPARISON

路线	信任根	相对明文开销	形式化保障	代表方案 / 产品	信创适配	典型场景	成熟度
TEE / GPU CC	芯片厂商 + 可验证代码	<10%　H100 平均 <7%，Blackwell 趋近于零	中　依赖硬件 + 远程证明	NVIDIA H100/Blackwell CC · Apple PCC · Anthropic Confidential Inference	弱　信任根在 NVIDIA;国产 GPU TEE 空白	云端通用机密推理、跨司法辖区部署	已规模商用
MPC	多方不合谋假设	10–100×　通信 GB 级,瓶颈在带宽	高　密码学	PUMA · BumbleBee · SIGMA · SecretFlow 开源栈	强　纯软件可跑国产卡,易过密评	金融 / 医疗跨机构数据融合	窄场景落地
HE+TEE 混合算子分离	数学 + CPU 芯片厂(混合)	宣称 ≤3×　厂商口径,待独立验证	较高　密码学为主 + TEE 控制面	荆华密算密态训练 / 推理平台(一体机 + 软件部署)	强　适配主流国产 GPU,国密认证推进中	可信数据空间、密态训练、跨境数据流通	商用初期
FHE	只信数学	10³–10⁵×　硬件加速是唯一希望	最高　密码学	NEXUS · Zama TFHE · Apple swift-HE(PIR)	中　算法可国密化,性能暂不可用	PIR 类轻量加密检索	仅轻量检索
拆分推理	「特征难反演」(经验性)	≈ 0	最弱　受特征反演攻击威胁	GLM-4.5V 端云协同 · VIT Secure Inference · Apple 端云分层	不依赖特定硬件	消费级 / 低敏场景的默认降本层	消费级辅助

中国市场的特殊性：
信创、密评与回流自建

THE CHINA STRUCTURE

中国市场不是全球格局的简单缩放——它有三个独特的结构性约束,三者合力催生了中国特有的「回流自建」逻辑。

GPU TEE 信任根的「美国厂商」悖论

全球云端机密推理的事实标准正收敛到 NVIDIA GPU CC,但其信任根（远程证明、芯片密钥）完全握在 NVIDIA 手里。你用机密计算是为了不信任算力提供方,结果却必须无条件信任一家美国芯片厂的证明体系。

国产卡上的 GPU 机密计算是空白

国产硬件上,密态推理短期只能靠软件密码学方案（MPC）跑在国产 GPU/CPU 上,或靠海光 CSV / 鲲鹏 TEE 做 VM 级保护——无法复制 NVIDIA 那种低开销 GPU 机密推理路径。这反过来强化了「MPC + TEE 混合、且用国密」的技术选择。

密评与国密的合规红利

GB/T 43206-2023 密评标准 2024 年 4 月落地,叠加「数据要素×」三年行动计划的政策驱动,采用国密算法（SM2/SM3/SM4）的方案在政务、金融等强监管场景获得天然合规优势——这是国际厂商难以复制的本地壁垒。

三点合力的结果：对机密性要求最高的机构（大型银行、三甲医院、政务云）,与其纠结于公有云上的机密推理信任链,不如直接私有化部署国产硬件 + 国产密态方案——代价是运维成本上升、对外服务效率受限,但在当前技术约束下这是结构性的理性选择。政策端正在尝试把这部分「回流」的需求重新拉回到可信的云上密态流通:国家数据局《可信数据空间发展行动计划(2024—2028年)》明确点名高性能密态计算;落地侧,据厂商披露,乐城医疗密态训练可信空间(国家首个支持医疗数据集 AI 密态训练的可信空间)与长三角医疗先行区平台,均以「不解密计算」作为解决域外信任问题的技术底座——其建设目标是到 2027 年覆盖长三角 30 家头部药企、2800 家重点医院,接入 1000+ 数据主体。

市场规模：预测分歧本身就是信号

需求侧的真实采购方高度集中在四类：金融（风控、跨机构数据融合）、医疗（病历、基因数据跨中心协作）、政务（数据要素流通）、跨境（数据出境合规）。而供给侧的市场预测分歧巨大：Grand View Research 给出 2030 年约 1538 亿美元（CAGR 约 64%）,Precedence Research 给出 2034 年约 1.28 万亿美元,而 TechSci 等保守预测 2030 年仅在 100–230 亿美元区间。几十倍的预测分歧本身就是信号：这个市场仍处早期、口径混乱、共识未形成。理性的读法是关注增长方向（高速）而非绝对数字。

「信创约束下,密态推理目前没有便宜的云端解。回流自建,是被结构性逼出来的。」

—— 中国市场章节核心判断

选型建议：照着决策树走

DECISION-TREE PLAYBOOK

选型不需要新框架——开篇那棵决策树就是行动指南。下面按四个判断节点逐一展开:每个分支给出落点、行动项与触发回退的阈值。

Q1该用例的数据敏感吗?

否 →

厂商云平台▸直接调 API,不为不需要的安全付费。行动项:把数据分级做在网关层,让「敏感 / 非敏感」的判断自动化、可审计——分级是整棵树的入口,值得做重。

是 →

进入 Q2。注意决策对象是用例而不是客户:同一客户 80% 的流量通常可以走上面那条便宜路径。

Q2有自有 GPU 算力吗?

有 →

内部私有化部署▸绝大多数情况到此为止。仅当存在对内隔离需求(集团多法人数据隔离、董办级机密防 IT 管理员、涉密要求)时,再叠加 CPU-TEE 或密算层。

无 / 不够 →

进入 Q3,考虑外部云服务。

Q3信任缓解措施够用吗?(脱敏网关 / 专属实例 / 合同承诺不训练)

够用 →

脱敏 + 专属实例▸真实成交中占比最高、成本只有机密计算零头的一档。行动项:把脱敏规则与专属实例的合同条款产品化,作为「介意但预算有限」客户的默认报价项。

不够 →

客户需要可证明的机密性,进入 Q4。

Q4有信创要求吗?

否 →

GPU TEE 优先▸开销 <10%、证据充分、可直接对标 Apple PCC 与 Anthropic Confidential Inference 的叙事。行动项:把 GPU CC 模式纳入企业版 / 金融版可选项,并把「远程证明」做成客户可自助验证的产品特性。强合规且可容忍分钟级延迟的窄场景,可按需升级 MPC / HE 方案。

TRIGGER / 回退阈值客户威胁模型明确包含「不信任芯片厂商 / 不信任美国硬件」→ 按「是」分支处理,即便客户没有名义上的信创要求。

是 →

国产密算菜单,三选一▸按延迟容忍度与合规深度权衡:① MPC 跑国产卡——纯软件、易过密评,接受 10–100× 开销与分钟级延迟,适合跨机构数据融合;② HE+TEE 混合(算子分离)——以荆华密算为代表的一体机 / 软件部署路线,宣称 ≤3× 且覆盖密态训练,建议以 POC 实测验证后再上量;③ CPU-TEE(海光 CSV)+ 国产加速卡——VM 级保护,工程改造最小,但 GPU 侧无硬件机密性。

TRIGGER / 回退与拐点单 token 延迟压不进业务区间(对话类需秒级)→ 回退脱敏档或回流自建;一旦国产卡出现商用 GPU TEE(跟踪昇腾 CC 产品化时间表)→ 信创密态推理的决定性拐点,第一时间布局。

＋叠加层与跟踪项(适用于所有分支)

叠加 →

拆分推理 / 端云协同▸任意路径的前置降本层(本地编码、特征上云,实现参考 VIT Secure Inference)。必须向内部和客户明示其保障为经验性,并对中间特征做加噪 / 混淆——绝不在金融、医疗、政务场景把它当主防线。

跟踪 →

纯 FHE 暂不下注▸保持技术跟踪即可,PIR 类轻量检索(隐私化知识库召回)可小范围试用。

TRIGGER / 改判阈值FHE 硬件加速(DPRIVE 系 ASIC、Zama 生态)能把 LLM 推理开销拉到 100× 以内 → 重新评估下注。

⚠

Caveats：读这篇文章时请记住

EPISTEMIC STATUS

性能数据存在来源偏差。「H100 CC 平均 <7%」的最广引用来自 Phala（商业利益相关方）与 NVIDIA 自身；独立学术基准（4–8%）印证了量级,但具体数字依负载、固件、batch 配置差异很大,落地前必须自测。
MPC/FHE 数字高度依赖实验设定。PUMA 的 5 分钟/token、SIGMA 的 44 秒等均为特定网络、模型规模、输入长度下的结果,跨论文不可直接横比；GB 级通信在真实 WAN 下会显著恶化。
市场规模预测不可尽信。各机构口径混乱、预测相差数十倍,本文引用仅用于判断方向。
部分国产硬件数据来自非官方来源。本文已尽量只采用厂商官方文档、arXiv 论文、龙蜥社区、阿里云官方文档等高可信来源;个别单一媒体报道的落地案例需进一步核实。
前瞻判断存在不确定性。「GPU TEE 将成事实标准」「FHE 两三年内难改格局」基于当前演进速度推断;若 DPRIVE 系 ASIC 量产且达预期,时间表可能改写。
厂商宣称数据需独立验证。荆华密算「密态训练 / 推理开销 ≤3×」为厂商口径,本文撰写时尚无公开第三方基准;其信通院密态标准与等保四级评审仍在推进中,采购决策应以 POC 实测为准。
拆分推理类方案(含 VIT Secure Inference)的「无法重建」是工程性论断。单向编码与压缩显著抬高重建门槛,但特征反演研究表明该保障是经验性的——高敏场景应叠加加噪 / 混淆,或改走密码学 / 硬件路线。
侧信道是 TEE 的长期达摩克利斯之剑。SGX 的历史表明硬件信任根会被持续的侧信道研究侵蚀。TEE 提供的是「大幅提高攻击成本」,不是「数学证明的不可攻破」。