AI 批注

高速推理全景深度报告 · 2026年5月

我们为什么需要
一个高速推理的
AI 模型？

速度的提升，在大多数工程领域是线性的——快一倍，效率提升一倍。但在 AI 推理场景中，速度提升对业务的影响往往是超线性甚至指数级的。本报告深度分析：哪些场景效果倍增最大、下一代操作系统如何重新定义人机交互、以及当推理足够快时，什么样的计算范式才成为可能。

最高商业 TPS

2,946 TPS（Cerebras WSE-3）

上下文切换代价

23 分 15 秒 / 次中断（UC Irvine）

声音延迟阈值

300ms 潜意识感知 · 1s 放弃率 +40%

速度与转化率

100ms 改善 = 1% 销售额（Amazon）

AI Pointer—Google DeepMind · 鼠标变意图感知器 · 2026.05.12

TML-Interaction—Thinking Machines · 200ms全双工 · 2026.05.12

Recall—Microsoft · 屏幕即记忆

Gemini Nano 4—手机端超越数据中心 Gemini 1.0 Pro

2,946 TPS—Cerebras WSE-3

1,500 TPS—Google TPU 8i

1,000+ TPS—Codex-Spark / Mercury 2

23 分钟—程序员中断后重新专注所需时间

300ms—人类感知对话延迟的神经阈值

40%—语音 AI 超过 1 秒时呼叫放弃率

80 天—AI SOC 缩短的违规生命周期（IBM）

100ms → 1%—Amazon 速度与销售额关系

$1B—Cerebras Series H 融资额

SN50—SambaNova 新芯片：3x 低于 B200 成本

9 家—2026 年初已融资推理芯片公司数（PitchBook）

2,946 TPS—Cerebras WSE-3

1,500 TPS—Google TPU 8i

1,000+ TPS—Codex-Spark / Mercury 2

23 分钟—程序员中断后重新专注所需时间

300ms—人类感知对话延迟的神经阈值

40%—语音 AI 超过 1 秒时呼叫放弃率

80 天—AI SOC 缩短的违规生命周期（IBM）

100ms → 1%—Amazon 速度与销售额关系

$1B—Cerebras Series H 融资额

SN50—SambaNova 新芯片：3x 低于 B200 成本

9 家—2026 年初已融资推理芯片公司数（PitchBook）

🎯 正在以 — 视角浏览 —

按角色筛选全文

00 · 执行摘要

📋 TL;DR：速度已成为
产品能力的一阶变量

当推理吞吐从典型 GPU 的 30–100 tok/s 跃升到 LPU / WSE 平台的 1,000–2,800 tok/s 时，触发了三类不可逆的范式变化。以下是本报告的核心结论速览。

三句话总结

速度本身已成为产品能力的一阶变量。推理吞吐跃升触发三类不可逆范式变化——亚秒级语音 Agent（300ms 心理学阈值现在可达）、长链路 Agentic Workflow 的工程可行（20–30 秒等待变成 2–5 秒）、以及"测试时计算"的实际可消费化（Cerebras Scaling Law：更快推理 = 更多思考 token = 更高智能）。

竞争格局已分层。Groq（LPU，2025-12 被 NVIDIA 以 200 亿美元非独家许可实质收购）和 Cerebras（WSE-3，2026-05-14 IPO，标准口径市值约 670 亿美元、募资 55.5 亿美元——Uber 以来美国最大科技 IPO[38]）主导单用户极限速度赛道；旗舰推理模型仍在 60–100 tok/s 区间，但通过 GPT-5.3-Codex-Spark 和 Mercury 2 扩散模型开始反击。单位推理成本 2022→2024 出现 280× 跌幅。

可落地的产品机会已经清晰。实时语音客服/销售（Tenali 25× 延迟下降、销售周期缩短 33%）、即时代码补全和 Agent 编辑（SWE-grep-mini 2,800 tok/s，比 Haiku 4.5 快 20×）、企业实时搜索（Notion 在 Cerebras 上 <300ms 流式响应、服务 1 亿工作区用户）、Reasoning 模型加速（DeepSeek R1 70B 在 Cerebras 上 >1,500 tok/s，GPU 的 57×）。从业者应建立"推理套利"路由层，按延迟/成本/质量动态选择 backend。

🔑 七个关键发现 · Key Findings

300ms 是写在神经回路里的硬性阈值

自然对话轮次间隔约 200ms（眨眼时间），>300ms 用户开始感知延迟，>500ms 有意识察觉，>800ms 端到端触发打断/重复/挂断螺旋——Hamming 分析 400 万通生产环境语音 Agent 通话后给出的结论。这把"LLM 步骤"延迟预算压到 100–200ms，使 GPU 上 400–600ms 的 TTFT 实质不可用于电话级语音 Agent。

HCI · 语音 AI

Cerebras Scaling Law：速度与参数规模同等重要

核心论点："现实应用的延迟要求约束了可生成的 token 数，因此使用更多 token 的唯一方法是提升速度——更快的推理速度带来更高的模型智能"。实证：Qwen3 随推理时 token 数增加，性能单调提升，最大差距达 40 个百分点；Qwen3-32B 比 GPT-4.1"快 16×、成本是其 1/10"。

Test-Time Compute

Agentic Workflow 是速度回报最高的场景

Cognition 的 SWE-1.5 在 Cerebras 上跑到约 950 tok/s——Scott Wu 称"当 Agent 以约 1000 tok/s 运行，你就有机会一起优化 Agent 的所有部分"。传统 Agent"超过 60% 的首回合时间只用于检索上下文，常常 20+ 秒才做出第一次编辑"，现在被压缩到几秒。OpenAI 2026-05 给 Responses API 引入 WebSocket，端到端延迟降低最多 40%。

Agent 工程

专用推理硬件已形成可投资规模

Cerebras WSE-3 在 Llama 4 Maverick 400B 上达 2,522 tok/s（对比 NVIDIA Blackwell 1,038 tok/s）。商业里程碑：NVIDIA 200 亿美元准收购 Groq；Cerebras 与 OpenAI 签下超 200 亿美元多年协议、750MW 推理算力（可扩展至 2030 年 2GW）；2026-05-14 NASDAQ 上市，募资 55.5 亿美元。

硬件 · 资本

推理成本以非传统速度下降（LLMflation）

Stanford HAI 2025 AI Index：达到 GPT-3.5 同等水平的推理成本从 2022-11 的 20 美元/百万 token 跌到 2024-10 的 0.07 美元/百万 token，280× 跌幅；硬件成本每年降 30%、能效每年升 40%。a16z 称之为"LLMflation"。但企业总账单不降反升——这是 Agentic 工作流的"tokenmaxxing"现象。

成本 · 经济

扩散 LLM 是结构性威胁

Inception Mercury 2（2026-02）以扩散架构在标准 NVIDIA GPU 上达 1,009 tok/s，是 Claude 4.5 Haiku（约 89 tok/s）和 GPT-5 Mini（约 71 tok/s）的约 10×，质量在 AIME 2025 达 91.1。即使不换硬件，架构变更也能撕开速度差距。Together AI 的扩散语言模型在编码 benchmark 上把延迟降低最多 14.5×。

架构革命

Speculative Decoding 与 KV Cache 仍是软件主力

EAGLE-3（2025）在 Llama-3.1-8B 上实现 2–6× 加速；Apple 2025-12 发布 Recurrent Drafter 进一步压低 draft 开销；SGLang 的 RadixAttention 在 Agent 多请求共享前缀场景显著优于 vLLM；DualPath（2026）通过 KV cache 双路径在 multi-turn agentic 场景把吞吐提升 1.87–1.96×。

软件优化

01 · 核心框架

📈 线性 vs 超线性：
速度提升的业务倍增效应

高速推理对业务的影响，远不是简单的"快了多少倍"。在某些场景中，速度每提升一倍，业务价值可能提升三到五倍——因为速度跨越了一个认知或行为阈值。

📏

线性效益：效率倍增型

速度提升 2 倍 → 效率提升约 2 倍。典型场景：批量文档处理、大规模分子筛选、消费级产品基础设施成本。这类场景中，推理速度与吞吐量、成本效率成正比，无明显阈值效应。线性

🚀

超线性效益：范式跃迁型

速度提升 2 倍 → 业务价值可能提升 5–10 倍。原因：速度跨越了某个认知/行为/工程阈值，触发了定性变化。典型场景：实时编程（消除上下文切换）、语音对话（跨越延迟感知阈值）、SOC 自动化（快于攻击者扩散速度）、Test-Time Compute（速度换质量）。超线性

⚡

为什么会有超线性效应？四种机制

① 阈值跨越效应：人类认知和行为存在硬性阈值。比如，声音延迟在 300ms 以下"无感知"，超过后体验断崖式下降；编程中等待超过某个时长会触发"任务切换"决策，带来 23 分钟的认知重建成本。速度突破这些阈值，带来的是定性变化，而非定量改善。

② 并发放大效应：在固定时间预算内，速度越快可以探索的路径越多。Test-Time Compute 场景中，从 1 路变为 100 路 Best-of-N 采样，质量提升远超 100 倍吞吐量本身的价值——因为 N 路中选最优遵循对数增益规律（每多一路的边际收益递减，但总体质量超线性）。

③ 阻力消除效应：慢速推理会引入"等待摩擦"——开发者切换任务、用户感到沮丧、运营人员无法维持工作流。消除这些摩擦本身创造的价值，远大于"时间节省"本身，因为它解锁了原本因摩擦而不会发生的行为（比如开发者保持深度专注状态）。

④ 竞争时间窗口效应：在 SOC 安全场景中，威胁的破坏力随时间指数级增长（特别是勒索软件和横向移动攻击）。MTTD 从 4 小时缩短到 10 分钟，不是"快了 24 倍"，而是"把攻击者可利用的爆炸半径缩小了 24 倍"——这对应的业务价值完全是非线性的。

应用场景	速度效益性质	核心超线性机制	关键阈值	量化指标
实时交互式编程	超线性 🚀	消除上下文切换带来的 23 分钟认知重建成本	等待时长超出"保持专注"临界点	每次中断 = 23 分钟损失（UC Irvine）
多步骤 Agentic 工作流	超线性 🚀	延迟复利：每步等待叠加，整体耗时指数级	20 步链式任务的总时间	80 TPS: 4 分钟；10,500 TPS: 20 秒（Morph）
实时语音对话	超线性 🚀	神经延迟感知阈值：300ms 潜意识感知 → 1s 呼叫放弃	300ms / 500ms / 1,000ms 三个阶梯	1 秒延迟 → CSAT 降 16%；放弃率 +40%（Forrester/J.D. Power）
SOC 安全运营	超线性 🚀	攻击破坏力随时间指数级增长；每分钟 MTTD 的边际价值递增	MTTD 10 分钟 vs 4 小时	IBM：AI 缩短 80 天违规生命周期，节省 $1.9M / 次[10]
Test-Time Compute	超线性 🚀	Best-of-N 质量遵循缩放定律：N 越大质量对数提升	N 路采样的质量-时间 Pareto 前沿	固定时间内 Mamba 可超越 Transformer 教师模型质量
消费级 Search/电商	超线性 🚀	消费者心理阈值：2-3 秒触发压力反应；速度与品牌感知关联	2 秒（期望）→ 3 秒（放弃临界）	0.1 秒改善 = 奢侈品转化 +40.1%（Magnet）
药物发现批量处理	线性	吞吐量直接等于单位时间可筛选分子数	无特殊阈值	速度 2x = 探索空间 2x（近似线性）
高并发消费产品成本	线性	TPS 提升直接等于基础设施成本降低	无特殊阈值	TPS 2x = 基础设施成本 ÷2（近似线性）

02 · 最新市场事件（2026 Q1–Q2）

💰 推理赛道资本与产品浪潮：
2026 年初全面加速

截至 2026 年 5 月，推理芯片已成为 AI 硬件投资最热门的细分赛道。本轮资本浪潮背后是一个清晰的产业共识：AI 从实验走向部署，推理是真正产生收入的节点。

2026.01

最新

Cerebras 完成 Series H 融资$10 亿 — 用于扩大对抗 NVIDIA 的产能，支持数据中心 AI 计算需求。此轮融资发生在 Cerebras IPO（估值 23 亿美元）约三个月后，确认资本市场对晶圆级计算的持续信心。Cerebras 约 70% 的工作负载已转向推理（前 SVP Andy Hock 数据）。

2026.02.24

最新

SambaNova 发布 SN50 + Intel 多年战略合作 + $3.5 亿 Series E$350M — SN50 采用第五代 RDU 架构[24]（2TB DDR5 + 64GB HBM3 + 520MB SRAM），支持万亿参数模型，声称运行 Agentic AI 推理成本比 NVIDIA GPU 低 3 倍，速度比竞争芯片快 5 倍。与 Intel 的合作架构为：Intel GPU 负责 Prefill → Intel Xeon 6 负责编排 → SambaNova RDU 负责 Decode。SoftBank 将成为 SN50 首批客户，在日本 AI 数据中心部署。目前报告被收购传言（Intel 曾考虑收购），但最终选择战略投资。

2026.02.04

最新

MatX 完成 Series B 融资$5 亿 — 专注于大语言模型训练和推理的定制芯片。正处于 Tapeout 前阶段，即将进入商业化量产。与 Cerebras 一样选择了晶圆级设计路线。

2026.02

最新

Baseten 完成 $3 亿融资$300M — AI 推理基础设施平台（非芯片），直接服务于推理 API 层。CapitalG（Google 旗下投资机构）投资，解读为："推理是 AI 从实验走向部署的真正节点，是产生收入的地方。"Inferact 在 1 月完成 $1.5 亿种子轮融资（对，是种子轮）。

2026.03.24

最新

NVIDIA GTC 2026：推理王国扩张 — 发布"Kyber"下一代机架，整合 Groq LPU IP 的注意力-前馈网络分解（Attention-FFN Disaggregation, AFD）架构。NVL144 / NVL576 / NVL1152 机架配置覆盖不同规模推理需求；"Vera ETL256"密集互联机架专为推理优化。AFD 将 Prefill 和 Decode 解耦为独立硬件，利用 LPU 擅长 Decode 的特性。这是 NVIDIA 将 Groq 收购成果真正整合进产品线的第一个信号。

2026.03.30

最新

PitchBook：2026 年前三个月已有 9 家推理芯片公司完成融资[23] — 包括 Rebellions（韩国），这是 2026 年 3 月之前完成融资的第 9 家推理专用芯片公司。美国 AI 推理芯片创企融资额截至 2026 年初已超过 83 亿美元。"推理代表了 AI 从实验转向大规模交付真实世界价值的转变"（CapitalG Mo Jomaa）。

2026.04.17

最新

推理芯片格局多元化加速 — Intel 宣布"Crescent Island"推理专用 GPU（160GB 片上内存，专为服务器侧大模型推理，较 GPU 集群更节能），预计 2026 年底样品测试。Lumai 披露光学推理加速器（用光而非电子执行矩阵乘法），预计 2029 年 Iris Tetra 系统达到 1 ExaOPS / 10kW 功耗。SoftBank "Silicon Trinity"（Arm + Ampere + Graphcore IPU）整合正在推进，目标在 Stargate 超算中心使用。

2026.05.03

最新

The Register：推理在给 AI 芯片创企"第二次机会" — 文章分析称，芯片创企在训练侧被 NVIDIA 打败后，正在推理的 Decode 阶段找到真正的差异化窗口。所有创企的核心优势都在 SRAM 和低延迟 Decode：Cerebras 靠 44GB 片上 SRAM，Groq 靠确定性流水线，SambaNova 靠三层内存。Intel-SambaNova 合作标志着 Prefill+Decode 分层推理架构正在成为新的默认方案。

2026.05.14

最新

Cerebras Systems 在 NASDAQ 上市（CBRS）最新 — 2026 年 5 月 14 日上市，发行价 185 美元，开盘 350 美元，盘中高点 386.34 美元，收 311.07 美元（+68.15%）。标准口径市值约 670 亿美元、全摊薄约 950 亿美元，募资 55.5 亿美元——Uber 以来美国最大科技 IPO。招股书披露与 OpenAI 的多年协议价值超 200 亿美元，OpenAI 已同意部署 750 兆瓦 Cerebras 高速 AI 算力（可扩展至 2030 年的 2GW），但 Cerebras 被禁止向 Anthropic 销售。

2026.05.20

最新

Google I/O 2026 发布 TPU 8i + Gemini 3.5 Flash — 首次推理专用 TPU（1,500 TPS）；Gemini 3.5 Flash 比同类模型快 4 倍，Google 称企业切换可年节省逾 10 亿美元；Google AI Hypercomputer 系统每月向 4.5 亿用户服务 980 万亿 Token；资本开支 2026 年约 1,800–1,900 亿美元（2022 年的 6 倍）。

经济悖论 · LLMflation vs Tokenmaxxing

单价暴跌，总账单却暴涨：高速推理时代的成本真相

一面：LLMflation（推理通缩）。Stanford HAI 2025 AI Index 数据显示，达到 GPT-3.5 同等质量的推理成本，从 2022 年 11 月的 20 美元/百万 token 跌到 2024 年 10 月的 0.07 美元/百万 token——280 倍跌幅[37]。同期硬件成本每年降 30%、能效每年升 40%。Epoch AI 估算整体推理成本下降速率约为每年 10×，部分任务接近 200×。Andreessen Horowitz 将这一现象命名为"LLMflation"[48]。

另一面：Tokenmaxxing（token 消耗暴涨）。但企业的 AI 总账单不降反升。Notion 披露毛利率因 AI 被拖累 10 个百分点；OpenAI CFO Sarah Friar 2026 年 1 月披露公司 2025 年 ARR 超 200 亿美元（从 2023 年的 20 亿、2024 年的 60 亿跳升），但 2025 年推理成本高达 84 亿美元[43]。原因正是 Agentic 工作流和 reasoning 模型让单请求 token 消耗指数级增长——这就是"tokenmaxxing"现象。FinOps Foundation 2026 报告：企业 AI 年均预算从 2024 年的 120 万美元涨到 2026 年的 700 万美元，推理占企业 AI 预算的 85%[50]。

对高速推理的启示：速度提升降低了单 token 成本，但也解锁了更密集的 token 使用模式（Test-Time Compute、多步 Agent、长上下文）。速度越快，单位时间能消耗的 token 越多——这意味着高速推理本身就是 tokenmaxxing 的加速器。FinOps 维度的 per-task token 监控，将和延迟监控同等重要。

03 · 场景深度 · 实时交互式编程

⌨️ 编程 × 高速推理：
消除等待 = 消除认知税

这是目前商业落地最清晰的场景，也是超线性效应最显著的场景之一。关键不在于"快了多少"，而在于是否跨越了"任务切换决策阈值"。

23 分 15 秒

单次中断后完全重新专注所需时间（Dr. Gloria Mark, UC Irvine）

2×

被中断任务完成时间是未中断任务的倍数

2×

被中断任务的错误率相比未中断任务（研究数据）

15–20 次

开发者平均每天经历的"等待相关任务切换"次数

核心超线性机制：上下文切换的隐藏代价

在慢速推理模型（80 TPS）条件下，一个 Agentic 编程任务每个文件操作需要等待 12 秒。这 12 秒是一个心理临界点——开发者面临两个选择：①盯着屏幕等（消耗焦虑感，效率降低）；②切换到另一个任务（Slack 消息、另一个 PR……）。

一旦选择切换，付出的代价不是"12 秒损失"，而是"23 分钟 15 秒[1]的重新专注税"（Dr. Gloria Mark, UC Irvine《The Cost of Interrupted Work》）。这就是超线性效应的核心：12 秒等待 → 23 分钟损失，实际代价放大了 115 倍。

⌨️

实时交互式编程

TPS 需求

1,000+

超线性效益 🚀

Codex-Spark：1,000+ TPS 是 OpenAI 首个非 Nvidia 生产模型

OpenAI Codex-Spark（2026.02 上线）基于 Cerebras WSE-3，速度超 1,000 TPS，比此前 Codex 版本快约 15 倍。这是 OpenAI 首个运行在非 Nvidia 硅片上的生产模型，标志着 AI 顶级实验室正式开始多元化硬件策略。

并发任务切换：慢速 AI 意外带来的"假性生产力"

Faros AI 分析（2025 年 7 月，超过 10,000 名开发者跨 1,255 个团队）的数据显示：高 AI 采用率的团队每天与 9% 更多任务和 47% 更多 PR[3] 交互。看似生产力提升——实际上是因为 AI 慢，开发者被迫并发多任务来"填满等待时间"。

这形成了一个恶性循环：AI 等待 → 切换任务 → 上下文碎片化 → 代码质量下降 → 更多错误 → 更多时间修复。Augment Code 的 METR 研究发现，AI 工具引入了"额外认知负担和上下文切换"，导致有经验的开发者生产力下降了 19%[2]。

Morph TPS 基准：速度如何打破并发切换需求

当 AI 速度超过 1,000 TPS，每个文件操作在不到 1 秒内完成，开发者不需要切换任务——因为等待时间短于人类做出"切换决策"的心理反应时间（约 2–5 秒）。这一阈值的跨越，将"被迫并发"变为"选择专注"，从而：

① 保持深度工作（Flow State）：流心理研究（Frontiers in Psychology）显示，Flow 需要持续认知投入而不被打断；
② 消除上下文切换代价：开发者工具切换平均每小时 35 次（各研究数据），每次 2–3 秒的等待会积累为碎片化认知；
③ 代码质量提升：被中断任务包含的错误是未中断任务的 2 倍（研究一致结论）。

Morph 的关键数字：20 步 Agentic 编程任务，在 80 TPS 下每次文件写入 12 秒[4]，总计约 4 分钟。在 10,500 TPS 下，20 次操作 20 秒内完成。但这还不是全貌——在快速推理下，开发者不需要切换任务，因此节省的不只是 4 分钟，而是 4 分钟 × (1 + 23 分钟 × 切换次数)。

客户实证：编程 Agent 的速度即生产力

Cognition SWE-grep-mini：专用代码搜索子 Agent 跑到 2,800 tok/s，比 Haiku 4.5（140 tok/s）快 20×[40]，把"几十秒"的上下文检索压到"几秒"。Scott Wu 总结："当 Agent 以约 1000 tok/s 运行，你就有机会一起优化 Agent 的所有部分。"Drew Breunig 独立测试：Qwen3 Coder 在 Cerebras 上 4 秒写完 1,000 行 JavaScript，Claude 4.5 Sonnet 需要 2 分钟——约 30× 差距。Win Fast or Lose Slow（arXiv 2505.19481）给出量化框架：实时对抗类任务速度优先（"及时但次优的行动往往带来胜利"[41]），高频交易类任务对延迟和质量双重敏感。

Codex-Spark · 1000+ TPS Cerebras WSE-3 Gloria Mark：23 分钟重专注代价 METR：AI 导致 19% 生产力下降 Faros AI：+47% PR / 天 Flow State 研究

04 · 场景深度 · 多步骤 Agentic 工作流

🔄 延迟复利效应：
每步等待如何叠加为指数级损耗

Agentic 工作流的链式结构，使推理速度的边际价值随任务步骤数指数级增长——这是推理速度在企业场景中最直接的超线性表现。

🔄

多步骤 Agentic 工作流

TPS / 用户

70–500

超线性效益 🚀

链式任务下，延迟复利：N 步任务的总耗时 = 单步延迟 × N 次累积

Agentic 工作流规划、调用工具、反思结果、汇总、再规划，循环往复。一个 Agentic 任务可消耗 50,000–500,000 Token，横跨数十次推理调用。每一步都等待上一步的结果——这意味着延迟在链式结构中线性叠加，而不是均摊。

Google TPU 8i 发布页原文的深层含义（详见 S9）

"Without this level of inference speed, the latency profile of autonomous enterprise agents becomes a workflow bottleneck rather than a productivity asset."——这不只是一个技术描述，而是 Google 对企业 Agentic AI 市场的一个核心判断：推理速度是 Agentic AI 从"技术演示"到"生产力基础设施"的临界变量。

LightSeek TokenSpeed（2026.05，最新发布）为此专门设计了双目标优化：最大化"每 GPU 每分钟 Token 数"（服务器效率）的同时，维持"每用户 TPS 下限"（通常 70 TPS，有时需 200+ TPS）。在 SWE-smith 生产级 Agent 流量迹 Benchmark 上，比 TensorRT-LLM 快约 9–11%[6]。OpenRouter 2025 年 100 万亿 Token 研究报告显示：Agentic 推理模式正快速超越单轮对话，成为主要用法。AI Agent 市场 2025–2030 年 CAGR 46.3%（多方分析机构预测）。

50K–500K tokens/task TokenSpeed · LightSeek 2026.05 Google TPU 8i 官方表述 CAGR 46.3% AI Agent 市场

05 · 场景深度 · 实时语音对话 & 游戏 NPC

🎙️ 延迟阈值与神经感知：
300ms 法则背后的量化数据

语音 AI 是高速推理超线性效应最容易量化的场景——因为人类的神经感知阈值是硬性的，跨越阈值前后的用户行为发生断崖式变化。

200ms

人类自然对话的平均响应间隔（神经硬编码）

300ms

用户潜意识感知延迟的阈值（无法消除的感知）

16%

1 秒延迟导致的客户满意度下降（Forrester）

40%

延迟超过 1 秒时呼叫放弃率上升幅度（多方数据）

🎙️

实时语音对话 & 游戏 NPC

关键指标

TTFT <100ms

超线性效益 🚀

用户体验的 3 个阈值断层：300ms / 500ms / 1,000ms

当前 LLM 语音系统的延迟现状（2026）

典型语音 AI Pipeline 的时间成本：EOU 检测 150ms + 网络传输 100ms + STT 处理 400ms + LLM 推理 350–3,000ms（普通模型 350ms，GPT-4 推理模式约 3,000ms）+ TTS 合成 200ms + 网络回传 100ms + SIP 处理 150ms = 总计 800ms–4,100ms+。

2025 年行业基准：可接受的语音 AI 端到端响应时间 <800ms。目前多数平台实际表现：Twilio 约 950ms，Vonage 约 800–1,200ms。优化后的系统：sub-500ms 可实现，sub-300ms 目前在专用硬件上可达。

三个阈值断层：延迟对用户行为的非线性影响

0–300ms：无感知区间——用户感觉"系统在回应"，体验自然，与人类对话无异。
300–500ms：潜意识感知区间——用户无法明确说出"感觉慢"，但神经层面已开始感知延迟，自然对话节奏开始被打断。调查显示此区间 CSAT 已开始下降。
500ms–1,000ms：显式感知区间——用户明确感知到等待，开始主动填补沉默（重复问题、说"你好？"等），对话质量显著下降。联络中心报告 CSAT 降低。
>1,000ms：放弃区间——呼叫放弃率上升 40%[7]（多方数据）；J.D. Power 数据显示 68% 的客户在自动化系统感觉缓慢时直接挂机；Forrester 数据：1 秒延迟 = CSAT 降 16%。

高速推理的直接价值：将 LLM 推理从 350–3,000ms 降低到 <100ms（1,000+ TPS 的推理系统），可将总 pipeline 延迟从 800–4,100ms 降低至 500–600ms，跨越了多个体验阈值。这不是"快了 5 倍"，而是"体验从放弃到满意的质变"。

游戏 NPC 场景（Inworld 等平台）阈值更苛刻：玩家感知延迟阈值约 100–200ms（与物理世界交互期望一致）。目前绝大多数 NPC 对话质量低下的根本原因之一，正是 LLM 推理速度不足。

客户实证：高速推理在语音场景的真实回报

Tenali（语音销售 Agent）：切换到 Groq 后延迟下降 25× 以上、成本下降 10×，销售周期缩短 33%，销售代表生产力提升 4×[49]。GPTZero：从 GPT-4o mini 迁移到 Groq 上的 Llama 3.1 8B，端到端响应时间改善 7×，原本 10–15 秒的任务降到约 2 秒，年化成本降低 50%——服务 1000 万以上用户。Fintool：切到 Groq 后聊天速度提升 7.41×、成本下降 89%，CEO 称"我被震撼了，于是我们把 token 消耗量翻了三倍"——这正是 tokenmaxxing 的微观写照。Mem0：延迟下降近 5×，"解锁了真正的实时交互"。

TTFT <100ms Groq LPU（最低 TTFT） Forrester：1秒=16% CSAT J.D. Power：68%客户放弃慢系统 Telnyx：40%放弃率 @>1s 游戏 NPC 100–200ms 阈值

06 · 场景深度 · SOC 安全运营自动化

🛡️ 攻击者的时间 vs 防守者的时间：
MTTD/MTTR 的超指数级业务价值

在安全运营中，时间的价值不是线性的——攻击者的破坏能力随着停留时间指数级增长。这使得 MTTD 每减少一分钟的边际价值递增，而非递减。

9 个月

全球企业平均需要这么长时间来中和一次网络威胁（安全研究数据）

75%

Fortune 500 金融机构使用 AI 后 MTTR 改善幅度（72h → 18h）

80 天

IBM：AI 自动化缩短的违规生命周期

$1.9M

IBM：AI SOC 每次事件节省的平均成本（2025 数据）

🔒

SOC 安全运营自动化

TPS 需求

500–1,000

超线性效益 🚀

攻击破坏力随时间指数级增长：每分钟 MTTD 的边际价值递增

MTTD/MTTR 量化数据（2025–2026 综合来源）

行业基准（2026 Softenger SOC Blueprint）：MTTD 目标 <10 分钟，MTTR 目标 <1 小时。
当前现状：高性能 SOC MTTD 约 30 分钟–4 小时；低性能 SOC 可能数月未被发现。
AI 效果：MTTD 降低 30–75%；MTTR 降低 45–75%（一致多来源数据）。
极端案例（Elastic 客户）：MTTI 从 300 分钟降至 90 分钟；MTTR 从 180 分钟降至 6 分钟（改善 97%）。
IBM 2025 数据：使用 AI 和自动化的组织将违规生命周期缩短 80 天，节省 $1.9M / 次。

为什么 SOC 是超线性场景：攻击破坏力的时间函数

勒索软件在发现后的第一个小时内可以加密数千台机器；APT（高级持续性威胁）每小时额外的横向移动意味着更广的感染面积和更难的根除。这意味着：
MTTD 从 4 小时缩短到 10 分钟（缩短约 24 倍），对应的攻击破坏力减少远不止 24 倍——因为前 4 小时攻击者可以完成权限升级、数据窃取、持久化等关键操作；而 10 分钟内只能做早期侦察。

这就是为什么 IBM 的数据是"节省 $1.9M / 次"——不是"快了 24 倍就节省 24 倍时间"，而是"快了 24 倍，破坏规模可能缩小 100 倍以上"。

Google 官方将安全运营列为 TPU 8i 的核心目标场景，原因正在此：SOC Agentic AI 需要"持续多步骤推理循环"——实时处理数千条告警、关联跨数据源 IoC、执行 Playbook 遏制措施。这三个操作每一步都是串行依赖的，推理速度慢意味着整个响应链条被拉长。SANS 2025 调查：73% 安全团队将误报列为首要挑战[34]，高速 AI 对告警富化和分类的速度提升，直接减少误报引发的"告警疲劳"。

MTTD <10min / MTTR <1h（2026 基准） IBM：$1.9M / 次节省 Google TPU 8i 官方场景 SANS：73% 团队被误报困扰 Elastic：MTTR 180 → 6 分钟

07 · 新概念 · 单位时间智能

🧠 超越 Test-Time Scaling：
提出"单位时间智能（IPuT）"新框架

当前关于推理速度与质量的讨论，通常停留在"用更多 Token 换更好推理"。但这忽略了一个更根本的问题：在固定时间预算内，系统能达到的最高智能水平是多少？

新概念提出 · Intelligence Per Unit Time（IPuT）

单位时间智能：速度作为智能倍增器

传统 Test-Time Scaling（测试时算力扩展）的讨论框架是：消耗更多 Token → 质量更高。这是一个以"Token 为货币"的讨论框架，但它隐含了一个假设：时间是无限的，Token 成本是唯一约束。

现实中，用户交互有时间预算。一个需要实时决策的场景不能容忍"多想 60 秒"。因此，真正的问题是：在固定时间 T 内，系统能达到的最高质量是多少？

这就是单位时间智能（Intelligence Per Unit Time，IPuT）的定义：

在固定时间预算 T 内，系统可达到的最高智能质量

推理速度 v 越高，固定时间内可并行探索的推理路径数 N 越多（线性关系）

速度提升 → 路径数线性增长 → 质量对数增长（Best-of-N 缩放规律）→ 单位时间智能超线性增长

极端情况：速度趋于无穷、时间趋于零时，仍可探索 N 路路径，IPuT 趋向质量上界

关键洞察：在固定时间预算内，速度每提升一倍，可探索的推理路径数翻倍；而 Best-of-N 的质量提升遵循对数规律（每多一路的边际收益递减，但总体超线性）。这意味着：推理速度对"单位时间智能"的影响是超线性的。

《Thinking Slow, Fast》（2025）的研究实证了这一点：用 Mamba 等 SSM 架构，在固定时间内跑出比 Transformer 更多推理链，最终质量超越其 Transformer 教师模型。这是"单位时间智能"框架下的典型超线性效应——速度本身就是一种智能资源，不只是效率指标。

与 Test-Time Scaling 的区别：Test-Time Scaling 问"多少 Token 换多少质量"；IPuT 问"给定时间，最多能有多聪明"。前者以资源为轴，后者以时间为轴。在实时场景（SOC、语音、编程、机器人）中，时间才是真正的约束——IPuT 是更适合描述高速推理价值的框架。

🧠

Test-Time Compute 扩展

核心价值

固定时间内
最高质量

超线性效益 🚀

速度不只是让推理更快，而是让"单位时间内的推理智能"指数级提升

当前头部推理模型（o1、R1、Claude 扩展思考系列）的长 CoT 机制，本质上就是在消耗大量 Token 来提升推理质量——推理速度越快，这类模型的可用性越高、成本越低、可探索的推理链深度越大。

IPuT 的实验证据

ICLR 2025（《Scaling LLM Test-Time Compute Optimally》[13]）：证明推理时算力扩展比参数扩展更高效——即给定资源，增加推理时算力的质量收益，优于等价资源用于增加模型参数。
《Thinking Slow, Fast》（arXiv 2025）：Mamba 蒸馏模型在固定时间预算下可超越 Transformer 教师模型质量[14]——因为速度让它探索了更多推理路径。
Test-Time Scaling for Agents（arXiv 2025）：增加多样化推理路径（diverse rollouts）对 Agent 任务表现有正向效果，且是"提升多样性 > 提升数量"的超线性效应。

实际含义：一个运行在 10,000 TPS 的小型模型，在 10 秒内可以完成 100 路 Best-of-N 采样；一个运行在 100 TPS 的大型模型，同样 10 秒只能完成 1 路。前者的最终输出质量，可能远优于后者——即便后者的单次推理质量更高。这打破了"更大的模型一定更好"的直觉。

实证支撑：Cerebras Scaling Law（2025.06）

Cerebras 的 Sean Lie 和 James Wang 在 2025 年 6 月正式提出 Cerebras Scaling Law[36]："OpenAI 形式化了测试时计算缩放定律——推理时使用的 token 越多，模型越智能。我们观察到，现实应用的延迟要求约束了可生成的 token 数。因此，使用更多 token 的唯一方法就是提升速度——更快的推理速度带来更高的模型智能。"这与本报告提出的 IPuT 框架高度一致。实证数据：Qwen3 在 Cerebras 上随推理时 token 数增加，性能单调提升，最大差距达 40 个百分点；Qwen3-32B 比 GPT-4.1 快 16×、成本仅为其 1/10。

IPuT · 单位时间智能 Cerebras Scaling Law Best-of-N 对数缩放规律 Mamba 超越 Transformer（固定时间） ICLR 2025 Test-Time Scaling

08 · 场景深度 · 消费级产品 & 电商

🛒 速度与消费者心理：
0.1 秒为何能带来 40% 转化率提升

AI 推理速度对消费级产品的影响，与网页加载速度对电商的影响高度类似——背后有严肃的消费者心理学研究支撑。而这些研究一致指向：速度对用户行为的影响是超线性的。

53%

加载超过 3 秒时放弃的用户比例（多方数据一致）

20%

1 秒延迟导致的转化率下降（多项研究）

Amazon 每 100ms 延迟减少的销售额比例

40.1%

奢侈品网站：0.1 秒速度改善带来的商品详情→购物车转化率提升

🌐

消费级产品
Search AI / 电商

效益性质

线性（成本）
超线性（体验）

体验侧超线性 🚀

基础设施成本：线性。消费者体验与转化率：超线性——两个完全不同的增益曲线

消费者心理学研究：速度感知的非线性效应

Amazon 经典研究：每 100ms 延迟 = 1% 销售额损失；2026 年 Amazon 规模下，这意味着约 38 亿美元 / 年（Site Qwality 估算）。
Walmart 研究：每 100ms 速度改善 = 1% 增量收入（Cloudflare 引用）。
Mozilla Firefox：加载时间改善 2.2 秒 = 下载转化率 +15.4%。
Mobify 研究：首页加载 100ms 改善 = 转化率 +1.11%（Cloudflare 引用）。
奢侈品市场（Magnet 2025）：0.1 秒速度改善 = 商品详情→购物车转化 +40.1%（这个数字极为震撼——1/10 秒的差异，40% 的转化差异）。
零售综合：0.1 秒改善 = 零售转化率 +8.4%，旅游 +10.1%[18]（多项研究）。
1 秒延迟：页面浏览 -11%，转化率 -20%（综合来源）。

消费者心理学机制：为什么速度效应是非线性的

神经科学视角（Arjan KC 2026）："The Spillover Timeline[19]"研究显示，消费者耐心基准线在过去十年大幅收缩——受算法社交媒体和边缘分发 AI 影响，用户期望值持续提升。
认知负荷理论：加载等待会增加认知负荷，使大脑处于"不确定状态"，引发焦虑（EEG 研究显示慢速网站引发可测量的神经压力反应）。
3 秒阈值（2026 年）：1 秒延迟允许用户"思维连续"；2–3 秒触发"大脑识别中断"，引发轻微应激反应；超过 10 秒产生完全认知脱离（43% 用户报告强烈沮丧）。
品牌感知：53% 消费者将网站速度视为品牌质量的直接体现（不只是功能）——慢速网站对高端品牌的伤害尤其大（奢侈品 40.1% 转化差异的根因）。

对 AI Search 的启示：Google Search 的 AI 结果使用 Speculative Decoding 加速，以保持与传统搜索接近的响应速度。如果 AI 搜索比普通搜索明显更慢，用户会回到普通搜索——这是 Google 宁愿在硬件上大幅投资（TPU 8i，1,800 亿美元资本开支）也要维持速度的根本原因：AI 搜索的速度不达标，整个 AI 转型战略的用户留存基础就会动摇。

Google 声称 Gemini 3.5 Flash 比同类模型快 4 倍，企业迁移每年可节省 10 亿美元以上——这是线性的成本效益。但对于直接面对消费者的场景，这 4 倍速度改善带来的转化率和留存率提升，将是非线性的。

Amazon 100ms = 1% 销售额奢侈品 0.1s = 40.1% 转化提升消费者耐心基准线收缩（Arjan KC） 3 秒引发应激反应（神经科学） Google：AI 搜索速度是战略底线

09 · 深度解读

🏢 Google TPU 那句话，意味着什么企业级 AI 机会？

Google Cloud 官网写道："TPUs provide the memory bandwidth and low-latency inference required to run continuous, multi-step reasoning loops for real-time coding assistants, autonomous customer service, and security operations." 这句话是一个精心设计的市场定位声明，每一个词都值得拆解。

深度解读 · Google TPU 8i 官方声明

"连续多步骤推理循环"是企业 AI 转型的基础设施宣言

"continuous multi-step reasoning loops"（连续多步骤推理循环）——这是关键词。它不是"复杂的一次性查询"，不是"大型语言模型生成"，而是循环（loop）。这一个词，定义了企业 Agentic AI 的基础计算模型：AI 不是被动等待问题，而是主动循环执行——感知 → 推理 → 行动 → 感知 → 推理 → 行动……

这一判断背后隐藏着 Google 对企业 AI 转型方向的核心战略判断：企业软件的下一代形态是持续运行的 AI 循环，而不是点对点的 AI 查询。

从"人类触发 → 系统响应 → 等待"到"AI 持续感知 → 推理 → 行动 → 循环"——推理调用频率从每查询 1 次跃升为每事件 N 次（N = 任务步骤数）

对企业 AI 机会的三层解读：

① 基础设施层机会：如果企业 AI 转型的基本模式是"连续多步骤推理循环"，那么推理基础设施的采购量将是当前的 10–100 倍（每个业务流程持续消耗 Token，而非偶发性查询）。Google 明确说明，没有 TPU 8i 级别的推理速度，这种模式在经济上是不可行的。这是 Google 1,800–1,900 亿美元资本开支的核心逻辑之一。

② 应用层机会：三个点名场景——"real-time coding assistants"（实时代码助手）、"autonomous customer service"（自主客服）、"security operations"（安全运营）——是 Google 判断 Agentic AI 规模化落地最确定的企业场景。这三个场景的共同特征：高频、持续、多步骤、可量化 ROI（程序员效率、客服成本、安全响应时间）。

③ 企业战略层机会：IBM 的预测：到 2026 年，所有 multi-agent 系统将走向生产部署（IBM Kate Blair）。Salesforce 研究：AI 采用率 2025–2026 年同比增长 282%，其中 Agentic AI 被预测将从"用户触发"转变为"事件驱动"（Salesforce Dan Fernandez）。这意味着企业软件架构将在未来 2–3 年内经历一次类似"客户端/服务器架构"到"互联网架构"的转变——"Agentic 循环"将成为默认范式，而不是高级功能。

推理速度的战略地位：在这个判断框架下，推理速度不是一个性能指标，而是决定 Agentic AI 是否可以规模化部署的根本条件。Google 的表述"without this level of inference speed, the latency profile of autonomous enterprise agents becomes a workflow bottleneck rather than a productivity asset"，是在用商业语言说一件技术事实：推理速度不达标，Agentic AI 就会成为业务摩擦，而非业务加速器。

企业软件架构转型

当"连续推理循环"成为默认模式，企业软件架构将从"查询-响应"变为"事件-循环"。CRM、ERP、SCM 等所有企业系统都将内嵌 Agentic AI 作为决策引擎，而非外挂 AI 功能。这是 Salesforce / SAP / Oracle 下一轮战略竞争的核心场地。

推理 API 成为企业基础设施

如同企业数据库从"每次查询付费"演进为"数据库订阅服务"，推理 API 将从"按 Token 付费"演进为"推理能力即服务（IaaS）"。CapitalG 的判断："推理代表了 AI 从实验转向大规模交付真实世界价值的转变"。Baseten $3 亿融资是推理 API 层独立成为赛道的信号。

人机协作范式重构

IBM VP Faro 的判断："软件实践将从 Vibe Coding 演进为目标-验证协议（Objective-Validation Protocol）"——用户定义目标并验证，AI Agent 自主执行，在关键节点请求人工审批。这不是人工审批每一步，而是 AI 循环运行、人类监督边界。高速推理是这一人机协作模式可用的前提。

10 · 硬件 · 架构 · 引擎

⚙️ 六大硬件 × 五条架构路线 × 六大推理引擎

模型架构的多样化是硬件分化的根因。每种架构对底层计算特性的需求截然不同，没有任何单一芯片能同时高效覆盖全部。

Google · TPU 8i

推理专用架构

1,500

TPS / Flash 模型

首个训练/推理分拆 TPU。片上 SRAM + HBM 全量存储 KV Cache；SC-CAE 卸载全局通信。官方目标：实时代码助手、自主客服、安全运营。

INFERENCE-ONLY · SPLIT ARCH

Cerebras · WSE-3

晶圆级计算引擎

2,946

TPS / GPT-OSS-120B

H100 的 57 倍大，44GB 片上内存。OpenAI Codex-Spark 部署平台（首个非 Nvidia 生产模型）。Series H $10 亿（2026.01）。约 70% 工作负载已转向推理。

WAFER-SCALE · $1B SERIES H 2026.01

NVIDIA · Blackwell

GPU + CUDA 生态

1,000+

TPS / 每用户

H100 的 15 倍；推理成本自 2022 降 280 倍；GB200 NVL72 对 MoE 是 H200 的 10 倍。GTC 2026 整合 Groq LPU IP[22]，发布 AFD 架构（Prefill/Decode 分层）。

GPU · CUDA · GTC 2026 AFD ARCHITECTURE

SambaNova · SN40L / SN50

可重构数据流单元

450

TPS / 8 芯片（SN40L）

SN50（2026.02）：5x 速度，3x 低于 B200 TCO，支持 10 万亿参数模型。Intel 多年战略合作（GPU 做 Prefill，Xeon 做编排，RDU 做 Decode）。SoftBank 首批客户。Series E $3.5 亿。

SN50 · INTEL COLLAB · $350M 2026.02

Groq（现 NVIDIA 旗下）

语言处理单元 LPU

800+

TPS / Llama 3

TTFT <100ms；功耗 1/3 GPU。$20B 被 NVIDIA 收购（2025.12），IP 整合进 NVIDIA GTC 2026 的 Kyber 机架和 AFD 架构——Decode 专用硬件。

ACQUIRED $20B · NOW IN NVIDIA KYBER RACK

Inception Labs · Mercury 2

扩散语言模型 dLLM

~1,000

TPS · 标准 GPU · 无需专用芯片

首个商业化扩散 LLM。并行生成全部 Token 后去噪，完全绕开自回归串行瓶颈。757 TPS 7 日均值（Artificial Analysis 第一）。质量约 85–95% 同级模型。

DIFFUSION LLM · PARALLEL · STD GPU

🧩 模型架构 × 硬件分化逻辑

模型架构的多样化是硬件分化的根因。每种架构对底层计算特性的需求截然不同，没有任何单一芯片能同时高效覆盖全部。

Google · TPU 8i

推理专用架构

1,500

TPS / Flash 模型

首个训练/推理分拆 TPU。片上 SRAM + HBM 全量存储 KV Cache；SC-CAE 卸载全局通信。官方目标：实时代码助手、自主客服、安全运营。

INFERENCE-ONLY · SPLIT ARCH

Cerebras · WSE-3

晶圆级计算引擎

2,946

TPS / GPT-OSS-120B

H100 的 57 倍大，44GB 片上内存。OpenAI Codex-Spark 部署平台（首个非 Nvidia 生产模型）。Series H $10 亿（2026.01）。约 70% 工作负载已转向推理。

WAFER-SCALE · $1B SERIES H 2026.01

NVIDIA · Blackwell

GPU + CUDA 生态

1,000+

TPS / 每用户

H100 的 15 倍；推理成本自 2022 降 280 倍；GB200 NVL72 对 MoE 是 H200 的 10 倍。GTC 2026 整合 Groq LPU IP[22]，发布 AFD 架构（Prefill/Decode 分层）。

GPU · CUDA · GTC 2026 AFD ARCHITECTURE

SambaNova · SN40L / SN50

可重构数据流单元

450

TPS / 8 芯片（SN40L）

SN50 · INTEL COLLAB · $350M 2026.02

Groq（现 NVIDIA 旗下）

语言处理单元 LPU

800+

TPS / Llama 3

TTFT <100ms；功耗 1/3 GPU。$20B 被 NVIDIA 收购（2025.12），IP 整合进 NVIDIA GTC 2026 的 Kyber 机架和 AFD 架构——Decode 专用硬件。

ACQUIRED $20B · NOW IN NVIDIA KYBER RACK

Inception Labs · Mercury 2

扩散语言模型 dLLM

~1,000

TPS · 标准 GPU · 无需专用芯片

首个商业化扩散 LLM。并行生成全部 Token 后去噪，完全绕开自回归串行瓶颈。757 TPS 7 日均值（Artificial Analysis 第一）。质量约 85–95% 同级模型。

DIFFUSION LLM · PARALLEL · STD GPU

🧬 五条模型架构路线 × 硬件绑定逻辑

硬件厂商色标 ● NVIDIA ● Google TPU ● Cerebras ● Groq ● SambaNova ● Etched / 其他 ASIC ● 通用 / 标准 GPU

Dense Transformer

稠密 Transformer

GPT 系列、Llama 1/2、标准 Dense 模型

约束：KV Cache 线性增长 + 二次方 Attention 复杂度。驱动了所有后续架构的创新。

最适：NVIDIA Blackwell（CUDA）/ Etched Sohu（专用 ASIC）
引擎：TensorRT-LLM / vLLM

MoE 稀疏激活

混合专家模型

DeepSeek V3/R1、Qwen3、Kimi K2、Mixtral

2025 超 60% 开源模型采用 MoE。稀疏激活 ≠ GPU 稠密矩阵乘高效，产生专家负载不均和通信尾延迟。

最适：NVIDIA GB200（10x vs H200）/ SambaNova RDU
引擎：vLLM V1 / TensorRT-LLM（MoE 专用调度）

SSM / Mamba

状态空间模型

Mamba-3（ICLR 2026）、Zamba 2、HunyuanTurboS

"推理优先"设计目标，无 KV Cache，理论吞吐达同尺寸 Transformer 的 5 倍。IPuT 超线性效应最强的架构。

最适：Groq LPU（顺序状态更新天然契合）
引擎：需非 Attention 专用路径

Hybrid 三合一

混合架构

Jamba（AI21）、HunyuanTurboS、Nemotron Nano

Attention + Mamba + MoE 混合，参数效率高但推理引擎面临最高复杂度。同一 Session 内三种模式并存。

最适：无单一最优解
引擎：HLX 等专用混合引擎正在涌现

Diffusion LLM（2026 最新）

扩散语言模型 — 打破自回归范式

Mercury 1/2（Inception Labs）· 首个商业化扩散 LLM · 吞吐量排名第一

并行生成全部 Token 后去噪，不依赖 KV Cache。核心颠覆：速度来自架构本身，无需专用芯片。标准 GPU 可实现约 1,000 TPS，使超高吞吐推理真正大众化。代价：约 5–15% 质量损失（结构化输出和翻译任务持平）。

最适：标准 GPU（H100/H200/B200）
引擎：全新范式，现有框架需专门支持；Artificial Analysis 吞吐量冠军

⚙️ 六大推理引擎：从通用中间件到场景专用系统

vLLM

OPEN SOURCE · DE FACTO STANDARD

PagedAttention 发明者，开源事实标准。V1（2025.01）内置 FlashInfer + MoE 专用优化 + Speculative Decoding 原生支持。最广覆盖，最大生态。

TensorRT-LLM

NVIDIA · HIGH PERFORMANCE

NVIDIA 官方，深度 CUDA/Tensor Core 整合。在 NVIDIA 硬件上比 vLLM 有 10–30% 优势，生态锁定强。2025 加入 MoE 专用内核和 Speculative Decoding。

SGLang

AGENTIC · MULTI-STEP

专为 Agent 工作流设计。RadixAttention（多步 KV Cache 复用），大幅降低 Agentic 场景首 Token 延迟。最适工具调用密集、多轮对话。

TokenSpeed

CODING AGENT · LIGHTSEEK · 2026.05

Agentic Coding 专用（最新）。SWE-smith 生产级 Agent 流量迹 Benchmark，>70 TPS/用户下比 TensorRT-LLM 快 9–11%。MLA 内核 + MoE 并行调度专项优化。

Cloudflare Infire

EDGE · RUST · SPECULATIVE

Rust 编写，边缘推理专用，集成 NVIDIA EAGLE-3 草稿模型。工具调用 / JSON 结构化输出加速效果最佳（高度可预测，草稿接受率极高）。

JetStream / TPU Stack

GOOGLE · JAX + PATHWAYS

Google 官方 TPU 推理栈，配合 TPU 8i 片上 KV Cache 架构。MaxDiffusion 为扩散模型专用。与 JAX 和 Pathways 深度整合，支持全球分布式调度。

11 · 全景矩阵与结论

🗺️ 完整技术选型矩阵 & 核心结论

场景	TPS 需求	效益性质	超线性机制	最适硬件	关键指标
实时编程	1,000+	超线性	消除上下文切换（23分钟/次）	Cerebras WSE-3	等待12s→切换任务→23min损失
Agentic 工作流	200–500	超线性	链式延迟复利：N步叠加	Cerebras / TPU 8i	4分钟→20秒（20步任务）
实时语音对话	TTFT <100ms	超线性	神经阈值：1s放弃率+40%	Groq LPU	1s延迟=CSAT-16%（Forrester）
SOC 安全运营	500–1,000	超线性	攻击破坏力随时间指数增长	Google TPU 8i	IBM：AI节省$1.9M/次，缩短80天
Test-Time Compute	并行 N 路	超线性（IPuT）	Best-of-N 质量对数缩放	Cerebras WSE-3	固定时间内质量超越教师模型
消费级产品（体验）	速度感知	超线性	消费者心理阈值+品牌感知	Google TPU 8i	100ms = 1% 销售额（Amazon）
机器人/边缘推理	本地 ms 级	线性（安全）	延迟与安全边界线性关联	Hailo/TensorRT Edge	决策延迟降低70–90%
药物发现批量处理	高吞吐	线性	速度 = 探索空间宽度	Cerebras / SambaNova	100–200x vs GPU（LLNL）
消费产品（成本）	成本驱动	线性	TPS 提升直接对应成本降低	Google TPU 8i	$1B+/年节省（Gemini Flash）

核心结论：速度的超线性效应重写了 AI 价值方程

不是所有速度提升都等价，但超线性场景集中在最高价值区域。编程效率、用户体验、安全运营、Test-Time Intelligence——这四个超线性场景，恰好覆盖了 AI 商业价值最容易量化和最高货币化潜力的区域。这不是巧合——超线性效应本身就是认知/行为阈值的产物，而这些阈值恰好在高价值场景中最突出。

速度突破阈值 = 解锁全新行为，不只是优化既有行为。23 分钟上下文切换代价的消除、300ms 语音延迟阈值的跨越、MTTD 从 4 小时到 10 分钟的缩短——这些不是"更快了"，而是"从不可用到可用"、"从摩擦到流畅"的定性跳跃。Google TPU 8i 发布页的那句话，正是在用商业语言描述这个物理事实：推理速度不足时，Agentic AI 是"工作流瓶颈"，而非"生产力资产"。

单位时间智能（IPuT）框架将成为新的价值评估维度。随着 Test-Time Compute 从研究方法走向生产部署，"模型大小"不再是质量的唯一代理变量。一个速度快 100 倍的小模型，在固定时间内的有效智能，可能超过速度慢的大模型。这将改变 AI 采购决策的框架：从"哪个模型最聪明"到"给定时间预算，哪个系统最聪明"。

Diffusion LLM 是一个正在展开的结构性变量。Mercury 2 证明了速度可以来自架构本身——无需专用芯片，在标准 GPU 上实现 ~1,000 TPS。如果扩散 LLM 在质量上的 5–15% 差距持续收窄，它将从根本上改变高速推理的经济学：超高吞吐将不再是专用硬件的特权，而成为任何云服务商的标准能力。

在 AI 推理的超线性效应面前，"快了多少"是错误的问题。正确的问题是：这一速度提升，是否跨越了某个认知、行为或工程阈值？如果是，你得到的将不只是倍速提升——而是一个全新的人机交互范式，一类原本不可能存在的业务模式，以及一场尚未完成的范式革命。

    ↓
    延伸阅读：当推理足够快时，操作系统本身会发生什么变化？
  

12 · 下一代OS范式

🖥️ 从"查询-响应"到
"持续感知-实时推理"

传统 OS 的核心抽象是：文件（存储状态）+ 应用（执行逻辑）+ 进程（调度资源）。下一代 OS 的核心抽象是：上下文流（持续感知世界）+ 推理内核（实时理解意图）+ 按需执行（生成或调用工具）。

核心命题 · 下一代 OS 定义

操作系统的下一代形态：全维度实时上下文 × 超高速推理内核

传统操作系统的工作模式是被动响应：用户发出命令（点击、输入），系统执行，返回结果。这个模式的根本假设是：计算机不知道用户在做什么，直到用户明确告诉它。这一假设在过去 58 年里从未被挑战——直到 2026 年。

下一代 OS 翻转了这个假设：AI 内核持续感知用户正在做什么、看什么、说什么、在哪里——而不是等待命令。上下文不再是每次操作前需要解释的背景，而是持续流动的实时状态。在这个模型下，用户不再需要描述场景，只需表达意图——甚至用最模糊的指示词（"这个"、"那个"）就足够了。

下一代 OS 的三层计算模型——持续感知、超快推理、按需执行形成闭环。参考 Google DeepMind AI Pointer 等下一代 OS 概念

这一转变的技术前提只有一个：推理速度必须快到不影响用户感知。如果持续感知层处理一帧屏幕截图需要 2 秒，那么上下文就永远是过期的；如果意图推断需要 3 秒，用户已经切换到下一个动作了。下一代 OS 的"实时性"，在技术层面等同于"推理速度超过上下文更新速度"。

13 · 全维度感知

👁️ 五个维度同时运行：
什么构成了"全维度实时上下文"

下一代 OS 的"全维度上下文"不是一个单一的感知能力，而是五个独立维度的持续并行感知，每个维度都有自己的更新频率和推理负担。

🖥️

屏幕视觉上下文

~16ms 更新（60fps）

持续分析屏幕内容——光标下方是什么、用户正在看哪部分、当前活跃窗口的结构和语义。AI 不只看像素，而是理解"这是一张发票"、"这是代码"、"这个按钮会删除数据"。

AI Pointer · DeepMind Recall · Microsoft on-screen awareness · Apple

🎙️

语音 / 音频上下文

200ms 连续流

不是等待用户"说完"，而是以 200ms 为单位连续处理音频流。理解语调、停顿、意图信号（"啊……"代表犹豫），支持打断——不只是听到命令，而是听懂对话。

TML-Interaction · Thinking Machines Qwen3.5-Omni LFM2.5-Audio · Liquid AI

📂

应用 / 文件上下文

状态变化时更新

理解当前工作内容——正在编辑的文档、打开的代码仓库、浏览器标签页的语义内容。Siri 知道"朋友刚发来的新地址"在哪条消息里，可以直接操作，无需用户复制粘贴。

Apple personal context Copilot+ context-aware App Intents API

⏳

历史时间轴上下文

滚动窗口持续写入

记住所有发生过的事情——三周前看过的那个紫色图表的 PPT、上周在浏览器里搜索过的内容。Recall 让"时光机"成为操作系统基础设施，而不是独立应用。

Recall · Microsoft AIOS Memory Manager A-MEM · Rutgers 2025

📍

空间 / 物理上下文

环境变化时更新

理解用户所在的物理环境——设备摄像头捕捉的现实世界（指向建筑物说"给我看路线"）、AR 眼镜中的空间感知、IoT 设备的环境状态。像素变成地点、日期、物体。

AI Pointer · 像素→实体 Visual Intelligence · Apple Gemma 4 · 屏幕理解

为什么这五个维度必须同时运行，而不是按需启动？

传统 AI 工具是"按需查询"——用户明确触发，AI 才开始工作。下一代 OS 是"持续感知"——AI 在用户触发之前就已经理解了上下文。这一区别至关重要：当用户指着屏幕说"发给他"时，AI 已经知道"他"是谁（音频历史）、"发"的是什么（屏幕视觉）、通过什么渠道发（应用上下文）。如果上下文是按需收集的，用户的这句话就没有意义。只有全维度持续运行，短小的指示词才能携带足够的信息。

14 · 推理层次架构

🏗️ 三层推理栈：
每一层都有不同的速度要求

全维度上下文 + 超高速推理内核，在技术层面分解为三个独立的推理层，各自有不同的时间窗口和计算需求。三层缺一不可，任何一层慢了，整个体验就会断裂。

持续感知层

<16ms · 屏幕刷新率级

任务：实时理解"世界现在是什么样的"——光标下方是什么对象、屏幕上有哪些可操作实体、声音流里有没有意图信号。

技术要求：超轻量级视觉模型（类似 Gemma 4 的屏幕/UI 理解专用变体），以屏幕刷新率持续运行；音频以 200ms 为块持续处理（Thinking Machines 的 Multi-Stream Micro-Turn Design）。

为什么必须 <16ms？人类眼睛感知到光标移动的速度是 60fps。如果感知层跟不上光标移动，"光标下方是什么"这个上下文就永远是过期的——AI Pointer 就失去了全部意义。

意图预推断层

<200ms · 人类感知阈值

任务：在用户开口说话之前，预计算"如果用户现在说话，他可能想要什么"——在 hover 期间推断用户意图，准备好候选行动列表。

技术要求：中等规模模型（足够理解上下文和意图，但必须在 200ms 内返回），需要多模态理解（视觉 + 语言融合）。

为什么必须 <200ms？这是人类感知到响应延迟的神经阈值（参见报告第 05 章 300ms 法则）。意图预推断必须在用户感知到等待之前完成，才能实现"即时感"。TML-Interaction-Small 实现了 0.4 秒的完整响应，接近人类对话节奏。

工具生成/执行层

<2s · 工具生成阈值

任务："做这件事"——执行已有工具、调用 API、或当没有合适工具时即时生成一个专用工具（下一代 OS 的核心能力）。

技术要求：高速推理（1,000+ TPS 使 2 万 Token 的工具生成在约 20 秒内完成，未来 10,000 TPS 可降至 2 秒以内），Thinking Machines 的架构为：轻量 Interaction Model 保持实时对话，Background Model（重推理）异步执行工具调用。

为什么是 <2s？2 秒是用户感知"应用正在启动"和"应用已启动"的临界阈值。即时生成工具的时间一旦超过这个阈值，就无法实现"按需生成"的感知——用户会感到等待，而不是流畅。

三层架构的关键创新：Thinking Machines 的分层推理设计

TML-Interaction-Small 的双模型架构完美体现了三层栈的分工：一个始终在线的轻量 Interaction Model 持续处理 200ms 音视频流（第一层 + 第二层），感知当前状态并预推断意图；当任务需要复杂推理（工具调用、网络搜索、长期规划）时，委托给 Background Model 异步处理，并在正确时机将结果注入对话（第三层）。这意味着：用户再也不会看到"我正在思考……"的暂停，AI 感觉是"一直在场的"。这是把高速推理分层应用的最清晰实现案例。

15 · 2026产品矩阵

🔭 谁在构建下一代 OS：
从纯粹 LLM OS 到交互层

"LLM OS"一词被滥用——大多数所谓产品其实是"传统 OS + AI 功能"。本节先看真正把 LLM 当作内核的纯粹 LLM OS，再看下一代 OS 的交互层、模型与使能技术。

🧬 第一类：纯粹的 LLM OS —— 当 LLM 成为内核

判断标准很简单：LLM 是不是内核本身？在这类系统里，LLM 不是被调用的功能，而是承担调度、上下文管理、内存管理、工具管理等操作系统核心职责——Agent 则像应用程序一样运行在其上。

agiresearch · 罗格斯大学

AIOS：LLM Agent 操作系统

COLM 2025 · arXiv 2403.16971 · 开源

核心定位：最严谨的"LLM OS"学术定义与实现。明确提出"LLM 作为内核（kernel），Agent 作为应用（apps）"——把 LLM 嵌入操作系统，作为 OS 的大脑。

真正的内核职责：AIOS 在传统 OS 内核之上提供一个"AIOS 内核"，包含调度器（Scheduler，用类 CPU 调度策略分发 Agent 请求）、上下文管理器（支持 LLM 上下文的快照与恢复）、内存管理器、存储管理器、工具管理器、访问控制——这正是操作系统的核心抽象。

实测：用 AIOS 服务由各类框架（ReAct、AutoGen、Open Interpreter、MetaGPT 等）构建的 Agent，执行速度最高提升 2.1×。源代码开源于 github.com/agiresearch/AIOS。其 2023 年的前瞻论文《LLM as OS, Agents as Apps》是这一范式的奠基之作。

LLM = 内核Agent 调度器上下文快照/恢复开源 · COLM 2025

Letta（前身 MemGPT）

LLM-as-an-Operating-System

arXiv 2310.08560 · Charles Packer & Sarah Wooders

核心定位：把"LLM OS"这个比喻第一次落到工程实处。源自 MemGPT 论文《Towards LLMs as Operating Systems》——模型像 OS 管理 RAM 与磁盘那样，管理自己的内存、上下文和推理循环。

虚拟上下文管理：借鉴操作系统的分层内存与虚拟内存分页机制，把上下文窗口当作受限的"物理内存"——核心内存（core，常驻 in-context，类比 RAM）+ 归档内存（archival，out-of-context，类比磁盘）。LLM 通过工具调用（memory_replace、archival_memory_search 等）自主地在两层之间分页、整理、检索。

意义：让 LLM 在固定上下文窗口下维持远超窗口长度的连贯对话——"无对话真正丢失"。这是"自编辑内存 + LLM OS 基础设施层"概念的来源，Letta 框架将其产品化为有状态 Agent 的运行时。

自编辑内存两层内存架构虚拟上下文分页有状态 Agent 运行时

Steve · AI-Native OS

Steve：会自己生成应用的 OS

2025–2026 · 面向消费者的 AI 原生操作系统

核心定位：一个 AI 原生操作系统——不靠菜单、不需要技术能力，用户用自然对话语言就能完成任务。目前已有 1,000+ 种用例、5,000+ 个应用（含 Steve 内置的 AI 原生应用）。

OS 自我维护：用户无需更新或排障——OS 按需自行完成所有维护与更新。内置 Vibe Studio，让工程师和非工程师都能通过 Google Play、Apple Store 构建并发布应用。

定位人群：专为刚接触 AI 的消费者设计，让 AI 对所有人可用；同时其 developer-first 架构也服务于提升开发者生产力。被 ACM 通讯（CACM）专文报道为 AI 原生 OS 的代表。

自然语言为唯一界面按需生成应用OS 自我维护Vibe Studio

llm-os.dev

The OS That Generates Its Own Apps

2025–2026 · 概念与路线图

核心定位：一个没有预装应用的操作系统——所有应用都按需从自然语言即时生成。你不"打开软件"，你描述需求，OS 当场把它造出来。

三阶段路线图：当下（2025–26）以单文件 HTML 应用为生成形态；1–3 年内随着 7B 级模型在端侧达到足够速度，生成将变得设备级流畅；3–7 年目标是整个操作系统外壳（shell）都可被实时重新生成。

范式意义：它把"软件的边界不再是已安装的应用，而是可被描述的需求"推到极致——也是对"高速推理 = 即时生成"这一逻辑最纯粹的产品化表达。

零预装应用自然语言即生成单文件 AppShell 实时重生成

CosmOS

Humane · CosmOS

CosmOS：取消应用范式的 OS

Humane AI Pin 搭载 · AI 优先操作系统

核心定位：CosmOS 致力于打造一种以自然语言为首要界面、彻底取消传统"应用"范式的计算体验——设备不再是 App 的集合，而是一个能理解意图、直接行动的智能体。

现实教训：搭载 CosmOS 的 Humane AI Pin 在市场上遭遇了挫折，硬件叙事失败。但 CosmOS 作为 AI 原生 OS 资产，其"自然语言取代应用网格"的设计思想，仍是纯粹 LLM OS 路线上一个重要的真实世界实验——也是本报告"重要警示"一章的注脚：范式正确，不等于产品成功。

自然语言首要界面取消 App 范式意图直达行动真实世界教训

🧩 第二类：下一代 OS 的交互层、模型与使能技术

以下产品并非"LLM OS"本身，但它们是下一代 OS 得以成立的关键拼图——交互范式（AI Pointer、交互模型）、端侧模型底座（Gemini Nano、Gemma、LFM、Qwen-Omni）、以及主流厂商把 AI 织入现有 OS 的过渡形态（Copilot+、Apple Intelligence）。它们共同决定了纯粹 LLM OS 何时能真正落地。

Google DeepMind

AI Pointer / Magic Pointer

2026.05.12 · 研究发布 + Googlebook 落地

核心突破：把 58 年未变的鼠标指针，从"位置指示器"变成"意图解释器"。系统持续分析光标下方内容，理解视觉语义上下文，支持"指 + 说"的自然指示。

四个设计原则：① Maintain the flow（不打断工作流，AI 来适应用户而非反之）；② Show and tell（指示代词 "这个""那个" 可以携带完整意图）；③ Turn pixels into actionable entities（手写笔记→待办事项，视频帧→餐厅预订）；④ 语音 + 视觉融合（不需要完整句子，上下文已经提供了大部分信息）。

产品落地：Google AI Studio 实验版已可用；Magic Pointer 将随 Googlebook 笔记本电脑推出（2026 秋）。Demis Hassabis 亲自称之为"pretty magical"。

屏幕视觉上下文空间上下文意图预推断层Chrome + Googlebook

Thinking Machines Lab · Mira Murati

TML-Interaction-Small

2026.05.12 · 限量研究预览

核心突破：为"交互"本身训练的模型——不是 LLM 上加语音层，而是从零开始设计"能听能看能说"的架构。以 200ms 微回合（micro-turn）为单位处理音视频流，真正实现全双工（同时听说）。

Multi-Stream Micro-Turn Design：音频、视频、文字三个流并行处理。模型能感知停顿、识别打断、理解视觉线索——不需要用户说完整句子。响应延迟 0.4 秒，接近人类对话节奏。

双模型架构：276B MoE（12B 活跃参数）轻量 Interaction Model 常驻实时对话；Background Model 异步处理复杂推理和工具调用，注入结果时不中断对话流。

目前限制：超长会话会产生"上下文膨胀"（视频流积累过快）；更大变体 2026 年晚些时候发布。

音频上下文全双工200ms 微回合持续感知层分层推理架构

Microsoft · Copilot+ PC

Windows Recall + Click to Do

2025–2026 · 逐步推出

核心功能：Recall 每隔几秒拍摄一次屏幕截图[28]，用 AI 分析并建立可搜索的语义索引——"帮我找那个紫色图表的 PPT"就能立即定位。Click to Do（相关功能）则在截图上识别可操作实体。

硬件要求：Copilot+ 认证要求至少 40 TOPS NPU，这是运行持续屏幕分析所需的最低算力基线。16GB RAM + 256GB 存储。Microsoft 称 2026 年是 AI PC 投资的最佳时机。

争议点：隐私担忧导致初期延迟。2026 年 1 月曾暂停部分 Copilot 集成。2025 年已向 Windows Insiders 开放，现在可供所有 Copilot+ PC 用户使用。

历史时间轴上下文屏幕视觉上下文40+ TOPS NPU本地处理

Apple · iOS 26 / macOS 26

Siri on-screen awareness + personal context

2026 · 延迟后推出（macOS 26.4）

核心功能：on-screen awareness 让 Siri 理解并操作屏幕内容[29]——"把这个地址加到他的联系人"，Siri 知道"这个地址"在当前短信里，"他"是谁，并直接执行跨应用操作。personal context 让 Siri 访问设备上所有数据（邮件、笔记、日历、照片）来回答个性化问题。

苹果的技术路线：在设备端运行约 3B 参数模型（KV-Cache 共享 + 2-bit 量化感知训练），iOS 26 的 Neural Engine 达 50 TOPS，支持实时 4K 视频分析。复杂任务通过 Private Cloud Compute 到云端，但隐私保护架构独特——服务器上的数据对 Apple 本身也不可见。

屏幕上下文应用上下文个人历史上下文端侧 3B 模型50 TOPS Neural Engine

Google · Android / Pixel

Gemini Nano 4 + AICore

2025–2026 · 全线旗舰设备

核心突破：Gemini Nano 4 在手机上的性能超越了数据中心运行的 Gemini 1.0 Pro[30]——这是 AI 发展的一个历史节点。架构来自 Gemini 2.5 的蒸馏版本。

AICore 系统服务：Gemini Nano 以 Android AICore 系统服务的形式运行，利用设备硬件（Tensor G4 / Snapdragon）加速推理，保持低延迟。应用无需关心底层硬件差异，只需调用 AICore API。对每个应用的 NPU 使用配额有限制，防止单一应用霸占算力。

持续感知场景：通知摘要（实时分析所有通知）、情景推断（当前上下文建议下一步操作）、Gemini Live（实时对话）。

设备端推理系统级 AI 服务超越 Gemini 1.0 Pro应用上下文

Qwen3.5-Omni

Alibaba · Qwen Team

Qwen3.5-Omni

2026.03 · 开源发布

核心能力：256K Token 上下文（约 10 小时音频或 400 秒 720p 视频）、Thinker-Talker 分离架构（类似 Thinking Machines 的双模型设计）。支持语义打断（理解什么时候可以打断用户）、轮次意图识别、实时多模态处理。

Thinker-Talker 架构：Thinker 负责深度推理，Talker 负责实时音频生成，两者共享一个主干网络但各自专注不同功能——这使得模型能在"思考"的同时保持对话流畅，而不产生"我在想……"的暂停。

实例：开发者可以录制一段指向 UI 元素的视频，同时口述 bug，模型直接生成修复代码——视觉 UI 层次结构、口头意图、代码逻辑三者直接融合。

256K 上下文语义打断Thinker-Talker 架构全模态原生

LFM2.5 · Liquid AI

Liquid AI

LFM2.5 Audio + VLM

2026.02 · 发布

核心突破：音频推理速度比上一代提升 8 倍[31]，原生端侧多模态——不使用 VAD（语音活动检测）→ LLM → TTS 的拼接式 pipeline，而是原生处理音频，消除了组件间的信息隔离，大幅降低端到端延迟。

目标场景：始终在线的端侧 Agentic AI——车载、手机、IoT 设备上的实时语音助手。"LFM2.5 使任何设备都能访问私有的、快速的、始终在线的智能"。

Liquid 基础模型（LFM）架构：混合结构（结合 SSM/Mamba 特性），Memory-efficient 推理，特别适合持续运行的长时间交互场景。

8x 音频加速原生音频处理端侧常驻车载 / IoT

Google · Gemma 4 / ExecuTorch（Meta）

端侧多模态基础模型生态

2025–2026 · 持续完善

Gemma 4（Google）：E2B/E4B 端侧变体支持文字+图片+音频+视频，仅需 2GB RAM，128K-256K 上下文窗口。图像理解能力包括：屏幕/UI 理解、OCR、手写识别[32]、图表理解、文档解析——正是持续感知层所需的基础能力。

ExecuTorch（Meta）：2025 年 10 月发布 1.0 GA，50KB 基础占用，支持 12+ 硬件后端（Apple、Qualcomm、ARM、MediaTek、Vulkan）。Meta 已在 Instagram、WhatsApp、Messenger、Facebook 上线，服务数十亿用户。开源端侧推理的事实标准正在成型。

Gemma 4 · 2GB RAM屏幕/UI 理解ExecuTorch · Meta50KB 占用12+ 硬件后端

16 · 高速推理连接

🎯 为什么下一代 OS
是高速推理场景的终极形态

下一代 OS 不只是高速推理的"又一个用例"——它是所有其他用例的底层操作环境。理解这一点，就理解了为什么整个行业都在同时向这个方向发力。

关键分析

下一代 OS 对推理速度的要求：比所有其他场景都更苛刻

本报告此前讨论的所有高速推理场景（实时编程、Agentic 工作流、语音对话、SOC 安全运营），都是在已知的、固定的交互模式下对速度有极高要求。下一代 OS 的不同之处在于：它对速度的要求是多个时间尺度同时运行，且每一层都有自己的硬性实时性约束。

用一个类比来理解：此前的场景是"在高速公路上开快车"；下一代 OS 是"同时控制飞机的多个飞行系统，每个系统都有不同的响应时间要求，而且任何一个系统慢了都会影响飞行"。

推理层次	时间约束	技术挑战	部署位置
持续感知层屏幕分析 / UI 理解	<16ms	持续视觉理解（60fps 级），逐帧分析光标下方与屏幕语义	本地 NPU 专用不可走云端
音频流处理 TML Micro-turn	200ms / 块	无缝全双工，支持打断，连续处理而非等待说完	端侧 + 云端最低 0.4s 端到端
意图预推断 AI Pointer hover	<200ms	多模态融合（视觉 + 语言），在用户说话之前预计算意图	简单端侧复杂走云端
响应生成语音 / 文字输出	<500ms	保持自然对话节奏，不能有"我在想…"的停顿	云端高速推理
工具执行 / 生成工具生成层	<2s	高速推理（1,000+ TPS），复杂任务异步执行	云端高速芯片
持久记忆检索 Recall / Memory	<1s	语义搜索 + 向量索引，覆盖所有历史上下文	本地索引 + 云端
上下文膨胀控制 Context Bloat	持续管理	视频流积累速度 > 处理速度，需上下文压缩与智能遗忘	推理引擎层

上下文膨胀（Context Bloat）是核心工程挑战。Thinking Machines 在发布时明确承认[27]：超长会话中，连续的音视频流积累上下文的速度，可能超过模型消化的速度。这不是一个理论问题——在实验室测试中已经出现。解决方案是上下文压缩（Context Compression），将已处理的历史上下文蒸馏为更紧凑的表示，丢弃低价值细节，保留高价值语义。这是下一代 OS 场景独有的推理系统工程挑战。

维度	此前高速推理场景	下一代 OS 场景
触发方式	用户主动触发（点击/输入/说话）	持续被动感知，用户随时可用极短表达触发
推理频率	离散请求，间歇性高峰	持续流式，多时间尺度并发
上下文	每次请求需要用户重新提供	OS 持续维护全维度上下文，用户无需解释
速度需求	通常是"更快更好"的优化问题	多层硬性实时性要求：16ms / 200ms / 2s 三个门槛
硬件部署	主要是云端专用推理芯片	端侧 NPU（持续感知层）+ 云端高速芯片（复杂推理）混合
关键工程挑战	吞吐量 vs 延迟的 Pareto 优化	上下文膨胀控制 + 多层推理时序协调
超线性效应	场景特定的阈值超线性	整个交互范式从"不存在"到"存在"的范式解锁

端侧 vs 云端的新分工

持续感知层（<16ms）必须在端侧运行——无法承受云端往返延迟。意图推断层（<200ms）取决于任务复杂度，简单意图可端侧，复杂意图走云端。工具执行层（<2s）复杂推理走云端高速芯片。这是端侧 NPU（50 TOPS+）和云端推理芯片（Cerebras/TPU 8i）的真正分工。

高速推理让 AI OS 从"功能"变为"OS"

Apple Siri 的 on-screen awareness 一旦推理速度不足，就只是"一个能分析屏幕的助手"；速度足够时，它变成了"OS 层面的意图理解器"。Microsoft Recall 速度不足时是"搜索功能"，速度足够时是"时光机式的操作系统记忆"。速度是 AI 功能升华为 OS 能力的临界变量。

上下文膨胀是下一代 OS 的新工程前沿

视频流以 4-6 Mbps 的速度持续产生数据，1 小时视频约等于数百万 Token 的原始信息。下一代 OS 需要在实时感知的同时持续压缩历史上下文，保留"最重要的记忆"而非全部记忆。这将催生专门的上下文管理引擎——这是 vLLM / SGLang 下一个需要突破的工程挑战。

17 · 接口革命史

🕰️ 人机接口六次革命：
每次都需要新的基础设施

理解当前这一波变革的规模，需要从历史视角来看。每一次人机接口的革命，都不是"更好的旧东西"，而是一种全新的交互模式——而每一次都需要与之匹配的新基础设施。

年份	交互范式	关键创新	所需新基础设施
1968	鼠标指针 Engelbart	人类首次用"指向"代替"输入"命令。Doug Engelbart 的 Mother of All Demos 展示了鼠标、窗口、超链接——计算机从打卡机变成交互工具。	光学传感器 + 向量图形显示
1984	图形界面 Apple Mac	用图标和窗口代替命令行，让计算机对非技术用户开放。"所见即所得"成为基本范式。	位图显示芯片 + 足够的 RAM 存储 UI 状态 + 位图字体渲染引擎
1995	Web 超链接浏览器	用"导航"代替"本地文件管理"，信息不再存在于本地，而是在互联网上。	TCP/IP 普及 + HTML 解析引擎 + 宽带接入
2007	触摸界面 iPhone	用手指直接操作代替鼠标和键盘，计算机从桌面走向口袋。"直接操作"取代"间接指示"。	多点触控电容屏 + 移动 GPU + ARM 低功耗架构
2014	语音助手 Alexa / Siri	用自然语言命令代替点击操作。但仍是"请求-响应"的轮流模式，AI 不理解上下文，需要完整命令句。	云端 ASR + NLU 大幅改进 + 低成本麦克风阵列
2026	AI 感知界面 AI Pointer / TML	用"全维度实时上下文 + 超高速推理"代替所有"告诉 AI 你在做什么"的摩擦。指向 + 说最短的话 = 完成复杂任务。AI 不再是你要"去找"的工具，而是持续感知你环境、随时可用"这个""那个"触发的计算能力。	端侧 50+ TOPS NPU + 云端 1000+ TPS 推理 + 上下文管理引擎 + 多模态实时融合模型

"The way we work with AI matters as much as how smart it is. By focusing on messy, visual, and spoken collaboration, Thinking Machines is carving out a niche for AI in high-stakes environments — surgical suites, manufacturing floors, and creative studios — where every millisecond of human-AI synchronicity counts." 「我们与 AI 协作的方式，和 AI 有多聪明同样重要。通过专注于真实、视觉化、口语化的协作，Thinking Machines 正在为 AI 开辟一个高风险场景的利基市场——手术室、制造车间、创意工作室——在这些地方，人机同步的每一毫秒都至关重要。」 — Mira Murati，Thinking Machines Lab，2026.05.12 发布声明

18 · 范式结论

🌐 下一代 OS 是高速推理
所有场景的共同归宿

为什么 2026 年 5 月的这一周，是范式转变的标志性时刻

同一周三个独立方向的汇聚，是最有力的信号。Google DeepMind AI Pointer（2026.05.12）、Thinking Machines Interaction Models（2026.05.12）、Apple on-screen awareness 落地——这三个团队互相独立，来自不同的公司，使用不同的技术路线，却在同一周指向了同一个结论：下一代 OS 的核心范式是全维度实时上下文 + 超快推理内核。这种汇聚，通常是一个技术转折点成熟的信号。

"全维度实时上下文"重新定义了什么是 OS。传统 OS 是"你要告诉它你想做什么"的被动执行者。新的 OS 是"它已经知道你在做什么，你只需要说明方向"的主动协作者。AI Pointer 把这一点凝练为一句话："我们想要的是：AI 主动跨越用户使用的所有工具去适应用户[25]，而不是反过来。"这是对 58 年 OS 设计哲学的一次根本性倒转。

"超高速推理内核"是这一范式存在的物理前提。持续感知层需要 <16ms（端侧 NPU），意图预推断需要 <200ms（跨越人类感知阈值），即时工具生成需要 <2s（跨越工具生成感知阈值）。任何一层慢了，整个体验就从"流畅的 AI OS"退化为"有摩擦的 AI 功能"。高速推理不只是让某个具体场景"更好"——它是让整个新范式"能存在"的物理基础。

上下文膨胀将是下一代推理工程的新前沿。持续的音视频流以远超文字的速度积累信息。Thinking Machines 已经承认这是当前的主要工程挑战。这将催生专门的上下文管理引擎（上下文压缩、智能遗忘、分层记忆），成为推理引擎层（vLLM、SGLang、TokenSpeed 之后）的下一个竞争维度。

下一代 OS + AI Pointer = 完整的范式图景。AI Pointer 解决了"如何与 OS 交互"（输入层），下一代 OS 解决了"OS 如何响应"（输出层），LLM Kernel 是中间的推理层。三者合在一起，构成了"你描述你想要什么，OS 生成能做到这件事的工具并立即执行"的完整闭环。这是计算历史上第一次，软件的边界不再是"已安装的应用"，而是"可以被描述的需求"。

速度是这一切的起点，而不是终点。当推理足够快，上下文感知足够全面，交互的摩擦消失时，我们不只是得到了一个"更快的 AI 助手"——我们得到了一种全新的计算范式：AI 不在任何一个窗口里，而在你的操作系统里。它不等待你的命令，而是持续感知你的意图。这是自 1984 年 Mac GUI 以来，人机交互最根本的一次重构。

19 · 落地建议

🧭 从业者行动指南：
三类角色的落地建议

高速推理的范式变化已经发生，但不同角色的应对策略差异巨大。以下是面向应用开发者、基础设施团队、技术决策者的具体建议。

💻

对应用开发者

App Developers

从 Day 1 设计 latency budget。明确每个产品场景的端到端延迟门限（语音 <800ms、交互 IDE <500ms TTFT、Agent 单步 <2s），反向推算 LLM 步骤可用的 token/s 和 TTFT。如果做不到，立即考虑切换提供商或拆分任务到更小模型。

建立"推理套利"路由层。用 LiteLLM、OpenRouter、Portkey 这类 gateway 把延迟关键流量路由到 Groq/Cerebras 的开源模型，背景批处理路由到 DeepInfra、Together、Fireworks 的低价线，复杂 reasoning 走 GPT-5/Claude/Gemini。Voiceflow 的实践：voice agent 用 Groq、agent logic 用 Fireworks、批处理用 DeepInfra。

分层 Agent 架构是默认。不要把所有内部决策都喂给旗舰模型。SmolLM3、Qwen3-4B-Instruct、Gemma 4 E2B、Phi-3-Mini 等 3–4B 模型在工具调用、路由、参数校验上完全够用，且能在 LPU/CPU 上以极低延迟跑。小型快速模型处理 80% 的低复杂度决策，只有真正困难的步骤升级到旗舰模型。

拥抱扩散 LLM 实验。Mercury 2 已在 Cursor、Kilo Code 等场景验证。对编辑类、自动补全类、Agent 中间决策类等"context 大、output 小"的任务，扩散 LLM 是当前性价比最高的选择，且不依赖特殊硬件。

🌐

对基础设施 / 平台团队

Infrastructure & Platform

如果做多轮 Agent 或 RAG，用 SGLang 而非默认 vLLM。RadixAttention 在共享 system prompt + tool definitions 场景下的 TTFT 优势可达 2–10×；LMCache 提供更复杂的跨节点 KV 缓存（GPU/CPU/Disk/Redis 分层）。

打开 speculative decoding。EAGLE-3 在 Llama 系列模型上提供 2–6× 加速且开源，配合 vLLM/SGLang 部署成本低。对工具调用和结构化输出场景（高度可预测，草稿接受率高）效果尤其显著。

🏢

对决策者 / CFO

Decision Makers & CFO

跟踪 token 单价但管控总账单。单价年降 10× 是真的（参考 Stanford HAI 280× 数据），但 agent 工作流让单请求 token 消耗指数级增长。建立 FinOps 维度的 per-task / per-user / per-feature token 监控，否则会重蹈 Notion（毛利率 -10pp）覆辙。设定门槛：当单一应用的月推理成本 > 25% 毛利率时，强制评估架构（路由、缓存、模型 down-sizing）。

不要 hardcode 单一 vendor。所有 API 走 OpenAI 兼容 wire protocol（基本已是事实标准），换 backend 应是配置变更而非代码重构。NVIDIA 收购 Groq、Cerebras 与 OpenAI 锁死 750MW（可扩 2GW）、Anthropic 被排除——hardware supply 正在重新分配，2026–2028 还会有结构性洗牌。

⚠ 触发重新评估的阈值

▶

你的 voice/realtime 产品 churn 高于行业基线 → 实测端到端延迟，超过 800ms 立即换 backend

▶

Agent 单任务平均 token 消耗 >100k → 评估是否能用小模型 + 工具拆分

▶

月推理账单年增长 >2× 而 DAU 增长 <1.5× → 触发架构审计

▶

旗舰模型 TTFT >2s 影响交互产品留存 → 切换到 Flash/Haiku/Mini 层或专用快速模型

▶

开始部署 reasoning 模型 → 必须在 Cerebras/Groq 上跑，或接受用户离开

20 · 重要警示

不要忽略的
七个变量 ⚠️

高速推理的叙事令人兴奋，但严肃的分析需要同样严肃地对待其中的不确定性、夸大成分和未解问题。

Benchmark 与真实负载存在差距

Groq、Cerebras 的"破纪录"数字几乎都基于 single-request、特定 prompt 长度、特定 batch size。真实应用通常实测 70–90% 的 benchmark 峰值；长 system prompt、网络地理延迟、并发排队都会显著降低。Cerebras 自己也提示："观察到的推理速度提升可能因工作负载、配置、日期和测试模型不同而变化。"

NVIDIA 收购 Groq 的整合存在不确定性

200 亿美元被结构化为"非独家许可"而非收购以规避反垄断（NVIDIA 在 AI 加速器市场已有 85–90% 份额）。GroqCloud 继续独立运营，但创始团队已进 NVIDIA——长期看 LPU 架构会被吸纳进 NVIDIA 路线图，独立 LPU 软件栈是否还会持续投入是开放问题。

专用硬件的成本与可达性约束

单 CS-3 节点功耗 25kW、单价高达 300 万美元；服务 70B 模型需要数百芯片协同。第三方分析指出某些通用 throughput 场景下专用硬件 TCO 比 H100 高数十倍——只在 latency-critical 场景才有商业意义。这是为什么 Cerebras/Groq 的客户故事几乎都是"GPU 做不到"而不是"GPU 太贵"。

扩散 LLM 的质量上限仍未知

Inception Mercury 2 创始人 Stefano Ermon 直言：质量水平对标 Claude Haiku、Google Flash，而非 Opus/GPT-5 旗舰。Google Gemini Diffusion 还停留在"experimental"。扩散架构是否能 scale 到 frontier 质量，是 2026–2027 的关键开放问题。

HCI 研究的样本仍然太少

关于 TTFT/tok/s 如何影响用户行为的严谨对照实验非常有限——Tan et al. CHI 2026 和少数边缘 LLM 论文几乎是仅有的几份。许多"用户 3 秒后弃用"的数字源自 Nielsen Norman Group 90 年代 web UX 研究的再包装，不一定适用于 LLM 场景。这是一个公开的学术 gap。

价格战的可持续性存疑

DeepSeek R1 比 OpenAI 同等模型便宜 20–50× 是真，但分析显示最便宜的提供商可能在亏损经营以抢占份额。OpenAI 2025 年 200 亿美元以上 ARR 对应推理成本 84 亿美元——证明 token 单价可能不反映边际成本。一旦 VC 和 hyperscaler 交叉补贴停止，企业实际成本会比当前规划更高。

Reasoning 模型把 TTFT 拉成新瓶颈

GPT-5 (high) 的 TTFT 116 秒、GPT-5.5 (xhigh) 的 TTFT 160+ 秒不是 bug 而是 feature——模型在生成内部 thinking token。这意味着传统的"TTFT 越低越好"指标在 reasoning 时代被部分推翻，新的指标应是"第一个有用 token 时间"或"任务完成时间"。Cerebras Scaling Law 的主张恰好在此：用速度换 reasoning 深度，而非速度本身。

我们为什么需要一个高速推理高速推理高速推理高速推理高速推理的AI 模型？

📋 TL;DR：速度已成为产品能力的一阶变量

📈 线性 vs 超线性：速度提升的业务倍增效应

💰 推理赛道资本与产品浪潮：2026 年初全面加速

单价暴跌，总账单却暴涨：高速推理时代的成本真相

⌨️ 编程 × 高速推理：消除等待 = 消除认知税

🔄 延迟复利效应：每步等待如何叠加为指数级损耗

🎙️ 延迟阈值与神经感知：300ms 法则背后的量化数据

🛡️ 攻击者的时间 vs 防守者的时间：MTTD/MTTR 的超指数级业务价值

🧠 超越 Test-Time Scaling：提出"单位时间智能（IPuT）"新框架

单位时间智能：速度作为智能倍增器

🛒 速度与消费者心理：0.1 秒为何能带来 40% 转化率提升

🏢 Google TPU 那句话，意味着什么企业级 AI 机会？

"连续多步骤推理循环"是企业 AI 转型的基础设施宣言

⚙️ 六大硬件 × 五条架构路线 × 六大推理引擎

稠密 Transformer

混合专家模型

状态空间模型

混合架构

扩散语言模型 — 打破自回归范式

🗺️ 完整技术选型矩阵 & 核心结论

核心结论：速度的超线性效应重写了 AI 价值方程

🖥️ 从"查询-响应"到"持续感知-实时推理"

操作系统的下一代形态：全维度实时上下文 × 超高速推理内核

👁️ 五个维度同时运行：什么构成了"全维度实时上下文"

🏗️ 三层推理栈：每一层都有不同的速度要求

🔭 谁在构建下一代 OS：从纯粹 LLM OS 到交互层

🎯 为什么下一代 OS是高速推理场景的终极形态

下一代 OS 对推理速度的要求：比所有其他场景都更苛刻

🕰️ 人机接口六次革命：每次都需要新的基础设施

🌐 下一代 OS 是高速推理所有场景的共同归宿

为什么 2026 年 5 月的这一周，是范式转变的标志性时刻

🧭 从业者行动指南：三类角色的落地建议

不要忽略的七个变量 ⚠️

我们为什么需要
一个高速推理的
AI 模型？

📋 TL;DR：速度已成为
产品能力的一阶变量

📈 线性 vs 超线性：
速度提升的业务倍增效应

💰 推理赛道资本与产品浪潮：
2026 年初全面加速

⌨️ 编程 × 高速推理：
消除等待 = 消除认知税

🔄 延迟复利效应：
每步等待如何叠加为指数级损耗

🎙️ 延迟阈值与神经感知：
300ms 法则背后的量化数据

🛡️ 攻击者的时间 vs 防守者的时间：
MTTD/MTTR 的超指数级业务价值

🧠 超越 Test-Time Scaling：
提出"单位时间智能（IPuT）"新框架

🛒 速度与消费者心理：
0.1 秒为何能带来 40% 转化率提升

🖥️ 从"查询-响应"到
"持续感知-实时推理"

👁️ 五个维度同时运行：
什么构成了"全维度实时上下文"

🏗️ 三层推理栈：
每一层都有不同的速度要求

🔭 谁在构建下一代 OS：
从纯粹 LLM OS 到交互层

🎯 为什么下一代 OS
是高速推理场景的终极形态

🕰️ 人机接口六次革命：
每次都需要新的基础设施

🌐 下一代 OS 是高速推理
所有场景的共同归宿

🧭 从业者行动指南：
三类角色的落地建议

不要忽略的
七个变量 ⚠️