速度的提升,在大多数工程领域是线性的——快一倍,效率提升一倍。但在 AI 推理场景中,速度提升对业务的影响往往是超线性甚至指数级的。本报告深度分析:哪些场景效果倍增最大、下一代操作系统如何重新定义人机交互、以及当推理足够快时,什么样的计算范式才成为可能。
当推理吞吐从典型 GPU 的 30–100 tok/s 跃升到 LPU / WSE 平台的 1,000–2,800 tok/s 时,触发了三类不可逆的范式变化。以下是本报告的核心结论速览。
高速推理对业务的影响,远不是简单的"快了多少倍"。在某些场景中,速度每提升一倍,业务价值可能提升三到五倍——因为速度跨越了一个认知或行为阈值。
| 应用场景 | 速度效益性质 | 核心超线性机制 | 关键阈值 | 量化指标 |
|---|---|---|---|---|
| 实时交互式编程 | 超线性 🚀 | 消除上下文切换带来的 23 分钟认知重建成本 | 等待时长超出"保持专注"临界点 | 每次中断 = 23 分钟损失(UC Irvine) |
| 多步骤 Agentic 工作流 | 超线性 🚀 | 延迟复利:每步等待叠加,整体耗时指数级 | 20 步链式任务的总时间 | 80 TPS: 4 分钟;10,500 TPS: 20 秒(Morph) |
| 实时语音对话 | 超线性 🚀 | 神经延迟感知阈值:300ms 潜意识感知 → 1s 呼叫放弃 | 300ms / 500ms / 1,000ms 三个阶梯 | 1 秒延迟 → CSAT 降 16%;放弃率 +40%(Forrester/J.D. Power) |
| SOC 安全运营 | 超线性 🚀 | 攻击破坏力随时间指数级增长;每分钟 MTTD 的边际价值递增 | MTTD 10 分钟 vs 4 小时 | IBM:AI 缩短 80 天违规生命周期,节省 $1.9M / 次[10] |
| Test-Time Compute | 超线性 🚀 | Best-of-N 质量遵循缩放定律:N 越大质量对数提升 | N 路采样的质量-时间 Pareto 前沿 | 固定时间内 Mamba 可超越 Transformer 教师模型质量 |
| 消费级 Search/电商 | 超线性 🚀 | 消费者心理阈值:2-3 秒触发压力反应;速度与品牌感知关联 | 2 秒(期望)→ 3 秒(放弃临界) | 0.1 秒改善 = 奢侈品转化 +40.1%(Magnet) |
| 药物发现批量处理 | 线性 | 吞吐量直接等于单位时间可筛选分子数 | 无特殊阈值 | 速度 2x = 探索空间 2x(近似线性) |
| 高并发消费产品成本 | 线性 | TPS 提升直接等于基础设施成本降低 | 无特殊阈值 | TPS 2x = 基础设施成本 ÷2(近似线性) |
截至 2026 年 5 月,推理芯片已成为 AI 硬件投资最热门的细分赛道。本轮资本浪潮背后是一个清晰的产业共识:AI 从实验走向部署,推理是真正产生收入的节点。
一面:LLMflation(推理通缩)。Stanford HAI 2025 AI Index 数据显示,达到 GPT-3.5 同等质量的推理成本,从 2022 年 11 月的 20 美元/百万 token 跌到 2024 年 10 月的 0.07 美元/百万 token——280 倍跌幅[37]。同期硬件成本每年降 30%、能效每年升 40%。Epoch AI 估算整体推理成本下降速率约为每年 10×,部分任务接近 200×。Andreessen Horowitz 将这一现象命名为"LLMflation"[48]。
另一面:Tokenmaxxing(token 消耗暴涨)。但企业的 AI 总账单不降反升。Notion 披露毛利率因 AI 被拖累 10 个百分点;OpenAI CFO Sarah Friar 2026 年 1 月披露公司 2025 年 ARR 超 200 亿美元(从 2023 年的 20 亿、2024 年的 60 亿跳升),但 2025 年推理成本高达 84 亿美元[43]。原因正是 Agentic 工作流和 reasoning 模型让单请求 token 消耗指数级增长——这就是"tokenmaxxing"现象。FinOps Foundation 2026 报告:企业 AI 年均预算从 2024 年的 120 万美元涨到 2026 年的 700 万美元,推理占企业 AI 预算的 85%[50]。
对高速推理的启示:速度提升降低了单 token 成本,但也解锁了更密集的 token 使用模式(Test-Time Compute、多步 Agent、长上下文)。速度越快,单位时间能消耗的 token 越多——这意味着高速推理本身就是 tokenmaxxing 的加速器。FinOps 维度的 per-task token 监控,将和延迟监控同等重要。
这是目前商业落地最清晰的场景,也是超线性效应最显著的场景之一。关键不在于"快了多少",而在于是否跨越了"任务切换决策阈值"。
在慢速推理模型(80 TPS)条件下,一个 Agentic 编程任务每个文件操作需要等待 12 秒。这 12 秒是一个心理临界点——开发者面临两个选择:①盯着屏幕等(消耗焦虑感,效率降低);②切换到另一个任务(Slack 消息、另一个 PR……)。
一旦选择切换,付出的代价不是"12 秒损失",而是"23 分钟 15 秒[1]的重新专注税"(Dr. Gloria Mark, UC Irvine《The Cost of Interrupted Work》)。这就是超线性效应的核心:12 秒等待 → 23 分钟损失,实际代价放大了 115 倍。
OpenAI Codex-Spark(2026.02 上线)基于 Cerebras WSE-3,速度超 1,000 TPS,比此前 Codex 版本快约 15 倍。这是 OpenAI 首个运行在非 Nvidia 硅片上的生产模型,标志着 AI 顶级实验室正式开始多元化硬件策略。
Faros AI 分析(2025 年 7 月,超过 10,000 名开发者跨 1,255 个团队)的数据显示:高 AI 采用率的团队每天与 9% 更多任务和 47% 更多 PR[3] 交互。看似生产力提升——实际上是因为 AI 慢,开发者被迫并发多任务来"填满等待时间"。
这形成了一个恶性循环:AI 等待 → 切换任务 → 上下文碎片化 → 代码质量下降 → 更多错误 → 更多时间修复。Augment Code 的 METR 研究发现,AI 工具引入了"额外认知负担和上下文切换",导致有经验的开发者生产力下降了 19%[2]。
当 AI 速度超过 1,000 TPS,每个文件操作在不到 1 秒内完成,开发者不需要切换任务——因为等待时间短于人类做出"切换决策"的心理反应时间(约 2–5 秒)。这一阈值的跨越,将"被迫并发"变为"选择专注",从而:
① 保持深度工作(Flow State):流心理研究(Frontiers in Psychology)显示,Flow 需要持续认知投入而不被打断;
② 消除上下文切换代价:开发者工具切换平均每小时 35 次(各研究数据),每次 2–3 秒的等待会积累为碎片化认知;
③ 代码质量提升:被中断任务包含的错误是未中断任务的 2 倍(研究一致结论)。
Morph 的关键数字:20 步 Agentic 编程任务,在 80 TPS 下每次文件写入 12 秒[4],总计约 4 分钟。在 10,500 TPS 下,20 次操作 20 秒内完成。但这还不是全貌——在快速推理下,开发者不需要切换任务,因此节省的不只是 4 分钟,而是 4 分钟 × (1 + 23 分钟 × 切换次数)。
Cognition SWE-grep-mini:专用代码搜索子 Agent 跑到 2,800 tok/s,比 Haiku 4.5(140 tok/s)快 20×[40],把"几十秒"的上下文检索压到"几秒"。Scott Wu 总结:"当 Agent 以约 1000 tok/s 运行,你就有机会一起优化 Agent 的所有部分。"Drew Breunig 独立测试:Qwen3 Coder 在 Cerebras 上 4 秒写完 1,000 行 JavaScript,Claude 4.5 Sonnet 需要 2 分钟——约 30× 差距。Win Fast or Lose Slow(arXiv 2505.19481)给出量化框架:实时对抗类任务速度优先("及时但次优的行动往往带来胜利"[41]),高频交易类任务对延迟和质量双重敏感。
Agentic 工作流的链式结构,使推理速度的边际价值随任务步骤数指数级增长——这是推理速度在企业场景中最直接的超线性表现。
Agentic 工作流规划、调用工具、反思结果、汇总、再规划,循环往复。一个 Agentic 任务可消耗 50,000–500,000 Token,横跨数十次推理调用。每一步都等待上一步的结果——这意味着延迟在链式结构中线性叠加,而不是均摊。
"Without this level of inference speed, the latency profile of autonomous enterprise agents becomes a workflow bottleneck rather than a productivity asset."——这不只是一个技术描述,而是 Google 对企业 Agentic AI 市场的一个核心判断:推理速度是 Agentic AI 从"技术演示"到"生产力基础设施"的临界变量。
LightSeek TokenSpeed(2026.05,最新发布)为此专门设计了双目标优化:最大化"每 GPU 每分钟 Token 数"(服务器效率)的同时,维持"每用户 TPS 下限"(通常 70 TPS,有时需 200+ TPS)。在 SWE-smith 生产级 Agent 流量迹 Benchmark 上,比 TensorRT-LLM 快约 9–11%[6]。OpenRouter 2025 年 100 万亿 Token 研究报告显示:Agentic 推理模式正快速超越单轮对话,成为主要用法。AI Agent 市场 2025–2030 年 CAGR 46.3%(多方分析机构预测)。
语音 AI 是高速推理超线性效应最容易量化的场景——因为人类的神经感知阈值是硬性的,跨越阈值前后的用户行为发生断崖式变化。
典型语音 AI Pipeline 的时间成本:EOU 检测 150ms + 网络传输 100ms + STT 处理 400ms + LLM 推理 350–3,000ms(普通模型 350ms,GPT-4 推理模式约 3,000ms)+ TTS 合成 200ms + 网络回传 100ms + SIP 处理 150ms = 总计 800ms–4,100ms+。
2025 年行业基准:可接受的语音 AI 端到端响应时间 <800ms。目前多数平台实际表现:Twilio 约 950ms,Vonage 约 800–1,200ms。优化后的系统:sub-500ms 可实现,sub-300ms 目前在专用硬件上可达。
0–300ms:无感知区间——用户感觉"系统在回应",体验自然,与人类对话无异。
300–500ms:潜意识感知区间——用户无法明确说出"感觉慢",但神经层面已开始感知延迟,自然对话节奏开始被打断。调查显示此区间 CSAT 已开始下降。
500ms–1,000ms:显式感知区间——用户明确感知到等待,开始主动填补沉默(重复问题、说"你好?"等),对话质量显著下降。联络中心报告 CSAT 降低。
>1,000ms:放弃区间——呼叫放弃率上升 40%[7](多方数据);J.D. Power 数据显示 68% 的客户在自动化系统感觉缓慢时直接挂机;Forrester 数据:1 秒延迟 = CSAT 降 16%。
高速推理的直接价值:将 LLM 推理从 350–3,000ms 降低到 <100ms(1,000+ TPS 的推理系统),可将总 pipeline 延迟从 800–4,100ms 降低至 500–600ms,跨越了多个体验阈值。这不是"快了 5 倍",而是"体验从放弃到满意的质变"。
游戏 NPC 场景(Inworld 等平台)阈值更苛刻:玩家感知延迟阈值约 100–200ms(与物理世界交互期望一致)。目前绝大多数 NPC 对话质量低下的根本原因之一,正是 LLM 推理速度不足。
Tenali(语音销售 Agent):切换到 Groq 后延迟下降 25× 以上、成本下降 10×,销售周期缩短 33%,销售代表生产力提升 4×[49]。GPTZero:从 GPT-4o mini 迁移到 Groq 上的 Llama 3.1 8B,端到端响应时间改善 7×,原本 10–15 秒的任务降到约 2 秒,年化成本降低 50%——服务 1000 万以上用户。Fintool:切到 Groq 后聊天速度提升 7.41×、成本下降 89%,CEO 称"我被震撼了,于是我们把 token 消耗量翻了三倍"——这正是 tokenmaxxing 的微观写照。Mem0:延迟下降近 5×,"解锁了真正的实时交互"。
在安全运营中,时间的价值不是线性的——攻击者的破坏能力随着停留时间指数级增长。这使得 MTTD 每减少一分钟的边际价值递增,而非递减。
行业基准(2026 Softenger SOC Blueprint):MTTD 目标 <10 分钟,MTTR 目标 <1 小时。
当前现状:高性能 SOC MTTD 约 30 分钟–4 小时;低性能 SOC 可能数月未被发现。
AI 效果:MTTD 降低 30–75%;MTTR 降低 45–75%(一致多来源数据)。
极端案例(Elastic 客户):MTTI 从 300 分钟降至 90 分钟;MTTR 从 180 分钟降至 6 分钟(改善 97%)。
IBM 2025 数据:使用 AI 和自动化的组织将违规生命周期缩短 80 天,节省 $1.9M / 次。
勒索软件在发现后的第一个小时内可以加密数千台机器;APT(高级持续性威胁)每小时额外的横向移动意味着更广的感染面积和更难的根除。这意味着:
MTTD 从 4 小时缩短到 10 分钟(缩短约 24 倍),对应的攻击破坏力减少远不止 24 倍——因为前 4 小时攻击者可以完成权限升级、数据窃取、持久化等关键操作;而 10 分钟内只能做早期侦察。
这就是为什么 IBM 的数据是"节省 $1.9M / 次"——不是"快了 24 倍就节省 24 倍时间",而是"快了 24 倍,破坏规模可能缩小 100 倍以上"。
Google 官方将安全运营列为 TPU 8i 的核心目标场景,原因正在此:SOC Agentic AI 需要"持续多步骤推理循环"——实时处理数千条告警、关联跨数据源 IoC、执行 Playbook 遏制措施。这三个操作每一步都是串行依赖的,推理速度慢意味着整个响应链条被拉长。SANS 2025 调查:73% 安全团队将误报列为首要挑战[34],高速 AI 对告警富化和分类的速度提升,直接减少误报引发的"告警疲劳"。
当前关于推理速度与质量的讨论,通常停留在"用更多 Token 换更好推理"。但这忽略了一个更根本的问题:在固定时间预算内,系统能达到的最高智能水平是多少?
传统 Test-Time Scaling(测试时算力扩展)的讨论框架是:消耗更多 Token → 质量更高。这是一个以"Token 为货币"的讨论框架,但它隐含了一个假设:时间是无限的,Token 成本是唯一约束。
现实中,用户交互有时间预算。一个需要实时决策的场景不能容忍"多想 60 秒"。因此,真正的问题是:在固定时间 T 内,系统能达到的最高质量是多少?
这就是单位时间智能(Intelligence Per Unit Time,IPuT)的定义:
关键洞察:在固定时间预算内,速度每提升一倍,可探索的推理路径数翻倍;而 Best-of-N 的质量提升遵循对数规律(每多一路的边际收益递减,但总体超线性)。这意味着:推理速度对"单位时间智能"的影响是超线性的。
《Thinking Slow, Fast》(2025)的研究实证了这一点:用 Mamba 等 SSM 架构,在固定时间内跑出比 Transformer 更多推理链,最终质量超越其 Transformer 教师模型。这是"单位时间智能"框架下的典型超线性效应——速度本身就是一种智能资源,不只是效率指标。
与 Test-Time Scaling 的区别:Test-Time Scaling 问"多少 Token 换多少质量";IPuT 问"给定时间,最多能有多聪明"。前者以资源为轴,后者以时间为轴。在实时场景(SOC、语音、编程、机器人)中,时间才是真正的约束——IPuT 是更适合描述高速推理价值的框架。
当前头部推理模型(o1、R1、Claude 扩展思考系列)的长 CoT 机制,本质上就是在消耗大量 Token 来提升推理质量——推理速度越快,这类模型的可用性越高、成本越低、可探索的推理链深度越大。
ICLR 2025(《Scaling LLM Test-Time Compute Optimally》[13]):证明推理时算力扩展比参数扩展更高效——即给定资源,增加推理时算力的质量收益,优于等价资源用于增加模型参数。
《Thinking Slow, Fast》(arXiv 2025):Mamba 蒸馏模型在固定时间预算下可超越 Transformer 教师模型质量[14]——因为速度让它探索了更多推理路径。
Test-Time Scaling for Agents(arXiv 2025):增加多样化推理路径(diverse rollouts)对 Agent 任务表现有正向效果,且是"提升多样性 > 提升数量"的超线性效应。
实际含义:一个运行在 10,000 TPS 的小型模型,在 10 秒内可以完成 100 路 Best-of-N 采样;一个运行在 100 TPS 的大型模型,同样 10 秒只能完成 1 路。前者的最终输出质量,可能远优于后者——即便后者的单次推理质量更高。这打破了"更大的模型一定更好"的直觉。
Cerebras 的 Sean Lie 和 James Wang 在 2025 年 6 月正式提出 Cerebras Scaling Law[36]:"OpenAI 形式化了测试时计算缩放定律——推理时使用的 token 越多,模型越智能。我们观察到,现实应用的延迟要求约束了可生成的 token 数。因此,使用更多 token 的唯一方法就是提升速度——更快的推理速度带来更高的模型智能。"这与本报告提出的 IPuT 框架高度一致。实证数据:Qwen3 在 Cerebras 上随推理时 token 数增加,性能单调提升,最大差距达 40 个百分点;Qwen3-32B 比 GPT-4.1 快 16×、成本仅为其 1/10。
AI 推理速度对消费级产品的影响,与网页加载速度对电商的影响高度类似——背后有严肃的消费者心理学研究支撑。而这些研究一致指向:速度对用户行为的影响是超线性的。
Amazon 经典研究:每 100ms 延迟 = 1% 销售额损失;2026 年 Amazon 规模下,这意味着约 38 亿美元 / 年(Site Qwality 估算)。
Walmart 研究:每 100ms 速度改善 = 1% 增量收入(Cloudflare 引用)。
Mozilla Firefox:加载时间改善 2.2 秒 = 下载转化率 +15.4%。
Mobify 研究:首页加载 100ms 改善 = 转化率 +1.11%(Cloudflare 引用)。
奢侈品市场(Magnet 2025):0.1 秒速度改善 = 商品详情→购物车转化 +40.1%(这个数字极为震撼——1/10 秒的差异,40% 的转化差异)。
零售综合:0.1 秒改善 = 零售转化率 +8.4%,旅游 +10.1%[18](多项研究)。
1 秒延迟:页面浏览 -11%,转化率 -20%(综合来源)。
神经科学视角(Arjan KC 2026):"The Spillover Timeline[19]"研究显示,消费者耐心基准线在过去十年大幅收缩——受算法社交媒体和边缘分发 AI 影响,用户期望值持续提升。
认知负荷理论:加载等待会增加认知负荷,使大脑处于"不确定状态",引发焦虑(EEG 研究显示慢速网站引发可测量的神经压力反应)。
3 秒阈值(2026 年):1 秒延迟允许用户"思维连续";2–3 秒触发"大脑识别中断",引发轻微应激反应;超过 10 秒产生完全认知脱离(43% 用户报告强烈沮丧)。
品牌感知:53% 消费者将网站速度视为品牌质量的直接体现(不只是功能)——慢速网站对高端品牌的伤害尤其大(奢侈品 40.1% 转化差异的根因)。
对 AI Search 的启示:Google Search 的 AI 结果使用 Speculative Decoding 加速,以保持与传统搜索接近的响应速度。如果 AI 搜索比普通搜索明显更慢,用户会回到普通搜索——这是 Google 宁愿在硬件上大幅投资(TPU 8i,1,800 亿美元资本开支)也要维持速度的根本原因:AI 搜索的速度不达标,整个 AI 转型战略的用户留存基础就会动摇。
Google 声称 Gemini 3.5 Flash 比同类模型快 4 倍,企业迁移每年可节省 10 亿美元以上——这是线性的成本效益。但对于直接面对消费者的场景,这 4 倍速度改善带来的转化率和留存率提升,将是非线性的。
Google Cloud 官网写道:"TPUs provide the memory bandwidth and low-latency inference required to run continuous, multi-step reasoning loops for real-time coding assistants, autonomous customer service, and security operations." 这句话是一个精心设计的市场定位声明,每一个词都值得拆解。
"continuous multi-step reasoning loops"(连续多步骤推理循环)——这是关键词。它不是"复杂的一次性查询",不是"大型语言模型生成",而是循环(loop)。这一个词,定义了企业 Agentic AI 的基础计算模型:AI 不是被动等待问题,而是主动循环执行——感知 → 推理 → 行动 → 感知 → 推理 → 行动……
这一判断背后隐藏着 Google 对企业 AI 转型方向的核心战略判断:企业软件的下一代形态是持续运行的 AI 循环,而不是点对点的 AI 查询。
对企业 AI 机会的三层解读:
① 基础设施层机会:如果企业 AI 转型的基本模式是"连续多步骤推理循环",那么推理基础设施的采购量将是当前的 10–100 倍(每个业务流程持续消耗 Token,而非偶发性查询)。Google 明确说明,没有 TPU 8i 级别的推理速度,这种模式在经济上是不可行的。这是 Google 1,800–1,900 亿美元资本开支的核心逻辑之一。
② 应用层机会:三个点名场景——"real-time coding assistants"(实时代码助手)、"autonomous customer service"(自主客服)、"security operations"(安全运营)——是 Google 判断 Agentic AI 规模化落地最确定的企业场景。这三个场景的共同特征:高频、持续、多步骤、可量化 ROI(程序员效率、客服成本、安全响应时间)。
③ 企业战略层机会:IBM 的预测:到 2026 年,所有 multi-agent 系统将走向生产部署(IBM Kate Blair)。Salesforce 研究:AI 采用率 2025–2026 年同比增长 282%,其中 Agentic AI 被预测将从"用户触发"转变为"事件驱动"(Salesforce Dan Fernandez)。这意味着企业软件架构将在未来 2–3 年内经历一次类似"客户端/服务器架构"到"互联网架构"的转变——"Agentic 循环"将成为默认范式,而不是高级功能。
推理速度的战略地位:在这个判断框架下,推理速度不是一个性能指标,而是决定 Agentic AI 是否可以规模化部署的根本条件。Google 的表述"without this level of inference speed, the latency profile of autonomous enterprise agents becomes a workflow bottleneck rather than a productivity asset",是在用商业语言说一件技术事实:推理速度不达标,Agentic AI 就会成为业务摩擦,而非业务加速器。
模型架构的多样化是硬件分化的根因。每种架构对底层计算特性的需求截然不同,没有任何单一芯片能同时高效覆盖全部。
首个训练/推理分拆 TPU。片上 SRAM + HBM 全量存储 KV Cache;SC-CAE 卸载全局通信。官方目标:实时代码助手、自主客服、安全运营。
INFERENCE-ONLY · SPLIT ARCHH100 的 57 倍大,44GB 片上内存。OpenAI Codex-Spark 部署平台(首个非 Nvidia 生产模型)。Series H $10 亿(2026.01)。约 70% 工作负载已转向推理。
WAFER-SCALE · $1B SERIES H 2026.01H100 的 15 倍;推理成本自 2022 降 280 倍;GB200 NVL72 对 MoE 是 H200 的 10 倍。GTC 2026 整合 Groq LPU IP[22],发布 AFD 架构(Prefill/Decode 分层)。
GPU · CUDA · GTC 2026 AFD ARCHITECTURESN50(2026.02):5x 速度,3x 低于 B200 TCO,支持 10 万亿参数模型。Intel 多年战略合作(GPU 做 Prefill,Xeon 做编排,RDU 做 Decode)。SoftBank 首批客户。Series E $3.5 亿。
SN50 · INTEL COLLAB · $350M 2026.02TTFT <100ms;功耗 1/3 GPU。$20B 被 NVIDIA 收购(2025.12),IP 整合进 NVIDIA GTC 2026 的 Kyber 机架和 AFD 架构——Decode 专用硬件。
ACQUIRED $20B · NOW IN NVIDIA KYBER RACK首个商业化扩散 LLM。并行生成全部 Token 后去噪,完全绕开自回归串行瓶颈。757 TPS 7 日均值(Artificial Analysis 第一)。质量约 85–95% 同级模型。
DIFFUSION LLM · PARALLEL · STD GPU模型架构的多样化是硬件分化的根因。每种架构对底层计算特性的需求截然不同,没有任何单一芯片能同时高效覆盖全部。
首个训练/推理分拆 TPU。片上 SRAM + HBM 全量存储 KV Cache;SC-CAE 卸载全局通信。官方目标:实时代码助手、自主客服、安全运营。
INFERENCE-ONLY · SPLIT ARCHH100 的 57 倍大,44GB 片上内存。OpenAI Codex-Spark 部署平台(首个非 Nvidia 生产模型)。Series H $10 亿(2026.01)。约 70% 工作负载已转向推理。
WAFER-SCALE · $1B SERIES H 2026.01H100 的 15 倍;推理成本自 2022 降 280 倍;GB200 NVL72 对 MoE 是 H200 的 10 倍。GTC 2026 整合 Groq LPU IP[22],发布 AFD 架构(Prefill/Decode 分层)。
GPU · CUDA · GTC 2026 AFD ARCHITECTURESN50(2026.02):5x 速度,3x 低于 B200 TCO,支持 10 万亿参数模型。Intel 多年战略合作(GPU 做 Prefill,Xeon 做编排,RDU 做 Decode)。SoftBank 首批客户。Series E $3.5 亿。
SN50 · INTEL COLLAB · $350M 2026.02TTFT <100ms;功耗 1/3 GPU。$20B 被 NVIDIA 收购(2025.12),IP 整合进 NVIDIA GTC 2026 的 Kyber 机架和 AFD 架构——Decode 专用硬件。
ACQUIRED $20B · NOW IN NVIDIA KYBER RACK首个商业化扩散 LLM。并行生成全部 Token 后去噪,完全绕开自回归串行瓶颈。757 TPS 7 日均值(Artificial Analysis 第一)。质量约 85–95% 同级模型。
DIFFUSION LLM · PARALLEL · STD GPU| 场景 | TPS 需求 | 效益性质 | 超线性机制 | 最适硬件 | 关键指标 |
|---|---|---|---|---|---|
| 实时编程 | 1,000+ | 超线性 | 消除上下文切换(23分钟/次) | Cerebras WSE-3 | 等待12s→切换任务→23min损失 |
| Agentic 工作流 | 200–500 | 超线性 | 链式延迟复利:N步叠加 | Cerebras / TPU 8i | 4分钟→20秒(20步任务) |
| 实时语音对话 | TTFT <100ms | 超线性 | 神经阈值:1s放弃率+40% | Groq LPU | 1s延迟=CSAT-16%(Forrester) |
| SOC 安全运营 | 500–1,000 | 超线性 | 攻击破坏力随时间指数增长 | Google TPU 8i | IBM:AI节省$1.9M/次,缩短80天 |
| Test-Time Compute | 并行 N 路 | 超线性(IPuT) | Best-of-N 质量对数缩放 | Cerebras WSE-3 | 固定时间内质量超越教师模型 |
| 消费级产品(体验) | 速度感知 | 超线性 | 消费者心理阈值+品牌感知 | Google TPU 8i | 100ms = 1% 销售额(Amazon) |
| 机器人/边缘推理 | 本地 ms 级 | 线性(安全) | 延迟与安全边界线性关联 | Hailo/TensorRT Edge | 决策延迟降低70–90% |
| 药物发现批量处理 | 高吞吐 | 线性 | 速度 = 探索空间宽度 | Cerebras / SambaNova | 100–200x vs GPU(LLNL) |
| 消费产品(成本) | 成本驱动 | 线性 | TPS 提升直接对应成本降低 | Google TPU 8i | $1B+/年节省(Gemini Flash) |
不是所有速度提升都等价,但超线性场景集中在最高价值区域。编程效率、用户体验、安全运营、Test-Time Intelligence——这四个超线性场景,恰好覆盖了 AI 商业价值最容易量化和最高货币化潜力的区域。这不是巧合——超线性效应本身就是认知/行为阈值的产物,而这些阈值恰好在高价值场景中最突出。
速度突破阈值 = 解锁全新行为,不只是优化既有行为。23 分钟上下文切换代价的消除、300ms 语音延迟阈值的跨越、MTTD 从 4 小时到 10 分钟的缩短——这些不是"更快了",而是"从不可用到可用"、"从摩擦到流畅"的定性跳跃。Google TPU 8i 发布页的那句话,正是在用商业语言描述这个物理事实:推理速度不足时,Agentic AI 是"工作流瓶颈",而非"生产力资产"。
单位时间智能(IPuT)框架将成为新的价值评估维度。随着 Test-Time Compute 从研究方法走向生产部署,"模型大小"不再是质量的唯一代理变量。一个速度快 100 倍的小模型,在固定时间内的有效智能,可能超过速度慢的大模型。这将改变 AI 采购决策的框架:从"哪个模型最聪明"到"给定时间预算,哪个系统最聪明"。
Diffusion LLM 是一个正在展开的结构性变量。Mercury 2 证明了速度可以来自架构本身——无需专用芯片,在标准 GPU 上实现 ~1,000 TPS。如果扩散 LLM 在质量上的 5–15% 差距持续收窄,它将从根本上改变高速推理的经济学:超高吞吐将不再是专用硬件的特权,而成为任何云服务商的标准能力。
传统 OS 的核心抽象是:文件(存储状态)+ 应用(执行逻辑)+ 进程(调度资源)。下一代 OS 的核心抽象是:上下文流(持续感知世界)+ 推理内核(实时理解意图)+ 按需执行(生成或调用工具)。
传统操作系统的工作模式是被动响应:用户发出命令(点击、输入),系统执行,返回结果。这个模式的根本假设是:计算机不知道用户在做什么,直到用户明确告诉它。这一假设在过去 58 年里从未被挑战——直到 2026 年。
下一代 OS 翻转了这个假设:AI 内核持续感知用户正在做什么、看什么、说什么、在哪里——而不是等待命令。上下文不再是每次操作前需要解释的背景,而是持续流动的实时状态。在这个模型下,用户不再需要描述场景,只需表达意图——甚至用最模糊的指示词("这个"、"那个")就足够了。
这一转变的技术前提只有一个:推理速度必须快到不影响用户感知。如果持续感知层处理一帧屏幕截图需要 2 秒,那么上下文就永远是过期的;如果意图推断需要 3 秒,用户已经切换到下一个动作了。下一代 OS 的"实时性",在技术层面等同于"推理速度超过上下文更新速度"。
下一代 OS 的"全维度上下文"不是一个单一的感知能力,而是五个独立维度的持续并行感知,每个维度都有自己的更新频率和推理负担。
传统 AI 工具是"按需查询"——用户明确触发,AI 才开始工作。下一代 OS 是"持续感知"——AI 在用户触发之前就已经理解了上下文。这一区别至关重要:当用户指着屏幕说"发给他"时,AI 已经知道"他"是谁(音频历史)、"发"的是什么(屏幕视觉)、通过什么渠道发(应用上下文)。如果上下文是按需收集的,用户的这句话就没有意义。只有全维度持续运行,短小的指示词才能携带足够的信息。
全维度上下文 + 超高速推理内核,在技术层面分解为三个独立的推理层,各自有不同的时间窗口和计算需求。三层缺一不可,任何一层慢了,整个体验就会断裂。
TML-Interaction-Small 的双模型架构完美体现了三层栈的分工:一个始终在线的轻量 Interaction Model 持续处理 200ms 音视频流(第一层 + 第二层),感知当前状态并预推断意图;当任务需要复杂推理(工具调用、网络搜索、长期规划)时,委托给 Background Model 异步处理,并在正确时机将结果注入对话(第三层)。这意味着:用户再也不会看到"我正在思考……"的暂停,AI 感觉是"一直在场的"。这是把高速推理分层应用的最清晰实现案例。
"LLM OS"一词被滥用——大多数所谓产品其实是"传统 OS + AI 功能"。本节先看真正把 LLM 当作内核的纯粹 LLM OS,再看下一代 OS 的交互层、模型与使能技术。
判断标准很简单:LLM 是不是内核本身?在这类系统里,LLM 不是被调用的功能,而是承担调度、上下文管理、内存管理、工具管理等操作系统核心职责——Agent 则像应用程序一样运行在其上。
核心定位:最严谨的"LLM OS"学术定义与实现。明确提出"LLM 作为内核(kernel),Agent 作为应用(apps)"——把 LLM 嵌入操作系统,作为 OS 的大脑。
真正的内核职责:AIOS 在传统 OS 内核之上提供一个"AIOS 内核",包含调度器(Scheduler,用类 CPU 调度策略分发 Agent 请求)、上下文管理器(支持 LLM 上下文的快照与恢复)、内存管理器、存储管理器、工具管理器、访问控制——这正是操作系统的核心抽象。
实测:用 AIOS 服务由各类框架(ReAct、AutoGen、Open Interpreter、MetaGPT 等)构建的 Agent,执行速度最高提升 2.1×。源代码开源于 github.com/agiresearch/AIOS。其 2023 年的前瞻论文《LLM as OS, Agents as Apps》是这一范式的奠基之作。
核心定位:把"LLM OS"这个比喻第一次落到工程实处。源自 MemGPT 论文《Towards LLMs as Operating Systems》——模型像 OS 管理 RAM 与磁盘那样,管理自己的内存、上下文和推理循环。
虚拟上下文管理:借鉴操作系统的分层内存与虚拟内存分页机制,把上下文窗口当作受限的"物理内存"——核心内存(core,常驻 in-context,类比 RAM)+ 归档内存(archival,out-of-context,类比磁盘)。LLM 通过工具调用(memory_replace、archival_memory_search 等)自主地在两层之间分页、整理、检索。
意义:让 LLM 在固定上下文窗口下维持远超窗口长度的连贯对话——"无对话真正丢失"。这是"自编辑内存 + LLM OS 基础设施层"概念的来源,Letta 框架将其产品化为有状态 Agent 的运行时。
核心定位:一个 AI 原生操作系统——不靠菜单、不需要技术能力,用户用自然对话语言就能完成任务。目前已有 1,000+ 种用例、5,000+ 个应用(含 Steve 内置的 AI 原生应用)。
OS 自我维护:用户无需更新或排障——OS 按需自行完成所有维护与更新。内置 Vibe Studio,让工程师和非工程师都能通过 Google Play、Apple Store 构建并发布应用。
定位人群:专为刚接触 AI 的消费者设计,让 AI 对所有人可用;同时其 developer-first 架构也服务于提升开发者生产力。被 ACM 通讯(CACM)专文报道为 AI 原生 OS 的代表。
核心定位:一个没有预装应用的操作系统——所有应用都按需从自然语言即时生成。你不"打开软件",你描述需求,OS 当场把它造出来。
三阶段路线图:当下(2025–26)以单文件 HTML 应用为生成形态;1–3 年内随着 7B 级模型在端侧达到足够速度,生成将变得设备级流畅;3–7 年目标是整个操作系统外壳(shell)都可被实时重新生成。
范式意义:它把"软件的边界不再是已安装的应用,而是可被描述的需求"推到极致——也是对"高速推理 = 即时生成"这一逻辑最纯粹的产品化表达。
核心定位:CosmOS 致力于打造一种以自然语言为首要界面、彻底取消传统"应用"范式的计算体验——设备不再是 App 的集合,而是一个能理解意图、直接行动的智能体。
现实教训:搭载 CosmOS 的 Humane AI Pin 在市场上遭遇了挫折,硬件叙事失败。但 CosmOS 作为 AI 原生 OS 资产,其"自然语言取代应用网格"的设计思想,仍是纯粹 LLM OS 路线上一个重要的真实世界实验——也是本报告"重要警示"一章的注脚:范式正确,不等于产品成功。
以下产品并非"LLM OS"本身,但它们是下一代 OS 得以成立的关键拼图——交互范式(AI Pointer、交互模型)、端侧模型底座(Gemini Nano、Gemma、LFM、Qwen-Omni)、以及主流厂商把 AI 织入现有 OS 的过渡形态(Copilot+、Apple Intelligence)。它们共同决定了纯粹 LLM OS 何时能真正落地。
核心突破:把 58 年未变的鼠标指针,从"位置指示器"变成"意图解释器"。系统持续分析光标下方内容,理解视觉语义上下文,支持"指 + 说"的自然指示。
四个设计原则:① Maintain the flow(不打断工作流,AI 来适应用户而非反之);② Show and tell(指示代词 "这个""那个" 可以携带完整意图);③ Turn pixels into actionable entities(手写笔记→待办事项,视频帧→餐厅预订);④ 语音 + 视觉融合(不需要完整句子,上下文已经提供了大部分信息)。
产品落地:Google AI Studio 实验版已可用;Magic Pointer 将随 Googlebook 笔记本电脑推出(2026 秋)。Demis Hassabis 亲自称之为"pretty magical"。
核心突破:为"交互"本身训练的模型——不是 LLM 上加语音层,而是从零开始设计"能听能看能说"的架构。以 200ms 微回合(micro-turn)为单位处理音视频流,真正实现全双工(同时听说)。
Multi-Stream Micro-Turn Design:音频、视频、文字三个流并行处理。模型能感知停顿、识别打断、理解视觉线索——不需要用户说完整句子。响应延迟 0.4 秒,接近人类对话节奏。
双模型架构:276B MoE(12B 活跃参数)轻量 Interaction Model 常驻实时对话;Background Model 异步处理复杂推理和工具调用,注入结果时不中断对话流。
目前限制:超长会话会产生"上下文膨胀"(视频流积累过快);更大变体 2026 年晚些时候发布。
核心功能:Recall 每隔几秒拍摄一次屏幕截图[28],用 AI 分析并建立可搜索的语义索引——"帮我找那个紫色图表的 PPT"就能立即定位。Click to Do(相关功能)则在截图上识别可操作实体。
硬件要求:Copilot+ 认证要求至少 40 TOPS NPU,这是运行持续屏幕分析所需的最低算力基线。16GB RAM + 256GB 存储。Microsoft 称 2026 年是 AI PC 投资的最佳时机。
争议点:隐私担忧导致初期延迟。2026 年 1 月曾暂停部分 Copilot 集成。2025 年已向 Windows Insiders 开放,现在可供所有 Copilot+ PC 用户使用。
核心功能:on-screen awareness 让 Siri 理解并操作屏幕内容[29]——"把这个地址加到他的联系人",Siri 知道"这个地址"在当前短信里,"他"是谁,并直接执行跨应用操作。personal context 让 Siri 访问设备上所有数据(邮件、笔记、日历、照片)来回答个性化问题。
苹果的技术路线:在设备端运行约 3B 参数模型(KV-Cache 共享 + 2-bit 量化感知训练),iOS 26 的 Neural Engine 达 50 TOPS,支持实时 4K 视频分析。复杂任务通过 Private Cloud Compute 到云端,但隐私保护架构独特——服务器上的数据对 Apple 本身也不可见。
核心突破:Gemini Nano 4 在手机上的性能超越了数据中心运行的 Gemini 1.0 Pro[30]——这是 AI 发展的一个历史节点。架构来自 Gemini 2.5 的蒸馏版本。
AICore 系统服务:Gemini Nano 以 Android AICore 系统服务的形式运行,利用设备硬件(Tensor G4 / Snapdragon)加速推理,保持低延迟。应用无需关心底层硬件差异,只需调用 AICore API。对每个应用的 NPU 使用配额有限制,防止单一应用霸占算力。
持续感知场景:通知摘要(实时分析所有通知)、情景推断(当前上下文建议下一步操作)、Gemini Live(实时对话)。
核心能力:256K Token 上下文(约 10 小时音频或 400 秒 720p 视频)、Thinker-Talker 分离架构(类似 Thinking Machines 的双模型设计)。支持语义打断(理解什么时候可以打断用户)、轮次意图识别、实时多模态处理。
Thinker-Talker 架构:Thinker 负责深度推理,Talker 负责实时音频生成,两者共享一个主干网络但各自专注不同功能——这使得模型能在"思考"的同时保持对话流畅,而不产生"我在想……"的暂停。
实例:开发者可以录制一段指向 UI 元素的视频,同时口述 bug,模型直接生成修复代码——视觉 UI 层次结构、口头意图、代码逻辑三者直接融合。
核心突破:音频推理速度比上一代提升 8 倍[31],原生端侧多模态——不使用 VAD(语音活动检测)→ LLM → TTS 的拼接式 pipeline,而是原生处理音频,消除了组件间的信息隔离,大幅降低端到端延迟。
目标场景:始终在线的端侧 Agentic AI——车载、手机、IoT 设备上的实时语音助手。"LFM2.5 使任何设备都能访问私有的、快速的、始终在线的智能"。
Liquid 基础模型(LFM)架构:混合结构(结合 SSM/Mamba 特性),Memory-efficient 推理,特别适合持续运行的长时间交互场景。
Gemma 4(Google):E2B/E4B 端侧变体支持文字+图片+音频+视频,仅需 2GB RAM,128K-256K 上下文窗口。图像理解能力包括:屏幕/UI 理解、OCR、手写识别[32]、图表理解、文档解析——正是持续感知层所需的基础能力。
ExecuTorch(Meta):2025 年 10 月发布 1.0 GA,50KB 基础占用,支持 12+ 硬件后端(Apple、Qualcomm、ARM、MediaTek、Vulkan)。Meta 已在 Instagram、WhatsApp、Messenger、Facebook 上线,服务数十亿用户。开源端侧推理的事实标准正在成型。
下一代 OS 不只是高速推理的"又一个用例"——它是所有其他用例的底层操作环境。理解这一点,就理解了为什么整个行业都在同时向这个方向发力。
本报告此前讨论的所有高速推理场景(实时编程、Agentic 工作流、语音对话、SOC 安全运营),都是在已知的、固定的交互模式下对速度有极高要求。下一代 OS 的不同之处在于:它对速度的要求是多个时间尺度同时运行,且每一层都有自己的硬性实时性约束。
用一个类比来理解:此前的场景是"在高速公路上开快车";下一代 OS 是"同时控制飞机的多个飞行系统,每个系统都有不同的响应时间要求,而且任何一个系统慢了都会影响飞行"。
| 推理层次 | 时间约束 | 技术挑战 | 部署位置 |
|---|---|---|---|
| 持续感知层 屏幕分析 / UI 理解 | <16ms | 持续视觉理解(60fps 级),逐帧分析光标下方与屏幕语义 | 本地 NPU 专用 不可走云端 |
| 音频流处理 TML Micro-turn | 200ms / 块 | 无缝全双工,支持打断,连续处理而非等待说完 | 端侧 + 云端 最低 0.4s 端到端 |
| 意图预推断 AI Pointer hover | <200ms | 多模态融合(视觉 + 语言),在用户说话之前预计算意图 | 简单端侧 复杂走云端 |
| 响应生成 语音 / 文字输出 | <500ms | 保持自然对话节奏,不能有"我在想…"的停顿 | 云端高速推理 |
| 工具执行 / 生成 工具生成层 | <2s | 高速推理(1,000+ TPS),复杂任务异步执行 | 云端高速芯片 |
| 持久记忆检索 Recall / Memory | <1s | 语义搜索 + 向量索引,覆盖所有历史上下文 | 本地索引 + 云端 |
| 上下文膨胀控制 Context Bloat | 持续管理 | 视频流积累速度 > 处理速度,需上下文压缩与智能遗忘 | 推理引擎层 |
上下文膨胀(Context Bloat)是核心工程挑战。Thinking Machines 在发布时明确承认[27]:超长会话中,连续的音视频流积累上下文的速度,可能超过模型消化的速度。这不是一个理论问题——在实验室测试中已经出现。解决方案是上下文压缩(Context Compression),将已处理的历史上下文蒸馏为更紧凑的表示,丢弃低价值细节,保留高价值语义。这是下一代 OS 场景独有的推理系统工程挑战。
| 维度 | 此前高速推理场景 | 下一代 OS 场景 |
|---|---|---|
| 触发方式 | 用户主动触发(点击/输入/说话) | 持续被动感知,用户随时可用极短表达触发 |
| 推理频率 | 离散请求,间歇性高峰 | 持续流式,多时间尺度并发 |
| 上下文 | 每次请求需要用户重新提供 | OS 持续维护全维度上下文,用户无需解释 |
| 速度需求 | 通常是"更快更好"的优化问题 | 多层硬性实时性要求:16ms / 200ms / 2s 三个门槛 |
| 硬件部署 | 主要是云端专用推理芯片 | 端侧 NPU(持续感知层)+ 云端高速芯片(复杂推理)混合 |
| 关键工程挑战 | 吞吐量 vs 延迟的 Pareto 优化 | 上下文膨胀控制 + 多层推理时序协调 |
| 超线性效应 | 场景特定的阈值超线性 | 整个交互范式从"不存在"到"存在"的范式解锁 |
理解当前这一波变革的规模,需要从历史视角来看。每一次人机接口的革命,都不是"更好的旧东西",而是一种全新的交互模式——而每一次都需要与之匹配的新基础设施。
| 年份 | 交互范式 | 关键创新 | 所需新基础设施 |
|---|---|---|---|
| 1968 | 鼠标指针 Engelbart |
人类首次用"指向"代替"输入"命令。Doug Engelbart 的 Mother of All Demos 展示了鼠标、窗口、超链接——计算机从打卡机变成交互工具。 | 光学传感器 + 向量图形显示 |
| 1984 | 图形界面 Apple Mac |
用图标和窗口代替命令行,让计算机对非技术用户开放。"所见即所得"成为基本范式。 | 位图显示芯片 + 足够的 RAM 存储 UI 状态 + 位图字体渲染引擎 |
| 1995 | Web 超链接 浏览器 |
用"导航"代替"本地文件管理",信息不再存在于本地,而是在互联网上。 | TCP/IP 普及 + HTML 解析引擎 + 宽带接入 |
| 2007 | 触摸界面 iPhone |
用手指直接操作代替鼠标和键盘,计算机从桌面走向口袋。"直接操作"取代"间接指示"。 | 多点触控电容屏 + 移动 GPU + ARM 低功耗架构 |
| 2014 | 语音助手 Alexa / Siri |
用自然语言命令代替点击操作。但仍是"请求-响应"的轮流模式,AI 不理解上下文,需要完整命令句。 | 云端 ASR + NLU 大幅改进 + 低成本麦克风阵列 |
| 2026 | AI 感知界面 AI Pointer / TML |
用"全维度实时上下文 + 超高速推理"代替所有"告诉 AI 你在做什么"的摩擦。指向 + 说最短的话 = 完成复杂任务。AI 不再是你要"去找"的工具,而是持续感知你环境、随时可用"这个""那个"触发的计算能力。 | 端侧 50+ TOPS NPU + 云端 1000+ TPS 推理 + 上下文管理引擎 + 多模态实时融合模型 |
同一周三个独立方向的汇聚,是最有力的信号。Google DeepMind AI Pointer(2026.05.12)、Thinking Machines Interaction Models(2026.05.12)、Apple on-screen awareness 落地——这三个团队互相独立,来自不同的公司,使用不同的技术路线,却在同一周指向了同一个结论:下一代 OS 的核心范式是全维度实时上下文 + 超快推理内核。这种汇聚,通常是一个技术转折点成熟的信号。
"全维度实时上下文"重新定义了什么是 OS。传统 OS 是"你要告诉它你想做什么"的被动执行者。新的 OS 是"它已经知道你在做什么,你只需要说明方向"的主动协作者。AI Pointer 把这一点凝练为一句话:"我们想要的是:AI 主动跨越用户使用的所有工具去适应用户[25],而不是反过来。"这是对 58 年 OS 设计哲学的一次根本性倒转。
"超高速推理内核"是这一范式存在的物理前提。持续感知层需要 <16ms(端侧 NPU),意图预推断需要 <200ms(跨越人类感知阈值),即时工具生成需要 <2s(跨越工具生成感知阈值)。任何一层慢了,整个体验就从"流畅的 AI OS"退化为"有摩擦的 AI 功能"。高速推理不只是让某个具体场景"更好"——它是让整个新范式"能存在"的物理基础。
上下文膨胀将是下一代推理工程的新前沿。持续的音视频流以远超文字的速度积累信息。Thinking Machines 已经承认这是当前的主要工程挑战。这将催生专门的上下文管理引擎(上下文压缩、智能遗忘、分层记忆),成为推理引擎层(vLLM、SGLang、TokenSpeed 之后)的下一个竞争维度。
下一代 OS + AI Pointer = 完整的范式图景。AI Pointer 解决了"如何与 OS 交互"(输入层),下一代 OS 解决了"OS 如何响应"(输出层),LLM Kernel 是中间的推理层。三者合在一起,构成了"你描述你想要什么,OS 生成能做到这件事的工具并立即执行"的完整闭环。这是计算历史上第一次,软件的边界不再是"已安装的应用",而是"可以被描述的需求"。
高速推理的范式变化已经发生,但不同角色的应对策略差异巨大。以下是面向应用开发者、基础设施团队、技术决策者的具体建议。
高速推理的叙事令人兴奋,但严肃的分析需要同样严肃地对待其中的不确定性、夸大成分和未解问题。