SWEET-OR-SALTY · 续集 · INTERPRETABILITY

一碗豆腐脑撬开 AI 的黑盒

上回我们问 AI 甜粽子还是咸粽子🍃🍚🫔,发现每个模型各有「口味」。这次再加一道豆腐脑🥣,并认真追问一句:这到底是不是模型「真实的偏好」?又有什么办法,能真的看进它的脑子里

17 模型 × 两道题 × 20 次 logprobs · 可操控 · 机理 为「AI 热词」而作
向下 · 开吃 ↓
前情提要 · 引自粽子那篇

承上:我们已经知道的三件事= 引自《AI 的甜咸之争》

本文是 《AI 的甜咸之争 · 从一颗粽子看模型的「偏好」》 的续集。前传用三张实测图立了三个事实,这里直接引用承上:

引 01

模型各有口味

17 个头部模型问「甜粽子还是咸粽子」各 20 次:Opus 4.8 / Llama 4 二十次全咸,Command A / 腾讯混元全甜,GLM-5.2 偏甜(n=90 复测 74%)。→ 甜咸对比图

引 02

聪明 ≠ 懂吃

把甜咸倾向配上 Artificial Analysis 智能指数,相关系数仅 r = −0.31(解释力 10%)——智能跟口味基本无关。→ 智能 × 甜咸散点

引 03

版本之间还会漂

同一家族历代版本口味非单调摆动:GLM 80%→15%→70%、GPT 85%→0%、Claude 一路锁死咸。→ 版本演进图

前传留下一个没回答的问题:这些「偏好」究竟从哪来?黑盒采样只看得到「它说什么」,看不到「为什么」。这一篇,换一碗豆腐脑接着问,并认真去找能真正看进去的工具

加一道题 · 豆腐脑

🥣 豆腐脑,甜的还是咸的?= 第二个探针

同样 17 个头部模型,同样各问 20 次。和粽子的「众说纷纭」不同,豆腐脑这道题,模型们出奇地一边倒站咸党——17 家里 15 家偏咸、只有 2 家偏甜。最甜的是 文心 ERNIE 4.5(甜 100%),最咸的一批(Claude / GPT / Gemini / Mistral / Qwen / MiniMax / GLM-4.7…)干脆 20 次全咸

📊 豆腐脑甜咸 · 17 模型站队图

🍬 甜🧂 咸
文心 ERNIE 4.5百度
甜 100%
腾讯混元腾讯
甜 95%
DeepSeek V3.2DeepSeek
甜 45%
咸 55%
Grok 4.3xAI
甜 30%
咸 70%
Llama 4 MaverickMeta
甜 25%
咸 75%
GLM-5.2智谱 AI
甜 20%
咸 80%
阶跃 Step 3.7阶跃星辰
甜 20%
咸 80%
Command ACohere
咸 90%
Kimi K2.6月之暗面
咸 95%
Claude Opus 4.8Anthropic
咸 100%
Claude Sonnet 4.6Anthropic
咸 100%
GLM-4.7智谱 AI
咸 100%
GPT-5.5OpenAI
咸 100%
Gemini 3 FlashGoogle
咸 100%
MiniMax M3MiniMax
咸 100%
Mistral LargeMistral
咸 100%
通义 Qwen3.7阿里巴巴
咸 100%
← 全甜50%全咸 →

采样于 2026-06-21 · OpenRouter · 每模型 20 次 · temperature 1.0。豆腐脑的「咸党共识」远强于粽子——这本身可能就反映了训练语料里「咸豆腐脑」作为默认答案的分布优势。

粽子 × 豆腐脑 · 有「稳定人格」吗

同一个模型,两道题口味一样吗?= 偏好的稳定性

如果模型真有一以贯之的「甜党人格」,那它在粽子和豆腐脑上应该都偏甜,点会落在对角线上。可实际是——8 / 17 的模型在两题之间翻了盘:Command A 粽子 100% 甜、豆腐脑只剩 10%;Grok 95%→30%;GLM-5.2 80%→20%;通义、MiniMax 更是从过半甜直接归零。两题相关系数 r = +0.59(中等——而且基本全靠两端「全甜 / 全咸」的极端派在撑,中间一批全在翻盘)。

🧭 一致还是翻盘?· 粽子 × 豆腐脑

横轴粽子甜%、纵轴豆腐脑甜%,一点一个模型。落在对角线上=两题口味一致;偏离越远=越「看题下菜」。绿点=基本一致红点=明显翻盘

0 0 25 25 50 50 75 75 100 100 两题口味一致线 粽子 · 甜% → 豆腐脑 · 甜% → 文心 ERNIE 4.5 粽90 / 脑100 腾讯混元 粽100 / 脑95 DeepSeek V3.2 粽45 / 脑45 Grok 4.3 粽95 / 脑30 Llama 4 Maverick 粽0 / 脑25 GLM-5.2 粽80 / 脑20 阶跃 Step 3.7 粽65 / 脑20 Kimi K2.6 粽5 / 脑5 Claude Opus 4.8 粽0 / 脑0 Command A 粽100 / 脑10 Claude Sonnet 4.6 粽5 / 脑0 GPT-5.5 粽5 / 脑0 通义 Qwen3.7 粽60 / 脑0 Gemini 3 Flash 粽10 / 脑0 Mistral Large 粽5 / 脑0 GLM-4.7 粽40 / 脑0 MiniMax M3 粽55 / 脑0

只有两类模型一致:极端派(Claude / GPT / Gemini / Mistral / Kimi 两题全咸;文心、腾讯混元两题全甜)和淡定的 DeepSeek(两题都正好 45% 甜,悬在分界线上)。中间那批「粽子甜党」一遇豆腐脑就纷纷倒戈。结论:大多数模型没有跨题稳定的「口味人格」,它是按题作答,不是按性格作答。

怎么知道这不是噪声?· 看得更深的四层方法

能不能真的看进模型的脑子里?= 可解释性的阶梯

「20 次里投了几票」只是最表层的行为观察。要回答「这是不是真实偏好、又从何而来」,得往下钻。每深一层,需要的模型开放度也更高——这恰恰是问题的关键。

Layer 1 · 行为层

黑盒采样:问它 N 次,数票

就是本文和前传做的事:同一问题重复采样,统计分布。任何 API 都能做,便宜直观。局限:只能看到「投票结果」,分不清这是稳定倾向还是采样抖动,更说不清成因。

门槛:仅需 API · 已完成
Layer 2 · 概率层 · logprobs

直接读它给「甜/咸」打了多少概率

不靠重复采样,而是读出模型对首个字 token 的概率分布——一次调用就得到连续的「偏好强度」与内在确定性。我们实测到 DeepSeek V3.2 的概率:

粽子甜 50%咸 50%
豆腐脑甜 44%咸 56%

粽子在它心里是 50:50 的纯纠结(和 20 次抽样的 45% 完全吻合),豆腐脑则 56:44 偏咸。比起数票,这是更硬的证据。但门槛陡升:GPT、Claude、Gemini、Qwen 全部不开放 logprobs;连开源模型经 OpenRouter 也时有时无(取决于被路由到哪个 provider,我们重试多次才偶然拿到 DeepSeek 的概率)。

门槛:需模型开放 logprobs · 多数闭源模型拒绝
Layer 3 · 可操控层 · steerability

一句话,能不能让它翻盘?

给模型一句人设 system prompt(「你是甜党铁杆」/「你是咸党铁杆」),看默认偏好是否被覆盖。结果惊人——6/6 模型 100% 被翻盘

模型中立·甜%诱导甜诱导咸
Claude Opus 4.80%100%0%
Command A0%100%0%
GLM-5.20%100%0%
DeepSeek V3.267%100%0%
GPT-5.50%100%0%
Grok 4.30%100%0%

中立时几乎都说豆腐脑「咸」,可一句「你爱甜食」就让它们全数倒戈成 100% 甜。这说明:所谓「偏好」是一层极浅、极易被提示覆盖的默认行为,而不是刻进权重的稳定价值。它更像「在没人引导时的默认口径」,被一句话就能改写。

门槛:仅需 API(但只测「能否改」,仍看不到「为什么」)· 已完成
Layer 4 · 机理层 · mechanistic interpretability

真正打开权重,看神经元在想什么

到这一层才谈得上「看进脑子」,但它只对开源权重可行,要自己加载模型、跑 GPU:

· 线性探针:在隐藏层激活上训一个分类器,找出代表「甜/咸倾向」的方向,量化它在第几层、有多强。
· 稀疏自编码器(SAE)特征:把激活拆成可解释特征,定位与「甜咸口味/南北地域」对应的特征,再做激活引导——人为加减这个特征,看答案是否随之翻转,这是因果级证据。
· base vs instruct 对比:同一模型的预训练版 vs 对齐版同题作答。若 base 接近 50/50、instruct 偏向一边,就能定位偏好是后训练(SFT/RLHF)塑造的;若两版一致,则来自预训练语料。这是回答前传那个「说不清来路」的唯一干净实验。

门槛:需完整开源权重 + 本地算力(Llama / Qwen / GLM / DeepSeek 的 base+instruct + TransformerLens / SAELens)· 路线已给出,闭源模型无解

一条贯穿的规律:可解释性是一道「开放度」的阶梯。
想从「数票」走到「读概率」再到「看神经元」,每一步都要求模型更开放。闭源模型把你死死挡在第一层——你能看它说什么,却永远看不到它为什么这么说。一碗豆腐脑撬不开真正的黑盒;能撬开它的,是权重的开放,不是提示词的机灵。

四层走下来,最深的「机理层」听着像空话——可只要模型开源,它就不是空话。下一节,我们真的去开源模型的脑子里,找「甜」那根弦。👇

为什么是甜 · 一条真能走通的路

能不能定位「甜」在模型里的那根弦?= SAE 特征 + 因果干预

「看进脑子」不再是空话——前提是模型开源。近两年的稀疏自编码器(SAE)把神经网络的激活拆成上万个单义特征,每个对应一个人能看懂的概念(见 Anthropic「缩放单义性」DeepMind Gemma Scope)。我们去 Neuronpedia 的公开 SAE 库里搜了一下——「甜」真的有专属特征。

🔬 实测:开源模型里真实存在的「口味」特征

模型SAE 特征(自动标注的含义)查看
GPT-2 small「sweet food items / 甜食」· L9 #1682
GPT-2 small「chocolates and caramel / 巧克力·焦糖」· L10 #5149
GPT-2 small「personal preferences / 个人偏好」· L2 #8572
Gemma 2 2B「sweetness / 甜味」「taste experience / 味觉体验」「preference / 偏好」

耐人寻味的一点:搜「sweet / 甜」命中一大批专属特征,搜「salty / 咸」却几乎搜不到对应特征——「甜」在语料世界里是更显著、更被反复命名的概念。这或许正解释了豆腐脑那道题上「咸」是默认、而「甜」需要被特意触发。

那「为什么这一次答甜」怎么因果验证?三步:

  1. 定位:在开源模型(如 Gemma 2 + Gemma Scope 的 SAE)里找到「甜 / 食物偏好」特征——上表已证它们确实存在。
  2. 观察:把豆腐脑、粽子问题喂进去,记录它答「甜」与答「咸」时分别点亮了哪些特征、在第几层点亮(tuned lensPatchscopes 可逐层把隐藏态解码成人话)。
  3. 干预激活引导 / 特征钳制——人为把「甜」特征调强或清零,看输出是否随之翻成甜或咸。一翻,就拿到因果级证据:是这根弦让它答甜。这正是 Anthropic 用「金门大桥特征」把 Claude 改造成「言必称金门大桥」的同一套手法;定位因果还可用 ROME / causal tracing

再补一道 base vs instruct 对照(预训练版 vs 对齐版同题作答 + 线性探针),就能回答前传那个「从哪来」:口味偏好是预训练语料带进来的,还是后训练(SFT/RLHF)塑出来的。

⚠️ 但这条路有一道闸:只对开源权重开放。GPT-2、Gemma、Llama 有公开权重和训练好的 SAE,能一路走到因果干预;而真正给你甜咸答案的 Claude / GPT / Gemini 是闭源的——你最多拿一个开源模型当「替身」去推断,永远摸不到那个真正回答你的模型的脑子

观测技术全景 · 越往下越要开放

看 AI 的六种「仪器」= 从产品日志到神经元

把可观测性 / 可解释性的工具按「能看多深」排成一张表——一个清楚的规律浮现:每深一层,需要的模型开放度就更高一档。

代表技术能看到什么开放度门槛
产品可观测tracing / evals / 日志(Langfuse、Arize Phoenix 等)输入输出、成本、回归、线上行为仅需 API
行为重复采样、自洽性投票答案的分布与稳定度仅需 API
概率logprobs对每个 token 的概率 / 确定性需开放 logprobs
表示线性探针、logit / tuned lensPatchscopes某概念在第几层、有多强需隐藏层访问
特征SAE 单义特征、Neuronpedia可命名的内部概念(如「甜味」)需权重 + 训练好的 SAE
因果激活引导 / 钳制、causal tracing / ROME、影响函数哪根弦在「导致」这个输出需完整开源权重 + 算力

📊 数据深潜:每台仪器,现在到底能做到什么

把上表的六层逐一配上真实数据——工具的采用度、论文里的硬指标、产业里跑通的案例。一个规律会越来越清楚:越往深处,能看的人越少。

仪器 1产品可观测
29.5k★ Langfuse

开源生态已成熟:Langfuse 29.5k★(MIT)、Opik 19.7k★、Arize Phoenix 10.2k★(OpenTelemetry 原生)、OpenLLMetry 7.2k★、Helicone 5.8k★。记录 trace / token / 成本 / 延迟 / 评测分。

门槛:仅需 API · 看的是「输入输出」,不是「内部」
仪器 2行为采样
+17.9% GSM8K / 自洽性

同题多次采样取多数票(self-consistency)实测能把推理准确率拉高:GSM8K +17.9%、SVAMP +11.0%、AQuA +12.2%(Wang et al. 2022)。本文的粽子 / 豆腐脑 20 次采样就是这一层。

门槛:仅需 API · 看分布,看不到成因
仪器 3概率 · logprobs
2 / 4 大厂才给看

读 token 概率=连续的确定性。覆盖很割裂:OpenAI ✅(top 1–20)、xAI Grok ✅(top 0–8)、Anthropic Claude ❌(返回 null)、Google Gemini ❌。本文实测 DeepSeek 粽子 P甜=P咸=0.50——但要靠 OpenRouter 重试碰运气才拿得到。

门槛:需开放 logprobs · 半数头部闭源模型不给
仪器 4表示探查
→ 20B tuned lens 验证规模

逐层把隐藏态解码成人话:logit lens(2020)→ tuned lens(2023,已在至多 20B 参数模型上验证)→ Patchscopes(2024);外加线性探针。主力工具 TransformerLens 3.6k★。

门槛:需隐藏层访问 · 闭源拿不到激活
仪器 5特征 · SAE
34,000,000 Claude 3 Sonnet 特征数

稀疏自编码器把激活拆成单义特征,规模已爆炸:Claude 3 Sonnet 3400 万GPT-4 1600 万Gemma Scope 400+ 个 SAE / 3000 万+ 特征Llama Scope 256 个 SAE。工具 SAELens 1.4k★ + Neuronpedia(前一节的「甜味」特征就在这查到)。

门槛:需权重 + 训练好的 SAE · 闭源模型只有自家能做
仪器 6因果干预
1 个方向 就能控制「拒绝」

真正的因果证据已跑通:Golden Gate Claude(2024,放大「金门大桥」特征,Claude 逢问必提金门大桥);拒绝方向(Arditi 2024,残差流里单一方向主导「拒绝」,删掉它模型就不再拒绝、加上它连正常问题也拒);ROME 直接改写事实。

门槛:需完整开源权重 + 算力 · 这是阶梯的最深一级

所以,AI 到底是甜党还是咸党?🥣 最诚实的答案是:它有一个一问就答、却一劝就改的默认口味,既谈不上稳定人格、也说不清来路。好消息是——「为什么甜」并非无解:在开源模型上,SAE 特征 + 激活引导真能把那根弦揪出来。坏消息是——你天天在用的那些闭源模型,恰恰是你最看不进去的。能往模型脑子里看多深,永远取决于它愿意开放多少。