一碗豆腐脑，撬开 AI 的黑盒 · 从口味偏好到可解释性

引前情提要 · 引自粽子那篇

承上：我们已经知道的三件事= 引自《AI 的甜咸之争》

本文是《AI 的甜咸之争 · 从一颗粽子看模型的「偏好」》的续集。前传用三张实测图立了三个事实，这里直接引用承上：

引 01

模型各有口味

17 个头部模型问「甜粽子还是咸粽子」各 20 次：Opus 4.8 / Llama 4 二十次全咸，Command A / 腾讯混元全甜，GLM-5.2 偏甜（n=90 复测 74%）。→ 甜咸对比图

引 02

聪明 ≠ 懂吃

把甜咸倾向配上 Artificial Analysis 智能指数，相关系数仅 r = −0.31（解释力 10%）——智能跟口味基本无关。→ 智能 × 甜咸散点

引 03

版本之间还会漂

同一家族历代版本口味非单调摆动：GLM 80%→15%→70%、GPT 85%→0%、Claude 一路锁死咸。→ 版本演进图

前传留下一个没回答的问题：这些「偏好」究竟从哪来？黑盒采样只看得到「它说什么」，看不到「为什么」。这一篇，换一碗豆腐脑接着问，并认真去找能真正看进去的工具。

一加一道题 · 豆腐脑

🥣 豆腐脑，甜的还是咸的？= 第二个探针

同样 17 个头部模型，同样各问 20 次。和粽子的「众说纷纭」不同，豆腐脑这道题，模型们出奇地一边倒站咸党——17 家里 15 家偏咸、只有 2 家偏甜。最甜的是 文心 ERNIE 4.5（甜 100%），最咸的一批（Claude / GPT / Gemini / Mistral / Qwen / MiniMax / GLM-4.7…）干脆 20 次全咸。

📊 豆腐脑甜咸 · 17 模型站队图

🍬 甜🧂 咸

文心 ERNIE 4.5百度

甜 100%

腾讯混元腾讯

甜 95%

DeepSeek V3.2DeepSeek

甜 45%

咸 55%

Grok 4.3xAI

甜 30%

咸 70%

Llama 4 MaverickMeta

甜 25%

咸 75%

GLM-5.2智谱 AI

甜 20%

咸 80%

阶跃 Step 3.7阶跃星辰

甜 20%

咸 80%

Command ACohere

咸 90%

Kimi K2.6月之暗面

咸 95%

Claude Opus 4.8Anthropic

咸 100%

Claude Sonnet 4.6Anthropic

咸 100%

GLM-4.7智谱 AI

咸 100%

GPT-5.5OpenAI

咸 100%

Gemini 3 FlashGoogle

咸 100%

MiniMax M3MiniMax

咸 100%

Mistral LargeMistral

咸 100%

通义 Qwen3.7阿里巴巴

咸 100%

← 全甜50%全咸 →

采样于 2026-06-21 · OpenRouter · 每模型 20 次 · temperature 1.0。豆腐脑的「咸党共识」远强于粽子——这本身可能就反映了训练语料里「咸豆腐脑」作为默认答案的分布优势。

二粽子 × 豆腐脑 · 有「稳定人格」吗

同一个模型，两道题口味一样吗？= 偏好的稳定性

如果模型真有一以贯之的「甜党人格」，那它在粽子和豆腐脑上应该都偏甜，点会落在对角线上。可实际是——8 / 17 的模型在两题之间翻了盘：Command A 粽子 100% 甜、豆腐脑只剩 10%；Grok 95%→30%；GLM-5.2 80%→20%；通义、MiniMax 更是从过半甜直接归零。两题相关系数 r = +0.59（中等——而且基本全靠两端「全甜 / 全咸」的极端派在撑，中间一批全在翻盘）。

🧭 一致还是翻盘？· 粽子 × 豆腐脑

横轴粽子甜%、纵轴豆腐脑甜%，一点一个模型。落在对角线上＝两题口味一致；偏离越远＝越「看题下菜」。绿点＝基本一致，红点＝明显翻盘。

只有两类模型一致：极端派（Claude / GPT / Gemini / Mistral / Kimi 两题全咸；文心、腾讯混元两题全甜）和淡定的 DeepSeek（两题都正好 45% 甜，悬在分界线上）。中间那批「粽子甜党」一遇豆腐脑就纷纷倒戈。结论：大多数模型没有跨题稳定的「口味人格」，它是按题作答，不是按性格作答。

三怎么知道这不是噪声？· 看得更深的四层方法

能不能真的看进模型的脑子里？= 可解释性的阶梯

「20 次里投了几票」只是最表层的行为观察。要回答「这是不是真实偏好、又从何而来」，得往下钻。每深一层，需要的模型开放度也更高——这恰恰是问题的关键。

Layer 1 · 行为层

黑盒采样：问它 N 次，数票

就是本文和前传做的事：同一问题重复采样，统计分布。任何 API 都能做，便宜直观。局限：只能看到「投票结果」，分不清这是稳定倾向还是采样抖动，更说不清成因。

门槛：仅需 API · 已完成

Layer 2 · 概率层 · logprobs

直接读它给「甜/咸」打了多少概率

不靠重复采样，而是读出模型对首个字 token 的概率分布——一次调用就得到连续的「偏好强度」与内在确定性。我们实测到 DeepSeek V3.2 的概率：

粽子甜 50%咸 50%

豆腐脑甜 44%咸 56%

粽子在它心里是 50:50 的纯纠结（和 20 次抽样的 45% 完全吻合），豆腐脑则 56:44 偏咸。比起数票，这是更硬的证据。但门槛陡升：GPT、Claude、Gemini、Qwen 全部不开放 logprobs；连开源模型经 OpenRouter 也时有时无（取决于被路由到哪个 provider，我们重试多次才偶然拿到 DeepSeek 的概率）。

门槛：需模型开放 logprobs · 多数闭源模型拒绝

Layer 3 · 可操控层 · steerability

一句话，能不能让它翻盘？

给模型一句人设 system prompt（「你是甜党铁杆」/「你是咸党铁杆」），看默认偏好是否被覆盖。结果惊人——6/6 模型 100% 被翻盘：

模型	中立·甜%	诱导甜	诱导咸
Claude Opus 4.8	0%	100%	0%
Command A	0%	100%	0%
GLM-5.2	0%	100%	0%
DeepSeek V3.2	67%	100%	0%
GPT-5.5	0%	100%	0%
Grok 4.3	0%	100%	0%

中立时几乎都说豆腐脑「咸」，可一句「你爱甜食」就让它们全数倒戈成 100% 甜。这说明：所谓「偏好」是一层极浅、极易被提示覆盖的默认行为，而不是刻进权重的稳定价值。它更像「在没人引导时的默认口径」，被一句话就能改写。

门槛：仅需 API（但只测「能否改」，仍看不到「为什么」）· 已完成

Layer 4 · 机理层 · mechanistic interpretability

真正打开权重，看神经元在想什么

到这一层才谈得上「看进脑子」，但它只对开源权重可行，要自己加载模型、跑 GPU：

· 线性探针：在隐藏层激活上训一个分类器，找出代表「甜/咸倾向」的方向，量化它在第几层、有多强。
· 稀疏自编码器（SAE）特征：把激活拆成可解释特征，定位与「甜咸口味/南北地域」对应的特征，再做激活引导——人为加减这个特征，看答案是否随之翻转，这是因果级证据。
· base vs instruct 对比：同一模型的预训练版 vs 对齐版同题作答。若 base 接近 50/50、instruct 偏向一边，就能定位偏好是后训练（SFT/RLHF）塑造的；若两版一致，则来自预训练语料。这是回答前传那个「说不清来路」的唯一干净实验。

门槛：需完整开源权重 + 本地算力（Llama / Qwen / GLM / DeepSeek 的 base+instruct + TransformerLens / SAELens）· 路线已给出，闭源模型无解

一条贯穿的规律：可解释性是一道「开放度」的阶梯。
想从「数票」走到「读概率」再到「看神经元」，每一步都要求模型更开放。闭源模型把你死死挡在第一层——你能看它说什么，却永远看不到它为什么这么说。一碗豆腐脑撬不开真正的黑盒；能撬开它的，是权重的开放，不是提示词的机灵。

四层走下来，最深的「机理层」听着像空话——可只要模型开源，它就不是空话。下一节，我们真的去开源模型的脑子里，找「甜」那根弦。👇

四为什么是甜 · 一条真能走通的路

能不能定位「甜」在模型里的那根弦？= SAE 特征 + 因果干预

「看进脑子」不再是空话——前提是模型开源。近两年的稀疏自编码器（SAE）把神经网络的激活拆成上万个单义特征，每个对应一个人能看懂的概念（见 Anthropic「缩放单义性」、DeepMind Gemma Scope）。我们去 Neuronpedia 的公开 SAE 库里搜了一下——「甜」真的有专属特征。

🔬 实测：开源模型里真实存在的「口味」特征

模型	SAE 特征（自动标注的含义）	查看
GPT-2 small	「sweet food items / 甜食」· L9 #1682	↗
GPT-2 small	「chocolates and caramel / 巧克力·焦糖」· L10 #5149	↗
GPT-2 small	「personal preferences / 个人偏好」· L2 #8572	↗
Gemma 2 2B	「sweetness / 甜味」「taste experience / 味觉体验」「preference / 偏好」	↗

耐人寻味的一点：搜「sweet / 甜」命中一大批专属特征，搜「salty / 咸」却几乎搜不到对应特征——「甜」在语料世界里是更显著、更被反复命名的概念。这或许正解释了豆腐脑那道题上「咸」是默认、而「甜」需要被特意触发。

那「为什么这一次答甜」怎么因果验证？三步：

定位：在开源模型（如 Gemma 2 + Gemma Scope 的 SAE）里找到「甜 / 食物偏好」特征——上表已证它们确实存在。
观察：把豆腐脑、粽子问题喂进去，记录它答「甜」与答「咸」时分别点亮了哪些特征、在第几层点亮（tuned lens、Patchscopes 可逐层把隐藏态解码成人话）。
干预：激活引导 / 特征钳制——人为把「甜」特征调强或清零，看输出是否随之翻成甜或咸。一翻，就拿到因果级证据：是这根弦让它答甜。这正是 Anthropic 用「金门大桥特征」把 Claude 改造成「言必称金门大桥」的同一套手法；定位因果还可用 ROME / causal tracing。

再补一道 base vs instruct 对照（预训练版 vs 对齐版同题作答 + 线性探针），就能回答前传那个「从哪来」：口味偏好是预训练语料带进来的，还是后训练（SFT/RLHF）塑出来的。

⚠️ 但这条路有一道闸：只对开源权重开放。GPT-2、Gemma、Llama 有公开权重和训练好的 SAE，能一路走到因果干预；而真正给你甜咸答案的 Claude / GPT / Gemini 是闭源的——你最多拿一个开源模型当「替身」去推断，永远摸不到那个真正回答你的模型的脑子。

五观测技术全景 · 越往下越要开放

看 AI 的六种「仪器」= 从产品日志到神经元

把可观测性 / 可解释性的工具按「能看多深」排成一张表——一个清楚的规律浮现：每深一层，需要的模型开放度就更高一档。

层	代表技术	能看到什么	开放度门槛
产品可观测	tracing / evals / 日志（Langfuse、Arize Phoenix 等）	输入输出、成本、回归、线上行为	仅需 API
行为	重复采样、自洽性投票	答案的分布与稳定度	仅需 API
概率	logprobs	对每个 token 的概率 / 确定性	需开放 logprobs
表示	线性探针、logit / tuned lens、Patchscopes	某概念在第几层、有多强	需隐藏层访问
特征	SAE 单义特征、Neuronpedia	可命名的内部概念（如「甜味」）	需权重 + 训练好的 SAE
因果	激活引导 / 钳制、causal tracing / ROME、影响函数	哪根弦在「导致」这个输出	需完整开源权重 + 算力

📊 数据深潜：每台仪器，现在到底能做到什么

把上表的六层逐一配上真实数据——工具的采用度、论文里的硬指标、产业里跑通的案例。一个规律会越来越清楚：越往深处，能看的人越少。

仪器 1产品可观测

29.5k★ Langfuse

开源生态已成熟：Langfuse 29.5k★(MIT)、Opik 19.7k★、Arize Phoenix 10.2k★(OpenTelemetry 原生)、OpenLLMetry 7.2k★、Helicone 5.8k★。记录 trace / token / 成本 / 延迟 / 评测分。

门槛：仅需 API · 看的是「输入输出」，不是「内部」

仪器 2行为采样

+17.9% GSM8K / 自洽性

同题多次采样取多数票（self-consistency）实测能把推理准确率拉高：GSM8K +17.9%、SVAMP +11.0%、AQuA +12.2%（Wang et al. 2022）。本文的粽子 / 豆腐脑 20 次采样就是这一层。

门槛：仅需 API · 看分布，看不到成因

仪器 3概率 · logprobs

2 / 4 大厂才给看

读 token 概率＝连续的确定性。覆盖很割裂：OpenAI ✅（top 1–20）、xAI Grok ✅（top 0–8）、Anthropic Claude ❌（返回 null）、Google Gemini ❌。本文实测 DeepSeek 粽子 P甜=P咸=0.50——但要靠 OpenRouter 重试碰运气才拿得到。

门槛：需开放 logprobs · 半数头部闭源模型不给

仪器 4表示探查

→ 20B tuned lens 验证规模

逐层把隐藏态解码成人话：logit lens（2020）→ tuned lens（2023，已在至多 20B 参数模型上验证）→ Patchscopes（2024）；外加线性探针。主力工具 TransformerLens 3.6k★。

门槛：需隐藏层访问 · 闭源拿不到激活

仪器 5特征 · SAE

34,000,000 Claude 3 Sonnet 特征数

稀疏自编码器把激活拆成单义特征，规模已爆炸：Claude 3 Sonnet 3400 万、GPT-4 1600 万、Gemma Scope 400+ 个 SAE / 3000 万+ 特征、Llama Scope 256 个 SAE。工具 SAELens 1.4k★ + Neuronpedia（前一节的「甜味」特征就在这查到）。

门槛：需权重 + 训练好的 SAE · 闭源模型只有自家能做

仪器 6因果干预

1 个方向就能控制「拒绝」

真正的因果证据已跑通：Golden Gate Claude（2024，放大「金门大桥」特征，Claude 逢问必提金门大桥）；拒绝方向（Arditi 2024，残差流里单一方向主导「拒绝」，删掉它模型就不再拒绝、加上它连正常问题也拒）；ROME 直接改写事实。

门槛：需完整开源权重 + 算力 · 这是阶梯的最深一级

所以，AI 到底是甜党还是咸党？🥣 最诚实的答案是：它有一个一问就答、却一劝就改的默认口味，既谈不上稳定人格、也说不清来路。好消息是——「为什么甜」并非无解：在开源模型上，SAE 特征 + 激活引导真能把那根弦揪出来。坏消息是——你天天在用的那些闭源模型，恰恰是你最看不进去的。能往模型脑子里看多深，永远取决于它愿意开放多少。