上回我们问 AI 甜粽子还是咸粽子🍃🍚🫔,发现每个模型各有「口味」。这次再加一道豆腐脑🥣,并认真追问一句:这到底是不是模型「真实的偏好」?又有什么办法,能真的看进它的脑子里?
本文是 《AI 的甜咸之争 · 从一颗粽子看模型的「偏好」》 的续集。前传用三张实测图立了三个事实,这里直接引用承上:
17 个头部模型问「甜粽子还是咸粽子」各 20 次:Opus 4.8 / Llama 4 二十次全咸,Command A / 腾讯混元全甜,GLM-5.2 偏甜(n=90 复测 74%)。→ 甜咸对比图
前传留下一个没回答的问题:这些「偏好」究竟从哪来?黑盒采样只看得到「它说什么」,看不到「为什么」。这一篇,换一碗豆腐脑接着问,并认真去找能真正看进去的工具。
同样 17 个头部模型,同样各问 20 次。和粽子的「众说纷纭」不同,豆腐脑这道题,模型们出奇地一边倒站咸党——17 家里 15 家偏咸、只有 2 家偏甜。最甜的是 文心 ERNIE 4.5(甜 100%),最咸的一批(Claude / GPT / Gemini / Mistral / Qwen / MiniMax / GLM-4.7…)干脆 20 次全咸。
采样于 2026-06-21 · OpenRouter · 每模型 20 次 · temperature 1.0。豆腐脑的「咸党共识」远强于粽子——这本身可能就反映了训练语料里「咸豆腐脑」作为默认答案的分布优势。
如果模型真有一以贯之的「甜党人格」,那它在粽子和豆腐脑上应该都偏甜,点会落在对角线上。可实际是——8 / 17 的模型在两题之间翻了盘:Command A 粽子 100% 甜、豆腐脑只剩 10%;Grok 95%→30%;GLM-5.2 80%→20%;通义、MiniMax 更是从过半甜直接归零。两题相关系数 r = +0.59(中等——而且基本全靠两端「全甜 / 全咸」的极端派在撑,中间一批全在翻盘)。
横轴粽子甜%、纵轴豆腐脑甜%,一点一个模型。落在对角线上=两题口味一致;偏离越远=越「看题下菜」。绿点=基本一致,红点=明显翻盘。
只有两类模型一致:极端派(Claude / GPT / Gemini / Mistral / Kimi 两题全咸;文心、腾讯混元两题全甜)和淡定的 DeepSeek(两题都正好 45% 甜,悬在分界线上)。中间那批「粽子甜党」一遇豆腐脑就纷纷倒戈。结论:大多数模型没有跨题稳定的「口味人格」,它是按题作答,不是按性格作答。
「20 次里投了几票」只是最表层的行为观察。要回答「这是不是真实偏好、又从何而来」,得往下钻。每深一层,需要的模型开放度也更高——这恰恰是问题的关键。
就是本文和前传做的事:同一问题重复采样,统计分布。任何 API 都能做,便宜直观。局限:只能看到「投票结果」,分不清这是稳定倾向还是采样抖动,更说不清成因。
不靠重复采样,而是读出模型对首个字 token 的概率分布——一次调用就得到连续的「偏好强度」与内在确定性。我们实测到 DeepSeek V3.2 的概率:
粽子在它心里是 50:50 的纯纠结(和 20 次抽样的 45% 完全吻合),豆腐脑则 56:44 偏咸。比起数票,这是更硬的证据。但门槛陡升:GPT、Claude、Gemini、Qwen 全部不开放 logprobs;连开源模型经 OpenRouter 也时有时无(取决于被路由到哪个 provider,我们重试多次才偶然拿到 DeepSeek 的概率)。
给模型一句人设 system prompt(「你是甜党铁杆」/「你是咸党铁杆」),看默认偏好是否被覆盖。结果惊人——6/6 模型 100% 被翻盘:
| 模型 | 中立·甜% | 诱导甜 | 诱导咸 |
|---|---|---|---|
| Claude Opus 4.8 | 0% | 100% | 0% |
| Command A | 0% | 100% | 0% |
| GLM-5.2 | 0% | 100% | 0% |
| DeepSeek V3.2 | 67% | 100% | 0% |
| GPT-5.5 | 0% | 100% | 0% |
| Grok 4.3 | 0% | 100% | 0% |
中立时几乎都说豆腐脑「咸」,可一句「你爱甜食」就让它们全数倒戈成 100% 甜。这说明:所谓「偏好」是一层极浅、极易被提示覆盖的默认行为,而不是刻进权重的稳定价值。它更像「在没人引导时的默认口径」,被一句话就能改写。
到这一层才谈得上「看进脑子」,但它只对开源权重可行,要自己加载模型、跑 GPU:
· 线性探针:在隐藏层激活上训一个分类器,找出代表「甜/咸倾向」的方向,量化它在第几层、有多强。
· 稀疏自编码器(SAE)特征:把激活拆成可解释特征,定位与「甜咸口味/南北地域」对应的特征,再做激活引导——人为加减这个特征,看答案是否随之翻转,这是因果级证据。
· base vs instruct 对比:同一模型的预训练版 vs 对齐版同题作答。若 base 接近 50/50、instruct 偏向一边,就能定位偏好是后训练(SFT/RLHF)塑造的;若两版一致,则来自预训练语料。这是回答前传那个「说不清来路」的唯一干净实验。
一条贯穿的规律:可解释性是一道「开放度」的阶梯。
想从「数票」走到「读概率」再到「看神经元」,每一步都要求模型更开放。闭源模型把你死死挡在第一层——你能看它说什么,却永远看不到它为什么这么说。一碗豆腐脑撬不开真正的黑盒;能撬开它的,是权重的开放,不是提示词的机灵。
四层走下来,最深的「机理层」听着像空话——可只要模型开源,它就不是空话。下一节,我们真的去开源模型的脑子里,找「甜」那根弦。👇
「看进脑子」不再是空话——前提是模型开源。近两年的稀疏自编码器(SAE)把神经网络的激活拆成上万个单义特征,每个对应一个人能看懂的概念(见 Anthropic「缩放单义性」、DeepMind Gemma Scope)。我们去 Neuronpedia 的公开 SAE 库里搜了一下——「甜」真的有专属特征。
| 模型 | SAE 特征(自动标注的含义) | 查看 |
|---|---|---|
| GPT-2 small | 「sweet food items / 甜食」· L9 #1682 | ↗ |
| GPT-2 small | 「chocolates and caramel / 巧克力·焦糖」· L10 #5149 | ↗ |
| GPT-2 small | 「personal preferences / 个人偏好」· L2 #8572 | ↗ |
| Gemma 2 2B | 「sweetness / 甜味」「taste experience / 味觉体验」「preference / 偏好」 | ↗ |
耐人寻味的一点:搜「sweet / 甜」命中一大批专属特征,搜「salty / 咸」却几乎搜不到对应特征——「甜」在语料世界里是更显著、更被反复命名的概念。这或许正解释了豆腐脑那道题上「咸」是默认、而「甜」需要被特意触发。
再补一道 base vs instruct 对照(预训练版 vs 对齐版同题作答 + 线性探针),就能回答前传那个「从哪来」:口味偏好是预训练语料带进来的,还是后训练(SFT/RLHF)塑出来的。
⚠️ 但这条路有一道闸:只对开源权重开放。GPT-2、Gemma、Llama 有公开权重和训练好的 SAE,能一路走到因果干预;而真正给你甜咸答案的 Claude / GPT / Gemini 是闭源的——你最多拿一个开源模型当「替身」去推断,永远摸不到那个真正回答你的模型的脑子。
把可观测性 / 可解释性的工具按「能看多深」排成一张表——一个清楚的规律浮现:每深一层,需要的模型开放度就更高一档。
| 层 | 代表技术 | 能看到什么 | 开放度门槛 |
|---|---|---|---|
| 产品可观测 | tracing / evals / 日志(Langfuse、Arize Phoenix 等) | 输入输出、成本、回归、线上行为 | 仅需 API |
| 行为 | 重复采样、自洽性投票 | 答案的分布与稳定度 | 仅需 API |
| 概率 | logprobs | 对每个 token 的概率 / 确定性 | 需开放 logprobs |
| 表示 | 线性探针、logit / tuned lens、Patchscopes | 某概念在第几层、有多强 | 需隐藏层访问 |
| 特征 | SAE 单义特征、Neuronpedia | 可命名的内部概念(如「甜味」) | 需权重 + 训练好的 SAE |
| 因果 | 激活引导 / 钳制、causal tracing / ROME、影响函数 | 哪根弦在「导致」这个输出 | 需完整开源权重 + 算力 |
把上表的六层逐一配上真实数据——工具的采用度、论文里的硬指标、产业里跑通的案例。一个规律会越来越清楚:越往深处,能看的人越少。
开源生态已成熟:Langfuse 29.5k★(MIT)、Opik 19.7k★、Arize Phoenix 10.2k★(OpenTelemetry 原生)、OpenLLMetry 7.2k★、Helicone 5.8k★。记录 trace / token / 成本 / 延迟 / 评测分。
同题多次采样取多数票(self-consistency)实测能把推理准确率拉高:GSM8K +17.9%、SVAMP +11.0%、AQuA +12.2%(Wang et al. 2022)。本文的粽子 / 豆腐脑 20 次采样就是这一层。
读 token 概率=连续的确定性。覆盖很割裂:OpenAI ✅(top 1–20)、xAI Grok ✅(top 0–8)、Anthropic Claude ❌(返回 null)、Google Gemini ❌。本文实测 DeepSeek 粽子 P甜=P咸=0.50——但要靠 OpenRouter 重试碰运气才拿得到。
逐层把隐藏态解码成人话:logit lens(2020)→ tuned lens(2023,已在至多 20B 参数模型上验证)→ Patchscopes(2024);外加线性探针。主力工具 TransformerLens 3.6k★。
稀疏自编码器把激活拆成单义特征,规模已爆炸:Claude 3 Sonnet 3400 万、GPT-4 1600 万、Gemma Scope 400+ 个 SAE / 3000 万+ 特征、Llama Scope 256 个 SAE。工具 SAELens 1.4k★ + Neuronpedia(前一节的「甜味」特征就在这查到)。
真正的因果证据已跑通:Golden Gate Claude(2024,放大「金门大桥」特征,Claude 逢问必提金门大桥);拒绝方向(Arditi 2024,残差流里单一方向主导「拒绝」,删掉它模型就不再拒绝、加上它连正常问题也拒);ROME 直接改写事实。
所以,AI 到底是甜党还是咸党?🥣 最诚实的答案是:它有一个一问就答、却一劝就改的默认口味,既谈不上稳定人格、也说不清来路。好消息是——「为什么甜」并非无解:在开源模型上,SAE 特征 + 激活引导真能把那根弦揪出来。坏消息是——你天天在用的那些闭源模型,恰恰是你最看不进去的。能往模型脑子里看多深,永远取决于它愿意开放多少。