端午 × 人工智能

问甜咸之争 · 一道没有标准答案的「送命题」

问 AI：甜粽子，还是咸粽子？= 每个模型的「偏好」

我们通过 OpenRouter，把同一个问题——「甜粽子还是咸粽子，二选一」——分别抛给当下 17 个头部大模型，每个各问 20 次。一道没有标准答案的题，逼出来的全是模型自己的小心思。结果是下面这三张图 👇

📊 AI 的甜咸之争 · 17 个模型站队图

🍬 甜 · 豆沙蜜枣🧂 咸 · 蛋黄鲜肉

Command ACohere

甜 100%

腾讯混元腾讯

甜 100%

Grok 4.3xAI

甜 95%

文心一言 ERNIE 4.5百度

甜 90%

GLM-5.2智谱 AI

甜 80%

咸 20%

阶跃 Step 3.7阶跃星辰

甜 65%

咸 35%

通义千问 Qwen3.7阿里巴巴

甜 60%

咸 40%

MiniMax M3MiniMax

甜 55%

咸 45%

DeepSeek V3.2DeepSeek

甜 45%

咸 55%

GLM-4.7智谱 AI

甜 40%

咸 60%

Gemini 3 FlashGoogle

咸 90%

GPT-5.5OpenAI

咸 95%

Mistral LargeMistral

咸 95%

Claude Sonnet 4.6Anthropic

咸 95%

Kimi K2.6月之暗面

咸 95%

Claude Opus 4.8Anthropic

咸 100%

Llama 4 MaverickMeta

咸 100%

← 全甜50%全咸 →

17 个模型，9 个偏咸 🧂、8 个偏甜 🍬。咸到见底的是 Llama 4 Maverick（咸 100%），甜到发齁的是 Command A（甜 100%）；最纠结的是 MiniMax M3（甜 55% / 咸 45%，基本靠抛硬币 🪙）。
采样于 2026-06-21 · OpenRouter · 每模型 20 次独立采样（两轮各 10 次合并）· temperature 1.0 · 仅取「甜 / 咸」二选一的首字，其余归「其它」· 再跑一次数字会略有浮动——这是真实的小样本快照，不是严肃基准。

🧐 越聪明，就越懂吃吗？· 智能 × 甜咸二维图

把每个模型的甜咸倾向（纵轴）配上它在 Artificial Analysis 智能指数（横轴，v4.1，越右越聪明）上的分数，一个点一个模型。要是「聪明」真能决定口味 🧠，这些点该乖乖排成一条斜线；要是口味只是各家自己的「偏好」、跟智商无关——那就等着看它糊成一团吧。

横轴：Artificial Analysis Intelligence Index v4.1（取各模型旗舰推理档，artificialanalysis.ai，2026-06 读取）· 纵轴：本文 OpenRouter 甜咸采样（每模型 20 次）· 相关系数 r = −0.31，弱负相关：顶尖那几个（Claude Opus / Sonnet、GPT-5.5、Gemini）确实更偏咸，但散点基本糊成一团 🌫️——GLM-5.2 又聪明又甜，文心、Command A 答题不在行、却旗帜鲜明站甜党。智能对口味的解释力只有 10%，谁也说了不算。口味是模型各自的「偏好」🤷，跟聪不聪明基本无关。
注：腾讯混元（甜 100%）在 Artificial Analysis 上无对应评分，未入此图；ERNIE 取其 300B 文本档、Mistral 取 Large 3、Gemini 取 3 Flash Preview 推理档作近似。

🎢 口味会随版本变吗？· 四大家族的甜咸演进史

同一个家族、不同世代的模型，对「甜还是咸」的回答会变吗？把 GLM（4.5→5.2）· Claude Opus（4→4.8）· GPT（4o→5.5）· Gemini（2.5→3.5） 各版本逐一问 20 次，按先后连成线。每条线，就是一个家族一路走来的「口味变迁史」📈。

口味会随版本漂，而且毫无规律。 GLM 最任性 🎢：4.5 就 80% 甜，一路跌到 5.1 的 15%，5.2 又一个猛子弹回甜党（经 n=90 复测确认 74% 甜，95% CI 65–83%——反弹是真的，不是抽样偶然）· Claude 最轴 🪨：Opus 4 还剩 25% 甜，4.1 起锁死 0%、五代纹丝不动 · GPT 反复横跳 🤯：4o 高达 85% 甜，到 5.2 / 5.4 直接归零 · Gemini：2.5 还五五开，三代后头也不回地滑向咸 🧂（15%）
每模型 20 次独立采样 · temperature 1.0 · OpenRouter · 2026-06-21 · 横轴按各家族版本先后等距排列（非等距时间）· Gemini 取 flash 线、Claude 取 Opus 线、GLM/GPT 取标准线 · 同一道没有标准答案的题，模型的「偏好」每代都在变——口味会跟着漂。

同一道题，有的模型十次全咸，有的几乎一边倒选甜。这种倾向究竟从哪来，隔着黑盒其实看不真切——预训练语料、对齐微调、采样温度都可能在起作用，谁占多少，外部无从证明。能确定的只有一件事：每个模型都有自己的「口味」，连一颗粽子都摆不平 😂。三张图，一个结论：模型的偏好既不由智商决定、也不随版本稳定——它就是一种说不清来路、却实实在在的「偏好」。至于你，站甜党还是咸党？🫔 那是另一场永远吵不完的架了。

问 AI：甜粽子，还是咸粽子？= 每个模型的「偏好」

📊 AI 的甜咸之争 · 17 个模型站队图

🧐 越聪明，就越懂吃吗？· 智能 × 甜咸 二维图

🎢 口味会随版本变吗？· 四大家族的甜咸演进史

🧐 越聪明，就越懂吃吗？· 智能 × 甜咸二维图