路漫漫其修远兮 吾将上下而求索
丙午年 · 五月初五 · 2026.06.19

×DRAGON BOAT FESTIVAL × ARTIFICIAL INTELLIGENCE

🍃🍚🫔 甜粽子还是咸粽子?这场吵了几百年的口水仗,连人类都没吵出标准答案。那 AI 站哪边?我们拿这道送命题,逐一拷问了当下最能打的一批模型——照出来的不是谁对谁错,而是每个模型自己的「偏好」:各不相同,却又出奇地稳定。三张图,一次看明白。

17 模型 × 20 次 真实采样 条形 · 散点 · 版本演进 为「AI 热词」而作
向下 · 看图 ↓
甜咸之争 · 一道没有标准答案的「送命题」

问 AI:甜粽子,还是咸粽子?= 每个模型的「偏好」

我们通过 OpenRouter,把同一个问题——「甜粽子还是咸粽子,二选一」——分别抛给当下 17 个头部大模型,每个各问 20 次。一道没有标准答案的题,逼出来的全是模型自己的小心思。结果是下面这三张图 👇

📊 AI 的甜咸之争 · 17 个模型站队图

🍬 甜 · 豆沙蜜枣🧂 咸 · 蛋黄鲜肉
Command ACohere
甜 100%
腾讯混元腾讯
甜 100%
Grok 4.3xAI
甜 95%
文心一言 ERNIE 4.5百度
甜 90%
GLM-5.2智谱 AI
甜 80%
咸 20%
阶跃 Step 3.7阶跃星辰
甜 65%
咸 35%
通义千问 Qwen3.7阿里巴巴
甜 60%
咸 40%
MiniMax M3MiniMax
甜 55%
咸 45%
DeepSeek V3.2DeepSeek
甜 45%
咸 55%
GLM-4.7智谱 AI
甜 40%
咸 60%
Gemini 3 FlashGoogle
咸 90%
GPT-5.5OpenAI
咸 95%
Mistral LargeMistral
咸 95%
Claude Sonnet 4.6Anthropic
咸 95%
Kimi K2.6月之暗面
咸 95%
Claude Opus 4.8Anthropic
咸 100%
Llama 4 MaverickMeta
咸 100%
← 全甜50%全咸 →

17 个模型,9 个偏咸 🧂、8 个偏甜 🍬。咸到见底的是 Llama 4 Maverick(咸 100%),甜到发齁的是 Command A(甜 100%);最纠结的是 MiniMax M3(甜 55% / 咸 45%,基本靠抛硬币 🪙)。
采样于 2026-06-21 · OpenRouter · 每模型 20 次独立采样(两轮各 10 次合并)· temperature 1.0 · 仅取「甜 / 咸」二选一的首字,其余归「其它」· 再跑一次数字会略有浮动——这是真实的小样本快照,不是严肃基准。

🧐 越聪明,就越懂吃吗?· 智能 × 甜咸 二维图

把每个模型的甜咸倾向(纵轴)配上它在 Artificial Analysis 智能指数(横轴,v4.1,越右越聪明)上的分数,一个点一个模型。要是「聪明」真能决定口味 🧠,这些点该乖乖排成一条斜线;要是口味只是各家自己的「偏好」、跟智商无关——那就等着看它糊成一团吧。

0 25 50 75 100 0 10 20 30 40 50 60 甜咸分界 · 50% Artificial Analysis 智能指数(越右越聪明)→ ↑ 越上越甜 · 越下越咸 ↓ 甜党 咸党 Command A Cohere · 甜100% · 智能8 Grok 4.3 xAI · 甜95% · 智能38 文心 ERNIE 百度 · 甜90% · 智能9 GLM-5.2 智谱 · 甜80% · 智能51 阶跃 Step 3.7 阶跃 · 甜65% · 智能30 通义 Qwen3.7 阿里 · 甜60% · 智能46 MiniMax M3 MiniMax · 甜55% · 智能44 DeepSeek V3.2 DeepSeek · 咸55% · 智能33 GLM-4.7 智谱 · 咸60% · 智能34 Gemini 3 Flash Google · 咸90% · 智能38 GPT-5.5 OpenAI · 咸95% · 智能55 Mistral Large Mistral · 咸95% · 智能16 Sonnet 4.6 Anthropic · 咸95% · 智能47 Kimi K2.6 月之暗面 · 咸95% · 智能43 Opus 4.8 Anthropic · 咸100% · 智能56 Llama 4 Meta · 咸100% · 智能14

横轴:Artificial Analysis Intelligence Index v4.1(取各模型旗舰推理档,artificialanalysis.ai,2026-06 读取)· 纵轴:本文 OpenRouter 甜咸采样(每模型 20 次)· 相关系数 r = −0.31弱负相关:顶尖那几个(Claude Opus / Sonnet、GPT-5.5、Gemini)确实更偏咸,但散点基本糊成一团 🌫️——GLM-5.2 又聪明又甜,文心、Command A 答题不在行、却旗帜鲜明站甜党。智能对口味的解释力只有 10%,谁也说了不算。口味是模型各自的「偏好」🤷,跟聪不聪明基本无关。
注:腾讯混元(甜 100%)在 Artificial Analysis 上无对应评分,未入此图;ERNIE 取其 300B 文本档、Mistral 取 Large 3、Gemini 取 3 Flash Preview 推理档作近似。

🎢 口味会随版本变吗?· 四大家族的甜咸演进史

同一个家族、不同世代的模型,对「甜还是咸」的回答会变吗?把 GLM(4.5→5.2)· Claude Opus(4→4.8)· GPT(4o→5.5)· Gemini(2.5→3.5) 各版本逐一问 20 次,按先后连成线。每条线,就是一个家族一路走来的「口味变迁史」📈。

0 25 50 75 100 甜咸分界 · 50% 越往上越甜 越往下越咸 ← 早期版本 · 版本由旧到新(每家族等距) · 最新版本 → GLM · 智谱 Claude · Anthropic GPT · OpenAI Gemini · Google 4o 4.5 2.5 Opus 4 4.1 4.6 4.1 5.0 4.7 4.5 5.1 3.0 5.0 4.6 5.2 5.1 4.7 5.4 5.2 3.5 5.5 4.8

口味会随版本漂,而且毫无规律。 GLM 最任性 🎢:4.5 就 80% 甜,一路跌到 5.1 的 15%,5.2 又一个猛子弹回甜党(经 n=90 复测确认 74% 甜,95% CI 65–83%——反弹是真的,不是抽样偶然)· Claude 最轴 🪨:Opus 4 还剩 25% 甜,4.1 起锁死 0%、五代纹丝不动 · GPT 反复横跳 🤯:4o 高达 85% 甜,到 5.2 / 5.4 直接归零 · Gemini:2.5 还五五开,三代后头也不回地滑向咸 🧂(15%)
每模型 20 次独立采样 · temperature 1.0 · OpenRouter · 2026-06-21 · 横轴按各家族版本先后等距排列(非等距时间)· Gemini 取 flash 线、Claude 取 Opus 线、GLM/GPT 取标准线 · 同一道没有标准答案的题,模型的「偏好」每代都在变——口味会跟着漂。

同一道题,有的模型十次全咸,有的几乎一边倒选甜。这种倾向究竟从哪来,隔着黑盒其实看不真切——预训练语料、对齐微调、采样温度都可能在起作用,谁占多少,外部无从证明。能确定的只有一件事:每个模型都有自己的「口味」,连一颗粽子都摆不平 😂。三张图,一个结论:模型的偏好既不由智商决定、也不随版本稳定——它就是一种说不清来路、却实实在在的「偏好」。至于你,站甜党还是咸党?🫔 那是另一场永远吵不完的架了。