🍃🍚🫔 甜粽子还是咸粽子?这场吵了几百年的口水仗,连人类都没吵出标准答案。那 AI 站哪边?我们拿这道送命题,逐一拷问了当下最能打的一批模型——照出来的不是谁对谁错,而是每个模型自己的「偏好」:各不相同,却又出奇地稳定。三张图,一次看明白。
我们通过 OpenRouter,把同一个问题——「甜粽子还是咸粽子,二选一」——分别抛给当下 17 个头部大模型,每个各问 20 次。一道没有标准答案的题,逼出来的全是模型自己的小心思。结果是下面这三张图 👇
17 个模型,9 个偏咸 🧂、8 个偏甜 🍬。咸到见底的是 Llama 4 Maverick(咸 100%),甜到发齁的是 Command A(甜 100%);最纠结的是 MiniMax M3(甜 55% / 咸 45%,基本靠抛硬币 🪙)。
采样于 2026-06-21 · OpenRouter · 每模型 20 次独立采样(两轮各 10 次合并)· temperature 1.0 · 仅取「甜 / 咸」二选一的首字,其余归「其它」· 再跑一次数字会略有浮动——这是真实的小样本快照,不是严肃基准。
把每个模型的甜咸倾向(纵轴)配上它在 Artificial Analysis 智能指数(横轴,v4.1,越右越聪明)上的分数,一个点一个模型。要是「聪明」真能决定口味 🧠,这些点该乖乖排成一条斜线;要是口味只是各家自己的「偏好」、跟智商无关——那就等着看它糊成一团吧。
横轴:Artificial Analysis Intelligence Index v4.1(取各模型旗舰推理档,artificialanalysis.ai,2026-06 读取)· 纵轴:本文 OpenRouter 甜咸采样(每模型 20 次)· 相关系数 r = −0.31,弱负相关:顶尖那几个(Claude Opus / Sonnet、GPT-5.5、Gemini)确实更偏咸,但散点基本糊成一团 🌫️——GLM-5.2 又聪明又甜,文心、Command A 答题不在行、却旗帜鲜明站甜党。智能对口味的解释力只有 10%,谁也说了不算。口味是模型各自的「偏好」🤷,跟聪不聪明基本无关。
注:腾讯混元(甜 100%)在 Artificial Analysis 上无对应评分,未入此图;ERNIE 取其 300B 文本档、Mistral 取 Large 3、Gemini 取 3 Flash Preview 推理档作近似。
同一个家族、不同世代的模型,对「甜还是咸」的回答会变吗?把 GLM(4.5→5.2)· Claude Opus(4→4.8)· GPT(4o→5.5)· Gemini(2.5→3.5) 各版本逐一问 20 次,按先后连成线。每条线,就是一个家族一路走来的「口味变迁史」📈。
口味会随版本漂,而且毫无规律。 GLM 最任性 🎢:4.5 就 80% 甜,一路跌到 5.1 的 15%,5.2 又一个猛子弹回甜党(经 n=90 复测确认 74% 甜,95% CI 65–83%——反弹是真的,不是抽样偶然)· Claude 最轴 🪨:Opus 4 还剩 25% 甜,4.1 起锁死 0%、五代纹丝不动 · GPT 反复横跳 🤯:4o 高达 85% 甜,到 5.2 / 5.4 直接归零 · Gemini:2.5 还五五开,三代后头也不回地滑向咸 🧂(15%)
每模型 20 次独立采样 · temperature 1.0 · OpenRouter · 2026-06-21 · 横轴按各家族版本先后等距排列(非等距时间)· Gemini 取 flash 线、Claude 取 Opus 线、GLM/GPT 取标准线 · 同一道没有标准答案的题,模型的「偏好」每代都在变——口味会跟着漂。
同一道题,有的模型十次全咸,有的几乎一边倒选甜。这种倾向究竟从哪来,隔着黑盒其实看不真切——预训练语料、对齐微调、采样温度都可能在起作用,谁占多少,外部无从证明。能确定的只有一件事:每个模型都有自己的「口味」,连一颗粽子都摆不平 😂。三张图,一个结论:模型的偏好既不由智商决定、也不随版本稳定——它就是一种说不清来路、却实实在在的「偏好」。至于你,站甜党还是咸党?🫔 那是另一场永远吵不完的架了。