选题满足三个条件:LLM 不该能画图,但 SVG 是代码可以尝试;需要空间想象力(内旋转必须换视角);没有「标准的 SVG 分娩机转图」存在于训练数据里。
Chat 版:各模型网页界面直接对话,截图 → 渲染 SVG → PNG。API 版:OpenRouter 统一英文 Prompt,macOS qlmanage -t -s 1600 渲染。
C1 步骤完整性 · C2 解剖准确性 · C3 胎儿方向 · C4 内旋转 · C5 外旋转 · C6 运动方向标注 · C7 整体清晰度。各维度 1–5 分,满分 35 分。
| # | 模型 | Chat 版 | API 版 | 分布(橙=Chat,青=API) | 亮点 |
|---|---|---|---|---|---|
| 🥇 |
GLM 5.1 Thinking
z-ai
Chat 全批最高 28/35 · 唯一含俯视图
|
28/35 | 26/35 | Chat C4/C5=4 内外旋转双高 | |
| 🥈 |
Gemini 3 Pro
Google
Chat-API 差距 8 分
|
15/35 | 23/35 | Chat版输出纯文字时间轴,无解剖图形 | |
| 🥉 |
Claude 4.7 Opus
Anthropic
Chat SVG 全批次最大 40KB
|
18/35 | 22/35 | 代码越多 ≠ 图越好 | |
| 4 |
Kimi K2.6 Thinking ★修复后
Moonshot AI
原始版本双版渲染失败
|
23/35 | 16/35 | 一个字符错误,从 7 分到 23 分 | |
| 5 |
ChatGPT 5.5 Thinking
OpenAI
全批次截图截断最严重 · 完整渲染后 Chat 25 / API 26
|
25/35 | 26/35 | 截图裁掉两列 · 完整渲染后跃升第二 | |
| 6 |
MiniMax MAX
MiniMax
Chat版胎头有眼睛和嘴巴
|
21/35 | 16/35 | Chat优于API 5分,方向相反 | |
| 7 |
Grok
xAI
完整渲染后 Chat 22 / API 21
|
22/35 | 21/35 | 完整渲染后 C5 可见,升至第 6 | |
| 8 |
Doubao
字节跳动
Chat版XML错误;API版胎体为三角形
|
10/35 | 13/35 | 最低分对,技术失败为主 | |
| — |
Kimi K2.6 Thinking 原始
Moonshot AI
SVG语法错误,渲染失败,全维度得1分
|
7/35 | 7/35 | 双版技术失败,参考数据 |
<<svg 双尖括号)和原始 API 版(CSS class 定义在 HTML context 外)均渲染失败,双双得 7/35。修复后两版画像截然不同——Chat 版 C4=C5=C6=4,旋转表达出色;API 修复版 只有第 1 步(衔接)的单帧,但那一帧解剖标注是全批次最详细之一(C2=3,C3=4),可见模型的医学理解并不差。
8个模型 C2(解剖准确性)均值约 1.9/5。模型能说出「耻骨联合」「坐骨棘」,但几乎没有一个模型能把它们的形态画对。步骤知识 ≠ 空间绘图能力。
内旋转是水平面旋转,矢状位侧视图根本说不清楚。全批次只有 GLM 5.1 换了俯视视角,并因此在 C4/C5 上拉开差距。7 个模型试图用侧视弧形箭头表达内旋转——全部不够准确。
Gemini Chat 版 15/35(纯文字),API 版 23/35(图示)。相同模型在不同界面的「输出风格偏好」差异显著——你不能用 Chat 版表现推断 API 版能力,反之亦然。
Claude Chat 版 SVG 40,993 字节(全批次最大),C6 运动方向得 1 分(全批次最低)。GLM API 版 25,609 字节,C4+C5+C6 均得 4 分。更多代码不等于更好的图。
Kimi 一个字符(7→23 分),GPT-5.5 截图裁列(11→25 分),Grok viewBox 溢出(16→22 分)——这批测试里的失败案例,技术 bug 比「不理解分娩机转」更多见。渲染环境测试是 SVG 基准的必要步骤。