← xiaopingfeng.com Research

研究

独立研究项目。每个项目有完整的代码、数据和结论，不是 demo，不是 tutorial。

— 评测 —

LLM 能画出胎儿分娩机转吗？

RE · 0004 · 评测 · Benchmark · 8 个模型 · 2026

给 8 个顶级模型出一道医学绘图题。解剖准确性 C2 均值 1.9/5，全批次最弱维度。唯一正确处理内旋转的模型：GLM 5.1 Thinking（俯视图）。

查看排行榜 →

ABAP-Bench · AI × SAP 评测

Benchmark · 12 个模型 · 2026

给 AI 出一张 SAP 顾问资格考试卷。12 个模型实测，覆盖 ABAP 编程、业务配置、系统架构三个维度，附完整排行榜与方法论。

查看排行榜 →

— 系统 —

在 AMD Strix Halo 上用 LLM Agent 挖 GPU Kernel SOTA

RE · 0011 · 系统实现 · KernelBench · gfx1151 · GLM-5.1 · 2026

消费级 AMD iGPU（gfx1151）上用 GLM-5.1 生成 Triton kernel 挖加速。诚实结论：大多数"惊艳加速"是 FP16 假象 / reward-hack / 被 torch.compile 追平；真正的 SOTA 在编译器结构性做不到的地方——MoE routing（越稀疏收益越大，1.10→1.48× vs torch.compile）。含四层验证体系、真实推理 profiling、2 个 KernelBench 上游 Issue。

查看实验报告 →

AutoResearch Batch · LLM 自动优化 ML 模型

RE · 0010 · 系统实现 · BigModel Batch · 2026

让 LLM 当自动 ML 研究员：一次提交 K 个候选 → Batch API 返回 → 并行实验 → 选优迭代。GLM 自主把 CIFAR-10 升级为 VGG（+7.9pp→0.837）、CIFAR-100 升级为 ResNet-18（+5.0pp→0.513），公平 baseline、诚实增益。

查看实验报告 →

LLM from Query to Result · 全栈 LLM 系统

RE · 0006 · 系统实现 · 8 层 · CUDA · 2026

从随机权重到 GPU 矩阵乘，零外部 LLM API、零外部模型权重。RTX 5090 上 70 秒训出会调工具的 agent；手写 BPE（≡ tiktoken）、KV cache、Transformer、Triton flash-attention，三台 GPU 实测验证。

查看项目 →

VIT Secure Inference · 隐私保护视觉推理

隐私计算 · macOS · GLM-4V · 2026

本地运行视觉推理，图像不离开设备。用 CORS bridge 连接本地服务与 Web 界面，GLM-4V 驱动，支持 ImageNet 分类与自定义图像。

查看项目 →

— 协议设计 —

UGP · 通用零工协议

RE · 0008 · 协议设计 · draft-feng-ugp-00 · 2026

对标 Google UCP 的劳动力垂直协议，让需求方与零工 Agent 跨平台完成发现→协商→缔约→履约→结算→互评。两部分：交互式角色架构图（入口）+ 完整 RFC 草案。复用 A2A / AP2 / MCP / W3C VC。

查看项目 →

— 安全研究 —

CyberAI — 让大模型去挖真实漏洞

RE · 0011 · 安全研究 · 方法论 · 2026

用 GLM 挖真实漏洞的历程：成熟 C 库一无所获（但摸清了方法论陷阱），转向较新的 JVM 生态后挖到一组确认的、均有可运行 PoC 的漏洞——含一个此前未公开的远程代码执行，正走协调披露。最后工程化成企业可离线部署平台。

查看研究 →

CyberAI 使用完全指南

RE · 0007 · 安全研究 · 工具 · 2026

从代码到 CVE 的完整操作手册 — Pipeline A 工作原理、CLI 参考、扫描结果解读、CVE 披露工作流，涵盖 10+ 目标库、7 个候选漏洞。

查看指南 →

— 教育 —

Z School · AI 天才少年计划

RE · 0009 · 教育 · 28 天沉浸营 · 2026

为 14–18 岁极客设计的 AI 工程沉浸营。完整课程体系 + 15 道天才挑战题，覆盖 Transformer、推理优化、Agent Memory，从理论到可运行代码。

查看项目 →