← xiaopingfeng.com
Research
研究
独立研究项目。每个项目有完整的代码、数据和结论,不是 demo,不是 tutorial。
— 评测 —
LLM 能画出胎儿分娩机转吗?
RE · 0004 · 评测 · Benchmark · 8 个模型 · 2026
给 8 个顶级模型出一道医学绘图题。解剖准确性 C2 均值 1.9/5,全批次最弱维度。唯一正确处理内旋转的模型:GLM 5.1 Thinking(俯视图)。
查看排行榜 →
ABAP-Bench · AI × SAP 评测
Benchmark · 12 个模型 · 2026
给 AI 出一张 SAP 顾问资格考试卷。12 个模型实测,覆盖 ABAP 编程、业务配置、系统架构三个维度,附完整排行榜与方法论。
查看排行榜 →
— 系统 —
AutoResearch Batch · LLM 自动优化 ML 模型
RE · 0010 · 系统实现 · BigModel Batch · 2026
让 LLM 当自动 ML 研究员:一次提交 K 个候选 → Batch API 返回 → 并行实验 → 选优迭代。GLM 自主把 CIFAR-10 升级为 VGG(+7.9pp→0.837)、CIFAR-100 升级为 ResNet-18(+5.0pp→0.513),公平 baseline、诚实增益。
查看实验报告 →
LLM from Query to Result · 全栈 LLM 系统
RE · 0006 · 系统实现 · 8 层 · CUDA · 2026
从随机权重到 GPU 矩阵乘,零外部 LLM API、零外部模型权重。RTX 5090 上 70 秒训出会调工具的 agent;手写 BPE(≡ tiktoken)、KV cache、Transformer、Triton flash-attention,三台 GPU 实测验证。
查看项目 →
VIT Secure Inference · 隐私保护视觉推理
隐私计算 · macOS · GLM-4V · 2026
本地运行视觉推理,图像不离开设备。用 CORS bridge 连接本地服务与 Web 界面,GLM-4V 驱动,支持 ImageNet 分类与自定义图像。
查看项目 →
— 协议设计 —
UGP · 通用零工协议
RE · 0008 · 协议设计 · draft-feng-ugp-00 · 2026
对标 Google UCP 的劳动力垂直协议,让需求方与零工 Agent 跨平台完成发现→协商→缔约→履约→结算→互评。两部分:交互式角色架构图(入口)+ 完整 RFC 草案。复用 A2A / AP2 / MCP / W3C VC。
查看项目 →
— 安全研究 —
CyberAI 使用完全指南
RE · 0007 · 安全研究 · 工具 · 2026
从代码到 CVE 的完整操作手册 — Pipeline A 工作原理、CLI 参考、扫描结果解读、CVE 披露工作流,涵盖 10+ 目标库、7 个候选漏洞。
查看指南 →
— 教育 —
Z School · AI 天才少年计划
RE · 0009 · 教育 · 28 天沉浸营 · 2026
为 14–18 岁极客设计的 AI 工程沉浸营。完整课程体系 + 15 道天才挑战题,覆盖 Transformer、推理优化、Agent Memory,从理论到可运行代码。
查看项目 →