一句话:Sutton 和 Rafiee 把认知科学的 enactive 认知正式摆上 RL 的议程——主张「感知本身就是一种技巧性的行动」,并诚实承认这套主张还没被工程化,只给出了一份可讨论、可证伪的研究议程。
论文最后那一问——「带工具与 API 的软件 agent,算不算具身?」——几乎是给 MCP / computer-use 时代量身定的本体论问题。它和同期工程话题(agent 自己生成经验、把技巧压成可训练的 skill 文档)是同一命题的理论面与工程面:一个为 skill 给出认知本质,一个把 skill 做成工件。
enactive(生成 / 具身)认知不是一句口号,论文把它拆成四个可分别讨论的概念,并逐一对照当下 AI 的实现状态——看清「主流走到哪、enactive 想往哪推」。
认知扎根于持续互动,「世界是它自己最好的模型」(Brooks)。规则系统没有经验;监督学习一次性学固定数据集;RL 把经验放回核心(自采数据)。呼应 Silver & Sutton《Era of Experience》与 Big World Hypothesis。
感知即掌握感觉运动偶联,to perceive is to act(Noë / Merleau-Ponty 的意向弧 · 最大把握)。主流仍把感知当成「先于行动的被动提取」;视频生成模型能续接模式,却无法在模式被打破时技巧性地介入。
autopoiesis 自我维持 → 规范性由自身存续生出。监督学习不自评、标准由外部给定;RL 用 reward 对整条轨迹自评,但 reward 仍是外部指定的;内在动机 / hindsight 正在靠近。
身体形态决定可能的偶联与 affordance,是认知的构成性条件。主流做成「静态数据集上的模式识别」;embodied RL 把身体当外部约束;软体机器人 / 形态计算证明「身体在做计算」,却仍属边缘。
四个概念排成一条递进的标尺:从「有没有经验」到「经验是不是自己生成、是不是和身体不可分」。RL 在第一格已经站稳,越往后越是开放地带。
To perceive is not to receive the world —
it is a skillful way of acting in it. — THE ENACTIVE THESIS, AS RAFIEE & SUTTON FRAME IT FOR RL
论文最克制也最关键的判断是:RL 与 enactive 之间是结构性共振,而不是等价。三处共振真实存在——自生成经验、以行动为中心、reward 在时间上延展地评价;但三处缝隙同样真实:
RL 的 reward 由外部给定,而 enactive 要求规范性从 agent 的自我维持中内生出来。
RL 里行动与感知仍是可分离的两个模块;enactive 要的是二者在原理上互相构成、不可拆解。
主流把身体当外部约束或工程细节;enactive 视身体为认知的构成性条件。
论文自陈:这套主张尚未 operationalize。它没有假装给出答案,而是把四个尚未可量化的问题摆到台面上——这正是一篇诚实的立场论文该做的事:
第四问几乎是给 MCP / computer-use 时代量身定制的本体论问题:当一个 agent 的「身体」是它能调用的工具集与 API 边界时,「具身」这个词需要被重新定义。
这篇立场论文给当下反复出现的「agent 自己生成经验」(Codex for Knowledge Work、CooperBench、评估时代的 situational awareness)提供了一个统一的理论坐标。当工程界忙着让 agent 自采数据、自我评估时,这篇论文在问:这些动作在认知科学里意味着什么、还差哪几步。
它和「把技巧性程序压成可训练的 skill 文档」这类工程实践形成了漂亮的对照:一个把 skill 做成工件,一个为 skill 给出认知本质——恰是同一命题的工程面与理论面。前者在论证「感知 / 认知本身就是 skillful engagement」,后者在把这种 engagement 压缩成可复用的文档。
它延续了 Sutton《Era of Experience》的线索,把一句口号延伸成可讨论、可证伪的研究议程。对 AI 工程师,它的价值不在于今天能用——而在于它指出了「reward 外部性」「动作-感知可分性」「具身定义」这三道当前架构尚未跨过的坎,并把「软件 agent 算不算具身」这个问题,正式交给了 MCP / computer-use 时代。
📌 窗口说明:本文整理自 arXiv:2605.24238v1(2026-05-22),系 AI Buzzwords EP.88「专题二」人工补录的深度专题。它与专题一 SkillOpt(agent 怎么学)、专题三微软 Build 2026(agent 谁来管 / 跑在哪)、专题四 Palantir AIPCon 10(agent 在行业里怎么落地)串成「Agent 控制平面」主线——本篇回答的是其中最本体的一问:agent 到底是什么。