递归自我改进（RSI）：从 Gödel Machine 到自我进化的 coding agent

Jul 2026 · Recursive Self-Improvement / Self-Improving Agents / Automated AI Research

「让 AI 改进 AI，改进后的 AI 再去改进 AI」——这个 1965 年就被提出的想法，在 2024–2026 年突然从思辨变成了能在真实 benchmark 上刷分的工程。这篇按时间线把 递归自我改进（Recursive Self-Improvement, RSI） 的谱系串一遍：从 Schmidhuber 的理论 Gödel Machine，到 2025 年爆发的自我进化 coding agent，再到 2026 年 Recursive 与 Poetiq 的产品化，并单独讲一支 Mingchen Zhuge / MetaAuto 的线。

一句话：整条线的关键动作，是把 Schmidhuber Gödel Machine 要求的「证明这次自我修改有益」松弛成「经验上测一下这次修改有没有让 benchmark 涨」。这个替换，让整个 2024–2026 的浪潮成为可能。

0. RSI 是什么，为什么是现在

理论种子（1965）。 I.J. Good 提出「ultraintelligent machine」——一台能在一切智力活动上远超人类的机器；既然「设计机器」本身也是智力活动，它就能设计出更好的机器，于是「there would unquestionably be an intelligence explosion」，第一台这样的机器是「the last invention that man need ever make」。后来 Vinge 造了「technological singularity」，Kurzweil 普及，Nick Bostrom《Superintelligence》（2014）把 recalcitrance、optimization power、takeoff 快慢等做成了现代讨论框架。

这是「递归自我改进」的思想原型。真正把它变成可跑代码，是最近三年的事。

1. 理论根：Schmidhuber 的 Gödel Machine（2003）

第一个数学上严格、完全自指、可证明最优的自我改进求解器（一个理论构造，不是实现）。灵感来自哥德尔 1931 年的自指公式：机器可以重写自己任意部分的代码（包括那个负责搜索证明的部件），但前提是它先证明了这次重写能提高期望未来收益。因为改动必须先被证明有益，这种自我重写是全局最优、无局部极大的。

它的软肋也正是这个证明要求：证明搜索不可解、演绎判据在经验型 ML 里太脆，加上哥德尔不完备性的边界——所以完整实现一直没出现。但它是后面所有工作的祖先：大家都在把「证明有益」替换成「经验上测有益」。（arXiv:cs/0309048）

2. 一个关键区分：到底「谁」在自我改进？

聊 RSI 一定要先分清改的是哪一层，否则很容易把「其实模型没动」的系统吹成真 RSI：

层级	改的是什么	代表工作	注意
Scaffolding / harness	LLM 权重冻结，只改外面的脚手架、工具、workflow、agent 代码	STOP、ADAS、Gödel Agent、DGM、HGM、AlphaEvolve、Voyager、Poetiq、Recursive	绝大多数「RSI」在这一层——STOP 作者自己都强调这不是完整 RSI
Prompt	自指地进化提示词本身	Promptbreeder	连「负责变异的提示词」都一起进化
Weights	真·改模型权重	SEAL、Self-Rewarding LM、R-Zero	少数真正动到模型本身的

记住这张表，后面每个工作对号入座即可。

3. 前奏（2023–2024）

STOP：Self-Taught Optimizer（Zelikman 等，Stanford / MSR，arXiv:2310.02304）。一个种子「improver」用 LLM 改进任意输入程序，然后让 improver 改进它自己；改进后的 improver 提出了 beam search、遗传算法、模拟退火等策略。作者明确 caveat：底层 LLM 冻结，所以只是脚手架自我改进，不是完整 RSI——这句 caveat 适用于下面几乎所有 LLM 时代的「RSI」。
Voyager（NVIDIA 等，2023，arXiv:2305.16291）。Minecraft 里的终身学习 agent：自动课程 + 不断增长的技能库（可执行代码）+ 带环境反馈的迭代提示。用 GPT-4 黑盒，不 fine-tune——靠技能库累积实现复利式自我改进。
Promptbreeder（DeepMind，2023，arXiv:2309.16797）。进化一群 task-prompt，同时进化那些「变异提示词」——于是它改进的是支配自己进化的规则。
ADAS：Automated Design of Agentic Systems（Shengran Hu、Cong Lu、Jeff Clune，2024，arXiv:2408.08435）。把 agent 设计本身当搜索问题：一个 meta agent 用代码迭代地编写新 agent，建立在过往 agent 的 archive 之上。因为代码图灵完备，原则上能表达任意 agent。它是 Darwin Gödel Machine 的直接前身（同一个组、同样的 archive 思想）。
Self-Rewarding LM（Meta，2024，arXiv:2401.10020）。模型自己当 judge 给自己的输出打分，构造偏好对、DPO 训练，多轮迭代，让 instruction-following 和 reward-modeling 一起涨；后续 Meta-Rewarding 又加了 meta-judge。
Gödel Agent（arXiv:2410.04444）。受 Schmidhuber 启发的自演化框架，让 LLM agent 运行时动态改自己的逻辑，只靠高层目标引导。（注：这篇的作者是 Xunjian Yin、Xinyi Wang、Liangming Pan、Xiaojun Wan、William Yang Wang，PKU / UCSB——网上常被误记，这里以 arXiv 为准。）

4. 2025 大爆发：自我进化的 coding agent

这是全篇的核心。四五个工作在同一年把「agent 改自己」跑成了真 benchmark 上的数字。

Darwin Gödel Machine（DGM）

自我改进的 coding agent，迭代地重写自己的 Python 代码库，并用 coding benchmark 经验性地验证每次改动（而不是像 Schmidhuber 那样要求形式证明——所以叫「Darwin」，把证明松弛成进化 / 经验）。维护一个不断扩张的 agent archive（谱系） 做开放式探索，保留「踏脚石」。结果：SWE-bench 20.0% → 50.0%，Polyglot 14.2% → 30.7%，超过手工设计的 agent。作者 Jenny Zhang、Shengran Hu、Cong Lu、Jeff Clune 等（Sakana AI / UBC / Vector Institute），arXiv:2505.22954，ICLR 2026。

Huxley-Gödel Machine（HGM）

KAUST / MetaAuto 这一支的对应工作，同样是改自己代码的 coding agent，沿一条进化谱系（「clade」，借自赫胥黎）演化。核心洞见是诊断出一个 「Metaproductivity–Performance Mismatch」——agent 当前的 benchmark 分，并不能很好预测它长期的自我改进潜力；于是提出新指标 Clade-Metaproductivity（CMP），聚合一个分支所有后代的改进量，来决定下一步该扩展哪个变体。结果：在 SWE-bench Verified 上自优化（GPT-5-mini）、SWE-bench Lite 上评测（GPT-5），达到人类水平的 coding 表现。作者 Wenyi Wang、…、Mingchen Zhuge、Jürgen Schmidhuber，arXiv:2510.21614，ICLR 2026 Oral。（Zhuge 在这篇是资深作者位，不是一作，别过度归因；这是他所在组的工作。）

DGM vs HGM：同一个想法的两支后代。 两者都是把 Schmidhuber Gödel Machine 的「证明有益」松弛成「经验验证有益」的实践版——DGM 来自 Clune / Sakana 一系（开放式进化 + archive），HGM 来自 Schmidhuber / KAUST 一系（谱系聚合 CMP）。把它们理解成同源的两个 2025 分支，而不是谁抄谁。（顺带澄清：Zhuge 不是 DGM 的作者，两者只是主题与谱系上的呼应。）

AlphaEvolve

DeepMind 的 Gemini 驱动进化式 coding agent，把早期 FunSearch 从「单个函数」推广到「整个代码库」。需要一个初始程序 + 自动评估器；每轮让一群 Gemini 提代码 diff，评估器打分过滤幻觉，进化循环留最好的。头条结果：找到用 48 次标量乘法做 4×4 复矩阵乘法的算法，打破了 Strassen 1969 年的 49 次（这个设定下约 56 年来首次改进）；在 50 个开放数学问题上 75% 复现 SOTA、约 20% 改进 SOTA；还在 Google 数据中心调度上回收了 0.7% 的算力。（DeepMind blog，2025；矩阵结果 arXiv:2506.13242）

SEAL：Self-Adapting LM

少见的权重级自我改进（MIT，arXiv:2506.10943）。模型对输入生成自己的「self-edit」（重组信息 + 优化指令），用 LoRA 式 adapter 更新自己的权重，在留出任务上评测，把下游表现当 RL 的 reward，迭代出更会 self-edit 的自己。

R-Zero：从零自博弈

全自主自演化，无种子任务、无标注（arXiv:2508.05004）。模型分饰两角：Challenger（因出「刚好在 Solver 能力边缘」的题而受奖）和 Solver（因解题受奖），两者 RL 共演化，自动生成难度对齐的课程（推理版 AlphaZero）。Qwen3-4B-Base 数学 +6.49、通用推理 +7.54。

5. 端到端自动化科研

The AI Scientist v1（Sakana AI + Oxford / UBC / Vector，2024，arXiv:2408.06292）。首个试图全自动跑完 ML 研究流程的系统：想 idea、查文献、设计跑实验、写完整 LaTeX 论文、甚至自动 review，给定起始模板下约 $15 一篇。相关工作 2026 年登上《Nature》。
The AI Scientist v2（2025，arXiv:2504.08066）。去掉对人写模板的依赖，用「渐进式 agentic 树搜索」。里程碑：一篇 v2 手稿在 ICLR 2025 workshop（ICBINB）拿到平均 6.33 分、过了接收线——号称首篇无人类改动就通过同行评审的全 AI 论文。

6. 一条单独的线：MetaAuto / Mingchen Zhuge

Mingchen Zhuge 是 KAUST（Schmidhuber 组）刚毕业的 PhD、metauto.ai 与 GitHub metauto-ai 背后的人，现在是硅谷 Recursive 的创始成员（就是下一节第一篇文章的公司）。他这条线可以看成 Schmidhuber「自指、自我改进」纲领在 LLM 时代的工程落地：

工作	年 / 场	一句话
NLSOM / Mindstorms	2023；NeurIPS’23 workshop Best Paper	「自然语言的 society of mind」，最多 129 个 agent 互相「面试」协作（arXiv:2305.17066）
GPTSwarm	ICML 2024 Oral	把 agent 群表示成可优化的计算图，node / edge 两级自动优化；GAIA 9.70% → 18.45% ，HumanEval 0.76 → 0.88（arXiv:2402.16823）
Agent-as-a-Judge + DevAI	arXiv 2024 / ICML 2025	让「judge」本身是能读代码、看中间步骤的 agent，给逐条需求的反馈；与人类共识对齐约 90%（LLM-as-Judge 约 70%），成本约人类的 2.3%（arXiv:2410.10934）
AFlow	ICLR 2025 Oral	用 MCTS 自动搜索 / 生成 agentic workflow（arXiv:2410.10762）
HGM	arXiv 2025 / ICLR 2026 Oral	见上节，这一支最直接的 RSI 结果

一条清晰的递进：society of mind（NLSOM）→ 可优化的图（GPTSwarm）→ 自动化评测 / reward（Agent-as-a-Judge，这是 RSI 闭环里「打分」那一半）→ 自动化 workflow（AFlow）→ 自我改进 agent（HGM）。 Zhuge 还是 ICLR 2026 RSI Workshop 的牵头组织者——可能是首个专门给 RSI 的 workshop。

和 Schmidhuber 的关系：Schmidhuber 提供理论（Gödel Machine：可证明地自我改进；「Learning to Think」与 Society/Economy of Mind 的框架），Zhuge 这组做经验的、LLM 时代的工程实现。（他的引用数以 Google Scholar mid-2026 计约 7,600，会随时间变动。）

7. 2026：产品化的 RSI

两篇 2026 年的文章代表当下前沿——都不改模型权重，但都把自己叫 recursive self-improvement，且都在真 benchmark 上刷到 SOTA。

Recursive —「First Steps Toward Automated AI Research」（2026-06）

把研究循环自动化：propose（想法）→ implement（实现）→ run（跑实验）→ validate（带反 reward-hacking 的校验）→ learn（选下一个实验），长时间维护多条研究线、保留历史 context、合并有希望的分支，并随搜索加剧上越来越严的自动检查防 reward hacking。它证明：即使在被人类高度优化过的领域，自动化系统仍能发现新的改进——

Benchmark	之前 SOTA	Recursive
NanoChat autoresearch（validation BPB）	0.9372	0.9109
NanoGPT Speedrun（到 3.28 loss 的秒数）	79.7s	77.5s
SOL-ExecBench（mean score）	0.699	0.754

基于 Karpathy 的 NanoChat 和 Keller Jordan 的 NanoGPT Speedrun，代码已开源。

Poetiq —「Recursive Self-Improvement for Coding」（2026-05）

用 RSI 自动搭一个任务专用的 harness（模型外的脚手架），不 fine-tune、不碰权重、只用标准 API，就把 coding SOTA 往上顶；而且可迁移——在一个模型上优化出的 harness，原封不动套到任意 LLM：

模型（LiveCodeBench Pro）	之前	用 Poetiq harness
Gemini 3.1 Pro	78.6%	90.9%
GPT 5.5 High	89.6%	93.9%
Gemini 3.0 Flash	72.3%	82.3%
Kimi K2.6	50.0%	79.9%

一个有意思的对照：Recursive 自动化的是「对模型 / kernel 的研究」（改的是产物），Poetiq 自动化的是「任意模型外面的 harness」（改的是包装）。两者都不动权重——这正是第 2 节那张表的现实写照。

8. 横切的几点总结

使能动作：把「证明有益」换成「经验验证有益」。这是 DGM / HGM 相对 Schmidhuber Gödel Machine 的核心松弛，也是整个浪潮的门票。
反复出现的机制：一个过往产物的 archive / 库（Voyager 技能、ADAS / DGM 的 agent archive）来保留踏脚石；自动经验验证当 fitness；以及防 reward hacking——当评估器本身成了优化目标，这是最核心的失效模式（Recursive 反复强调）。
两条谱系在收敛：Clune / Sakana 一系（ADAS → AI Scientist → DGM，带着 ALife 的开放式进化 + archive 哲学）和 Schmidhuber / KAUST 一系（NLSOM → GPTSwarm → HGM），正在同一个「自我进化 coding agent」的问题上会合。
还没到的那一步：绝大多数系统冻结底层 LLM、只改脚手架——按 STOP 作者的话，这还不是完整 RSI。真正稳定的权重级自我改进（SEAL 那一类）仍是开放问题，而「智能爆炸」是否会发生，取决于它能不能跑通。

参考 · 两篇 anchor：Recursive · Poetiq · 理论：Gödel Machine cs/0309048 · coding agent：DGM 2505.22954 · HGM 2510.21614 · AlphaEvolve 2506.13242 · SEAL 2506.10943 · R-Zero 2508.05004 · 前奏：STOP 2310.02304 · ADAS 2408.08435 · Voyager 2305.16291 · Promptbreeder 2309.16797 · Self-Rewarding 2401.10020 · Gödel Agent 2410.04444 · 自动化科研：AI Scientist v1 2408.06292 · v2 2504.08066 · MetaAuto / Zhuge：metauto.ai · GPTSwarm 2402.16823 · Agent-as-a-Judge 2410.10934 · NLSOM 2305.17066 · AFlow 2410.10762 · ICLR 2026 RSI Workshop