递归自我改进(RSI):从 Gödel Machine 到自我进化的 coding agent

Jul 2026 · Recursive Self-Improvement / Self-Improving Agents / Automated AI Research

「让 AI 改进 AI,改进后的 AI 再去改进 AI」——这个 1965 年就被提出的想法,在 2024–2026 年突然从思辨变成了能在真实 benchmark 上刷分的工程。这篇按时间线把 递归自我改进(Recursive Self-Improvement, RSI) 的谱系串一遍:从 Schmidhuber 的理论 Gödel Machine,到 2025 年爆发的自我进化 coding agent,再到 2026 年 Recursive 与 Poetiq 的产品化,并单独讲一支 Mingchen Zhuge / MetaAuto 的线。

一句话:整条线的关键动作,是把 Schmidhuber Gödel Machine 要求的「证明这次自我修改有益」松弛成「经验上测一下这次修改有没有让 benchmark 涨」。这个替换,让整个 2024–2026 的浪潮成为可能。

0. RSI 是什么,为什么是现在

理论种子(1965)。 I.J. Good 提出「ultraintelligent machine」——一台能在一切智力活动上远超人类的机器;既然「设计机器」本身也是智力活动,它就能设计出更好的机器,于是「there would unquestionably be an intelligence explosion」,第一台这样的机器是「the last invention that man need ever make」。后来 Vinge 造了「technological singularity」,Kurzweil 普及,Nick Bostrom《Superintelligence》(2014)把 recalcitrance、optimization power、takeoff 快慢等做成了现代讨论框架。

这是「递归自我改进」的思想原型。真正把它变成可跑代码,是最近三年的事。

1. 理论根:Schmidhuber 的 Gödel Machine(2003)

第一个数学上严格、完全自指、可证明最优的自我改进求解器(一个理论构造,不是实现)。灵感来自哥德尔 1931 年的自指公式:机器可以重写自己任意部分的代码(包括那个负责搜索证明的部件),但前提是它先证明了这次重写能提高期望未来收益。因为改动必须先被证明有益,这种自我重写是全局最优、无局部极大的。

它的软肋也正是这个证明要求:证明搜索不可解、演绎判据在经验型 ML 里太脆,加上哥德尔不完备性的边界——所以完整实现一直没出现。但它是后面所有工作的祖先:大家都在把「证明有益」替换成「经验上测有益」。(arXiv:cs/0309048)

2. 一个关键区分:到底「谁」在自我改进?

聊 RSI 一定要先分清改的是哪一层,否则很容易把「其实模型没动」的系统吹成真 RSI:

层级 改的是什么 代表工作 注意
Scaffolding / harness LLM 权重冻结,只改外面的脚手架、工具、workflow、agent 代码 STOP、ADAS、Gödel Agent、DGM、HGM、AlphaEvolve、Voyager、Poetiq、Recursive 绝大多数「RSI」在这一层——STOP 作者自己都强调这不是完整 RSI
Prompt 自指地进化提示词本身 Promptbreeder 连「负责变异的提示词」都一起进化
Weights 真·改模型权重 SEAL、Self-Rewarding LM、R-Zero 少数真正动到模型本身的

记住这张表,后面每个工作对号入座即可。

3. 前奏(2023–2024)

4. 2025 大爆发:自我进化的 coding agent

这是全篇的核心。四五个工作在同一年把「agent 改自己」跑成了真 benchmark 上的数字。

Darwin Gödel Machine(DGM)

自我改进的 coding agent,迭代地重写自己的 Python 代码库,并用 coding benchmark 经验性地验证每次改动(而不是像 Schmidhuber 那样要求形式证明——所以叫「Darwin」,把证明松弛成进化 / 经验)。维护一个不断扩张的 agent archive(谱系) 做开放式探索,保留「踏脚石」。结果:SWE-bench 20.0% → 50.0%,Polyglot 14.2% → 30.7%,超过手工设计的 agent。作者 Jenny Zhang、Shengran Hu、Cong Lu、Jeff Clune 等(Sakana AI / UBC / Vector Institute),arXiv:2505.22954,ICLR 2026。

Huxley-Gödel Machine(HGM)

KAUST / MetaAuto 这一支的对应工作,同样是改自己代码的 coding agent,沿一条进化谱系(「clade」,借自赫胥黎)演化。核心洞见是诊断出一个 「Metaproductivity–Performance Mismatch」——agent 当前的 benchmark 分,并不能很好预测它长期的自我改进潜力;于是提出新指标 Clade-Metaproductivity(CMP),聚合一个分支所有后代的改进量,来决定下一步该扩展哪个变体。结果:在 SWE-bench Verified 上自优化(GPT-5-mini)、SWE-bench Lite 上评测(GPT-5),达到人类水平的 coding 表现。作者 Wenyi Wang、…、Mingchen Zhuge、Jürgen Schmidhuber,arXiv:2510.21614,ICLR 2026 Oral。(Zhuge 在这篇是资深作者位,不是一作,别过度归因;这是他所在组的工作。)

DGM vs HGM:同一个想法的两支后代。 两者都是把 Schmidhuber Gödel Machine 的「证明有益」松弛成「经验验证有益」的实践版——DGM 来自 Clune / Sakana 一系(开放式进化 + archive),HGM 来自 Schmidhuber / KAUST 一系(谱系聚合 CMP)。把它们理解成同源的两个 2025 分支,而不是谁抄谁。(顺带澄清:Zhuge 不是 DGM 的作者,两者只是主题与谱系上的呼应。)

AlphaEvolve

DeepMind 的 Gemini 驱动进化式 coding agent,把早期 FunSearch 从「单个函数」推广到「整个代码库」。需要一个初始程序 + 自动评估器;每轮让一群 Gemini 提代码 diff,评估器打分过滤幻觉,进化循环留最好的。头条结果:找到用 48 次标量乘法做 4×4 复矩阵乘法的算法,打破了 Strassen 1969 年的 49 次(这个设定下约 56 年来首次改进);在 50 个开放数学问题上 75% 复现 SOTA、约 20% 改进 SOTA;还在 Google 数据中心调度上回收了 0.7% 的算力。(DeepMind blog,2025;矩阵结果 arXiv:2506.13242)

SEAL:Self-Adapting LM

少见的权重级自我改进(MIT,arXiv:2506.10943)。模型对输入生成自己的「self-edit」(重组信息 + 优化指令),用 LoRA 式 adapter 更新自己的权重,在留出任务上评测,把下游表现当 RL 的 reward,迭代出更会 self-edit 的自己。

R-Zero:从零自博弈

全自主自演化,无种子任务、无标注(arXiv:2508.05004)。模型分饰两角:Challenger(因出「刚好在 Solver 能力边缘」的题而受奖)和 Solver(因解题受奖),两者 RL 共演化,自动生成难度对齐的课程(推理版 AlphaZero)。Qwen3-4B-Base 数学 +6.49、通用推理 +7.54。

5. 端到端自动化科研

6. 一条单独的线:MetaAuto / Mingchen Zhuge

Mingchen Zhuge 是 KAUST(Schmidhuber 组)刚毕业的 PhD、metauto.ai 与 GitHub metauto-ai 背后的人,现在是硅谷 Recursive 的创始成员(就是下一节第一篇文章的公司)。他这条线可以看成 Schmidhuber「自指、自我改进」纲领在 LLM 时代的工程落地:

工作 年 / 场 一句话
NLSOM / Mindstorms 2023;NeurIPS’23 workshop Best Paper 「自然语言的 society of mind」,最多 129 个 agent 互相「面试」协作(arXiv:2305.17066)
GPTSwarm ICML 2024 Oral 把 agent 群表示成可优化的计算图,node / edge 两级自动优化;GAIA 9.70% → 18.45% ,HumanEval 0.76 → 0.88(arXiv:2402.16823)
Agent-as-a-Judge + DevAI arXiv 2024 / ICML 2025 让「judge」本身是能读代码、看中间步骤的 agent,给逐条需求的反馈;与人类共识对齐约 90%(LLM-as-Judge 约 70%),成本约人类的 2.3%(arXiv:2410.10934)
AFlow ICLR 2025 Oral 用 MCTS 自动搜索 / 生成 agentic workflow(arXiv:2410.10762)
HGM arXiv 2025 / ICLR 2026 Oral 见上节,这一支最直接的 RSI 结果

一条清晰的递进:society of mind(NLSOM)→ 可优化的图(GPTSwarm)→ 自动化评测 / reward(Agent-as-a-Judge,这是 RSI 闭环里「打分」那一半)→ 自动化 workflow(AFlow)→ 自我改进 agent(HGM)。 Zhuge 还是 ICLR 2026 RSI Workshop 的牵头组织者——可能是首个专门给 RSI 的 workshop。

和 Schmidhuber 的关系:Schmidhuber 提供理论(Gödel Machine:可证明地自我改进;「Learning to Think」与 Society/Economy of Mind 的框架),Zhuge 这组做经验的、LLM 时代的工程实现。(他的引用数以 Google Scholar mid-2026 计约 7,600,会随时间变动。)

7. 2026:产品化的 RSI

两篇 2026 年的文章代表当下前沿——都不改模型权重,但都把自己叫 recursive self-improvement,且都在真 benchmark 上刷到 SOTA。

Recursive —「First Steps Toward Automated AI Research」(2026-06)

把研究循环自动化:propose(想法)→ implement(实现)→ run(跑实验)→ validate(带反 reward-hacking 的校验)→ learn(选下一个实验),长时间维护多条研究线、保留历史 context、合并有希望的分支,并随搜索加剧上越来越严的自动检查防 reward hacking。它证明:即使在被人类高度优化过的领域,自动化系统仍能发现新的改进——

Benchmark 之前 SOTA Recursive
NanoChat autoresearch(validation BPB) 0.9372 0.9109
NanoGPT Speedrun(到 3.28 loss 的秒数) 79.7s 77.5s
SOL-ExecBench(mean score) 0.699 0.754

基于 Karpathy 的 NanoChat 和 Keller Jordan 的 NanoGPT Speedrun,代码已开源。

Poetiq —「Recursive Self-Improvement for Coding」(2026-05)

用 RSI 自动搭一个任务专用的 harness(模型外的脚手架),不 fine-tune、不碰权重、只用标准 API,就把 coding SOTA 往上顶;而且可迁移——在一个模型上优化出的 harness,原封不动套到任意 LLM:

模型(LiveCodeBench Pro) 之前 用 Poetiq harness
Gemini 3.1 Pro 78.6% 90.9%
GPT 5.5 High 89.6% 93.9%
Gemini 3.0 Flash 72.3% 82.3%
Kimi K2.6 50.0% 79.9%

一个有意思的对照:Recursive 自动化的是「对模型 / kernel 的研究」(改的是产物),Poetiq 自动化的是「任意模型外面的 harness」(改的是包装)。两者都不动权重——这正是第 2 节那张表的现实写照。

8. 横切的几点总结

  1. 使能动作:把「证明有益」换成「经验验证有益」。这是 DGM / HGM 相对 Schmidhuber Gödel Machine 的核心松弛,也是整个浪潮的门票。
  2. 反复出现的机制:一个过往产物的 archive / 库(Voyager 技能、ADAS / DGM 的 agent archive)来保留踏脚石;自动经验验证当 fitness;以及防 reward hacking——当评估器本身成了优化目标,这是最核心的失效模式(Recursive 反复强调)。
  3. 两条谱系在收敛:Clune / Sakana 一系(ADAS → AI Scientist → DGM,带着 ALife 的开放式进化 + archive 哲学)和 Schmidhuber / KAUST 一系(NLSOM → GPTSwarm → HGM),正在同一个「自我进化 coding agent」的问题上会合。
  4. 还没到的那一步:绝大多数系统冻结底层 LLM、只改脚手架——按 STOP 作者的话,这还不是完整 RSI。真正稳定的权重级自我改进(SEAL 那一类)仍是开放问题,而「智能爆炸」是否会发生,取决于它能不能跑通。

参考 · 两篇 anchor:Recursive · Poetiq · 理论:Gödel Machine cs/0309048 · coding agent:DGM 2505.22954 · HGM 2510.21614 · AlphaEvolve 2506.13242 · SEAL 2506.10943 · R-Zero 2508.05004 · 前奏:STOP 2310.02304 · ADAS 2408.08435 · Voyager 2305.16291 · Promptbreeder 2309.16797 · Self-Rewarding 2401.10020 · Gödel Agent 2410.04444 · 自动化科研:AI Scientist v1 2408.06292 · v2 2504.08066 · MetaAuto / Zhuge:metauto.ai · GPTSwarm 2402.16823 · Agent-as-a-Judge 2410.10934 · NLSOM 2305.17066 · AFlow 2410.10762 · ICLR 2026 RSI Workshop