递归自我改进(RSI):从 Gödel Machine 到自我进化的 coding agent
「让 AI 改进 AI,改进后的 AI 再去改进 AI」——这个 1965 年就被提出的想法,在 2024–2026 年突然从思辨变成了能在真实 benchmark 上刷分的工程。这篇按时间线把 递归自我改进(Recursive Self-Improvement, RSI) 的谱系串一遍:从 Schmidhuber 的理论 Gödel Machine,到 2025 年爆发的自我进化 coding agent,再到 2026 年 Recursive 与 Poetiq 的产品化,并单独讲一支 Mingchen Zhuge / MetaAuto 的线。
0. RSI 是什么,为什么是现在
理论种子(1965)。 I.J. Good 提出「ultraintelligent machine」——一台能在一切智力活动上远超人类的机器;既然「设计机器」本身也是智力活动,它就能设计出更好的机器,于是「there would unquestionably be an intelligence explosion」,第一台这样的机器是「the last invention that man need ever make」。后来 Vinge 造了「technological singularity」,Kurzweil 普及,Nick Bostrom《Superintelligence》(2014)把 recalcitrance、optimization power、takeoff 快慢等做成了现代讨论框架。
这是「递归自我改进」的思想原型。真正把它变成可跑代码,是最近三年的事。
1. 理论根:Schmidhuber 的 Gödel Machine(2003)
第一个数学上严格、完全自指、可证明最优的自我改进求解器(一个理论构造,不是实现)。灵感来自哥德尔 1931 年的自指公式:机器可以重写自己任意部分的代码(包括那个负责搜索证明的部件),但前提是它先证明了这次重写能提高期望未来收益。因为改动必须先被证明有益,这种自我重写是全局最优、无局部极大的。
它的软肋也正是这个证明要求:证明搜索不可解、演绎判据在经验型 ML 里太脆,加上哥德尔不完备性的边界——所以完整实现一直没出现。但它是后面所有工作的祖先:大家都在把「证明有益」替换成「经验上测有益」。(arXiv:cs/0309048)
2. 一个关键区分:到底「谁」在自我改进?
聊 RSI 一定要先分清改的是哪一层,否则很容易把「其实模型没动」的系统吹成真 RSI:
| 层级 | 改的是什么 | 代表工作 | 注意 |
|---|---|---|---|
| Scaffolding / harness | LLM 权重冻结,只改外面的脚手架、工具、workflow、agent 代码 | STOP、ADAS、Gödel Agent、DGM、HGM、AlphaEvolve、Voyager、Poetiq、Recursive | 绝大多数「RSI」在这一层——STOP 作者自己都强调这不是完整 RSI |
| Prompt | 自指地进化提示词本身 | Promptbreeder | 连「负责变异的提示词」都一起进化 |
| Weights | 真·改模型权重 | SEAL、Self-Rewarding LM、R-Zero | 少数真正动到模型本身的 |
记住这张表,后面每个工作对号入座即可。
3. 前奏(2023–2024)
- STOP:Self-Taught Optimizer(Zelikman 等,Stanford / MSR,arXiv:2310.02304)。一个种子「improver」用 LLM 改进任意输入程序,然后让 improver 改进它自己;改进后的 improver 提出了 beam search、遗传算法、模拟退火等策略。作者明确 caveat:底层 LLM 冻结,所以只是脚手架自我改进,不是完整 RSI——这句 caveat 适用于下面几乎所有 LLM 时代的「RSI」。
- Voyager(NVIDIA 等,2023,arXiv:2305.16291)。Minecraft 里的终身学习 agent:自动课程 + 不断增长的技能库(可执行代码)+ 带环境反馈的迭代提示。用 GPT-4 黑盒,不 fine-tune——靠技能库累积实现复利式自我改进。
- Promptbreeder(DeepMind,2023,arXiv:2309.16797)。进化一群 task-prompt,同时进化那些「变异提示词」——于是它改进的是支配自己进化的规则。
- ADAS:Automated Design of Agentic Systems(Shengran Hu、Cong Lu、Jeff Clune,2024,arXiv:2408.08435)。把 agent 设计本身当搜索问题:一个 meta agent 用代码迭代地编写新 agent,建立在过往 agent 的 archive 之上。因为代码图灵完备,原则上能表达任意 agent。它是 Darwin Gödel Machine 的直接前身(同一个组、同样的 archive 思想)。
- Self-Rewarding LM(Meta,2024,arXiv:2401.10020)。模型自己当 judge 给自己的输出打分,构造偏好对、DPO 训练,多轮迭代,让 instruction-following 和 reward-modeling 一起涨;后续 Meta-Rewarding 又加了 meta-judge。
- Gödel Agent(arXiv:2410.04444)。受 Schmidhuber 启发的自演化框架,让 LLM agent 运行时动态改自己的逻辑,只靠高层目标引导。(注:这篇的作者是 Xunjian Yin、Xinyi Wang、Liangming Pan、Xiaojun Wan、William Yang Wang,PKU / UCSB——网上常被误记,这里以 arXiv 为准。)
4. 2025 大爆发:自我进化的 coding agent
这是全篇的核心。四五个工作在同一年把「agent 改自己」跑成了真 benchmark 上的数字。
Darwin Gödel Machine(DGM)
自我改进的 coding agent,迭代地重写自己的 Python 代码库,并用 coding benchmark 经验性地验证每次改动(而不是像 Schmidhuber 那样要求形式证明——所以叫「Darwin」,把证明松弛成进化 / 经验)。维护一个不断扩张的 agent archive(谱系) 做开放式探索,保留「踏脚石」。结果:SWE-bench 20.0% → 50.0%,Polyglot 14.2% → 30.7%,超过手工设计的 agent。作者 Jenny Zhang、Shengran Hu、Cong Lu、Jeff Clune 等(Sakana AI / UBC / Vector Institute),arXiv:2505.22954,ICLR 2026。
Huxley-Gödel Machine(HGM)
KAUST / MetaAuto 这一支的对应工作,同样是改自己代码的 coding agent,沿一条进化谱系(「clade」,借自赫胥黎)演化。核心洞见是诊断出一个 「Metaproductivity–Performance Mismatch」——agent 当前的 benchmark 分,并不能很好预测它长期的自我改进潜力;于是提出新指标 Clade-Metaproductivity(CMP),聚合一个分支所有后代的改进量,来决定下一步该扩展哪个变体。结果:在 SWE-bench Verified 上自优化(GPT-5-mini)、SWE-bench Lite 上评测(GPT-5),达到人类水平的 coding 表现。作者 Wenyi Wang、…、Mingchen Zhuge、Jürgen Schmidhuber,arXiv:2510.21614,ICLR 2026 Oral。(Zhuge 在这篇是资深作者位,不是一作,别过度归因;这是他所在组的工作。)
DGM vs HGM:同一个想法的两支后代。 两者都是把 Schmidhuber Gödel Machine 的「证明有益」松弛成「经验验证有益」的实践版——DGM 来自 Clune / Sakana 一系(开放式进化 + archive),HGM 来自 Schmidhuber / KAUST 一系(谱系聚合 CMP)。把它们理解成同源的两个 2025 分支,而不是谁抄谁。(顺带澄清:Zhuge 不是 DGM 的作者,两者只是主题与谱系上的呼应。)
AlphaEvolve
DeepMind 的 Gemini 驱动进化式 coding agent,把早期 FunSearch 从「单个函数」推广到「整个代码库」。需要一个初始程序 + 自动评估器;每轮让一群 Gemini 提代码 diff,评估器打分过滤幻觉,进化循环留最好的。头条结果:找到用 48 次标量乘法做 4×4 复矩阵乘法的算法,打破了 Strassen 1969 年的 49 次(这个设定下约 56 年来首次改进);在 50 个开放数学问题上 75% 复现 SOTA、约 20% 改进 SOTA;还在 Google 数据中心调度上回收了 0.7% 的算力。(DeepMind blog,2025;矩阵结果 arXiv:2506.13242)
SEAL:Self-Adapting LM
少见的权重级自我改进(MIT,arXiv:2506.10943)。模型对输入生成自己的「self-edit」(重组信息 + 优化指令),用 LoRA 式 adapter 更新自己的权重,在留出任务上评测,把下游表现当 RL 的 reward,迭代出更会 self-edit 的自己。
R-Zero:从零自博弈
全自主自演化,无种子任务、无标注(arXiv:2508.05004)。模型分饰两角:Challenger(因出「刚好在 Solver 能力边缘」的题而受奖)和 Solver(因解题受奖),两者 RL 共演化,自动生成难度对齐的课程(推理版 AlphaZero)。Qwen3-4B-Base 数学 +6.49、通用推理 +7.54。
5. 端到端自动化科研
- The AI Scientist v1(Sakana AI + Oxford / UBC / Vector,2024,arXiv:2408.06292)。首个试图全自动跑完 ML 研究流程的系统:想 idea、查文献、设计跑实验、写完整 LaTeX 论文、甚至自动 review,给定起始模板下约 $15 一篇。相关工作 2026 年登上《Nature》。
- The AI Scientist v2(2025,arXiv:2504.08066)。去掉对人写模板的依赖,用「渐进式 agentic 树搜索」。里程碑:一篇 v2 手稿在 ICLR 2025 workshop(ICBINB)拿到平均 6.33 分、过了接收线——号称首篇无人类改动就通过同行评审的全 AI 论文。
6. 一条单独的线:MetaAuto / Mingchen Zhuge
Mingchen Zhuge 是 KAUST(Schmidhuber 组)刚毕业的 PhD、metauto.ai 与 GitHub metauto-ai 背后的人,现在是硅谷 Recursive 的创始成员(就是下一节第一篇文章的公司)。他这条线可以看成 Schmidhuber「自指、自我改进」纲领在 LLM 时代的工程落地:
| 工作 | 年 / 场 | 一句话 |
|---|---|---|
| NLSOM / Mindstorms | 2023;NeurIPS’23 workshop Best Paper | 「自然语言的 society of mind」,最多 129 个 agent 互相「面试」协作(arXiv:2305.17066) |
| GPTSwarm | ICML 2024 Oral | 把 agent 群表示成可优化的计算图,node / edge 两级自动优化;GAIA 9.70% → 18.45% ,HumanEval 0.76 → 0.88(arXiv:2402.16823) |
| Agent-as-a-Judge + DevAI | arXiv 2024 / ICML 2025 | 让「judge」本身是能读代码、看中间步骤的 agent,给逐条需求的反馈;与人类共识对齐约 90%(LLM-as-Judge 约 70%),成本约人类的 2.3%(arXiv:2410.10934) |
| AFlow | ICLR 2025 Oral | 用 MCTS 自动搜索 / 生成 agentic workflow(arXiv:2410.10762) |
| HGM | arXiv 2025 / ICLR 2026 Oral | 见上节,这一支最直接的 RSI 结果 |
一条清晰的递进:society of mind(NLSOM)→ 可优化的图(GPTSwarm)→ 自动化评测 / reward(Agent-as-a-Judge,这是 RSI 闭环里「打分」那一半)→ 自动化 workflow(AFlow)→ 自我改进 agent(HGM)。 Zhuge 还是 ICLR 2026 RSI Workshop 的牵头组织者——可能是首个专门给 RSI 的 workshop。
和 Schmidhuber 的关系:Schmidhuber 提供理论(Gödel Machine:可证明地自我改进;「Learning to Think」与 Society/Economy of Mind 的框架),Zhuge 这组做经验的、LLM 时代的工程实现。(他的引用数以 Google Scholar mid-2026 计约 7,600,会随时间变动。)
7. 2026:产品化的 RSI
两篇 2026 年的文章代表当下前沿——都不改模型权重,但都把自己叫 recursive self-improvement,且都在真 benchmark 上刷到 SOTA。
Recursive —「First Steps Toward Automated AI Research」(2026-06)
把研究循环自动化:propose(想法)→ implement(实现)→ run(跑实验)→ validate(带反 reward-hacking 的校验)→ learn(选下一个实验),长时间维护多条研究线、保留历史 context、合并有希望的分支,并随搜索加剧上越来越严的自动检查防 reward hacking。它证明:即使在被人类高度优化过的领域,自动化系统仍能发现新的改进——
| Benchmark | 之前 SOTA | Recursive |
|---|---|---|
| NanoChat autoresearch(validation BPB) | 0.9372 | 0.9109 |
| NanoGPT Speedrun(到 3.28 loss 的秒数) | 79.7s | 77.5s |
| SOL-ExecBench(mean score) | 0.699 | 0.754 |
基于 Karpathy 的 NanoChat 和 Keller Jordan 的 NanoGPT Speedrun,代码已开源。
Poetiq —「Recursive Self-Improvement for Coding」(2026-05)
用 RSI 自动搭一个任务专用的 harness(模型外的脚手架),不 fine-tune、不碰权重、只用标准 API,就把 coding SOTA 往上顶;而且可迁移——在一个模型上优化出的 harness,原封不动套到任意 LLM:
| 模型(LiveCodeBench Pro) | 之前 | 用 Poetiq harness |
|---|---|---|
| Gemini 3.1 Pro | 78.6% | 90.9% |
| GPT 5.5 High | 89.6% | 93.9% |
| Gemini 3.0 Flash | 72.3% | 82.3% |
| Kimi K2.6 | 50.0% | 79.9% |
一个有意思的对照:Recursive 自动化的是「对模型 / kernel 的研究」(改的是产物),Poetiq 自动化的是「任意模型外面的 harness」(改的是包装)。两者都不动权重——这正是第 2 节那张表的现实写照。
8. 横切的几点总结
- 使能动作:把「证明有益」换成「经验验证有益」。这是 DGM / HGM 相对 Schmidhuber Gödel Machine 的核心松弛,也是整个浪潮的门票。
- 反复出现的机制:一个过往产物的 archive / 库(Voyager 技能、ADAS / DGM 的 agent archive)来保留踏脚石;自动经验验证当 fitness;以及防 reward hacking——当评估器本身成了优化目标,这是最核心的失效模式(Recursive 反复强调)。
- 两条谱系在收敛:Clune / Sakana 一系(ADAS → AI Scientist → DGM,带着 ALife 的开放式进化 + archive 哲学)和 Schmidhuber / KAUST 一系(NLSOM → GPTSwarm → HGM),正在同一个「自我进化 coding agent」的问题上会合。
- 还没到的那一步:绝大多数系统冻结底层 LLM、只改脚手架——按 STOP 作者的话,这还不是完整 RSI。真正稳定的权重级自我改进(SEAL 那一类)仍是开放问题,而「智能爆炸」是否会发生,取决于它能不能跑通。
参考 · 两篇 anchor:Recursive · Poetiq · 理论:Gödel Machine cs/0309048 · coding agent:DGM 2505.22954 · HGM 2510.21614 · AlphaEvolve 2506.13242 · SEAL 2506.10943 · R-Zero 2508.05004 · 前奏:STOP 2310.02304 · ADAS 2408.08435 · Voyager 2305.16291 · Promptbreeder 2309.16797 · Self-Rewarding 2401.10020 · Gödel Agent 2410.04444 · 自动化科研:AI Scientist v1 2408.06292 · v2 2504.08066 · MetaAuto / Zhuge:metauto.ai · GPTSwarm 2402.16823 · Agent-as-a-Judge 2410.10934 · NLSOM 2305.17066 · AFlow 2410.10762 · ICLR 2026 RSI Workshop