Skip to content

概览

AutoResearch 是一个多 Agent 科研编排系统。它协调三个大语言模型 — Claude Opus、Codex(GPT-5.4)和 Gemini — 自动化深度学习研究的完整生命周期:从最初的 idea 探索,到实验实现、训练监控、结果分析,直到最终的论文写作。

核心原则

编排器决策,Agent 执行。 这是理解整个系统的关键。

编排器(Orchestrator)是唯一拥有全局视野的角色。它读取研究状态,决定下一步该做什么,然后把具体的工作分派给专业的 Agent。Agent 不做决策 — 它们接收明确的指令,在自己的职责范围内执行,然后返回结果。

这种分离保证了两件事:

  1. 可追溯性 — 所有战略决策都经过编排器,不会分散在各个 Agent 里
  2. 可替换性 — 任何 Agent 都可以升级、替换底层模型,不影响整体流程

三个 LLM 的分工

系统不是随意选择哪个模型做什么。每个 LLM 被分配到最适合它的角色:

LLM强项担任角色
Claude Opus长上下文推理、规划、学术写作编排器、Planner、Writer
Codex (GPT-5.4)代码生成、代码审查、定量评估Coder、Judge
Gemini联网检索、文献综述、快速摘要Scout

跨模型审查

一个关键设计:工作永远由不同的 LLM 审查。Claude 生成的实验计划由 Codex 评审可行性;Codex 写的代码由 Claude 审查是否符合研究意图。这不是冗余,而是利用模型间的认知差异来捕获盲点。

构建基础

AutoResearch 构建在 OMCC(One-Man-Company Claude Code)harness 之上。OMCC 提供了底层的 Agent 调度、状态持久化和监控基础设施。AutoResearch 在此之上定义了科研特有的:

  • 七阶段流水线(选题 → 设计 → 实现 → 训练 → 分析 → 写作 → 审稿)
  • 六个专业 Agent(各有明确的 LLM 绑定和职责边界)
  • 研究状态模型(pipeline status、research contract、实验记录)
  • 训练监控协议(watchdog + CronCreate 两阶段监控)

适用场景

AutoResearch 为以下场景设计:

  • 单人(或小团队)驱动的深度学习研究
  • 需要跑大量实验并跟踪结果的项目
  • 有 GPU 集群访问权限(SSH 远程训练)
  • 目标是产出可发表的论文

不适用场景

AutoResearch 不是通用的 AI 助手。它是专为深度学习科研优化的系统。如果你只需要写代码或做数据分析,直接用 Claude Code 就够了。

下一步

AutoResearch — Multi-agent Deep Learning Research System