概览
AutoResearch 是一个多 Agent 科研编排系统。它协调三个大语言模型 — Claude Opus、Codex(GPT-5.4)和 Gemini — 自动化深度学习研究的完整生命周期:从最初的 idea 探索,到实验实现、训练监控、结果分析,直到最终的论文写作。
核心原则
编排器决策,Agent 执行。 这是理解整个系统的关键。
编排器(Orchestrator)是唯一拥有全局视野的角色。它读取研究状态,决定下一步该做什么,然后把具体的工作分派给专业的 Agent。Agent 不做决策 — 它们接收明确的指令,在自己的职责范围内执行,然后返回结果。
这种分离保证了两件事:
- 可追溯性 — 所有战略决策都经过编排器,不会分散在各个 Agent 里
- 可替换性 — 任何 Agent 都可以升级、替换底层模型,不影响整体流程
三个 LLM 的分工
系统不是随意选择哪个模型做什么。每个 LLM 被分配到最适合它的角色:
| LLM | 强项 | 担任角色 |
|---|---|---|
| Claude Opus | 长上下文推理、规划、学术写作 | 编排器、Planner、Writer |
| Codex (GPT-5.4) | 代码生成、代码审查、定量评估 | Coder、Judge |
| Gemini | 联网检索、文献综述、快速摘要 | Scout |
跨模型审查
一个关键设计:工作永远由不同的 LLM 审查。Claude 生成的实验计划由 Codex 评审可行性;Codex 写的代码由 Claude 审查是否符合研究意图。这不是冗余,而是利用模型间的认知差异来捕获盲点。
构建基础
AutoResearch 构建在 OMCC(One-Man-Company Claude Code)harness 之上。OMCC 提供了底层的 Agent 调度、状态持久化和监控基础设施。AutoResearch 在此之上定义了科研特有的:
- 七阶段流水线(选题 → 设计 → 实现 → 训练 → 分析 → 写作 → 审稿)
- 六个专业 Agent(各有明确的 LLM 绑定和职责边界)
- 研究状态模型(pipeline status、research contract、实验记录)
- 训练监控协议(watchdog + CronCreate 两阶段监控)
适用场景
AutoResearch 为以下场景设计:
- 单人(或小团队)驱动的深度学习研究
- 需要跑大量实验并跟踪结果的项目
- 有 GPU 集群访问权限(SSH 远程训练)
- 目标是产出可发表的论文
不适用场景
AutoResearch 不是通用的 AI 助手。它是专为深度学习科研优化的系统。如果你只需要写代码或做数据分析,直接用 Claude Code 就够了。