DOCS

调研方法

系统化的文献调研方法，从"看论文"到"产出空白"的完整流程

1. 调研目标

调研的目标不是”看了很多论文”，而是要产出能直接导向可写论文的结果：

该方向到底在解决什么问题
大家默认的设定/评测是什么
现在的瓶颈在哪里
哪些空白值得写
你的 idea 能否形成可验证的 claim

2. 工具选择与分工

2.1 主力调研工具

工具	适用场景
ChatGPT 5.2 Pro	体系化综述、把一堆材料整理成”研究地图”、提炼问题定义与评价体系
Manus / GPT 5.2 Thinking	抓漏洞（这篇论文到底新在哪里？有没有偷换设定？）
Gemini 3 Pro Deep Research	补全资料、扩展相关工作、找被忽略的假设

2.2 推荐分工

Pro: 搭主框架（问题→方法→实验→结论）+ 产出”标准化笔记”
Thinking: 抓漏洞（创新点、评价公平性、潜在问题）
Deep Research: 补引用与证据（相关工作漏了谁？还有哪些强 baseline？）

3. 调研的产物清单

建议把调研结果固定成 6 份输出：

Related Work Map（研究地图）
- 按”问题子类/数据模态/方法范式/训练范式/评测范式”分层
Benchmark & Metric Sheet（评测与指标表）
- 主流数据集/指标/协议/常见坑
Assumption Matrix（隐含假设矩阵）
- 每篇论文默认假设是什么？（资源、标注、算力、可访问信息等）
Failure Taxonomy（失败模式分类）
- 方法为什么失败？失败发生在什么条件下？
Gap List（研究空白清单）
- 空白不是”没人做”，而是”没人把它做成可验证主张 + 可复现实验”
Claim Candidate Pool（候选主张池）
- 每个 claim 必须能写成一句话，并且对应至少一个主实验 + 一个消融

4. 调研流程

4.1 定义边界 (Scope)

你要解决的”核心问题”一句话是什么？
哪些工作算”同类问题”，哪些只是”相关但不同问题”？

4.2 建语料库 (Corpus)

每篇至少记录：任务定义、输入输出、数据集、指标、训练资源、关键 novelty、关键 baseline

4.3 标准化阅读

不要自由笔记，要”字段化”：

Problem: 解决什么，设定是什么？
Key Idea: 一句话新意是什么？
Mechanism: 为什么有效（作者的因果叙事）？
Evidence: 哪些实验真正在支撑 claim？
Baselines: 对比是否公平？
Weakness: 最大漏洞是什么？
Reproduce: 复现难点在哪里？

4.4 对齐与冲突检测

多模型调研结果可能冲突，冲突往往就是”机会点”：

该方向究竟默认设定是什么？
某些工作是不是在换设定？
指标是不是被 hack 了？
某些强 baseline 是否被刻意忽略？

4.5 产出 gap → 变成可写 idea

每个 gap 最终要落到可写论文的形式：

Claim（主张）
Setup（设定）
Method（方法）
Experiment（实验）
Expected Outcome（预期）
Risk（最大风险与备选方案）

5. 文献检索工具 (2025最新)

工具	核心功能	适用场景	链接
Elicit	1.25亿+论文库，自动化系统综述	系统性文献调研	elicit.com
Consensus AI	AI驱动搜索，快速找证据	快速验证假设	consensus.app
Semantic Scholar	AI提取论文含义，深度覆盖	探索研究脉络	semanticscholar.org
Scite	智能引用追踪(支持/反驳/提及)	评估论文影响力	scite.ai
Connected Papers	可视化论文关系图	发现相关论文	connectedpapers.com
ResearchRabbit	论文推荐类似 Spotify	持续追踪新工作	researchrabbit.ai

5.1 工作流建议

初步探索: Semantic Scholar + Connected Papers
深度调研: Elicit (自动化筛选和数据提取)
证据验证: Consensus AI + Scite
持续追踪: ResearchRabbit (新论文推送)

6. 多模型协作调研

使用多个 LLM 并行可以交叉验证，避免单一模型的偏见。

6.1 推荐配置

模型	角色	优势
Claude Opus 4.6	主力分析师	深度推理，长上下文 (200K)
GPT-5.2 Thinking	漏洞检测者	捕捉被忽略的假设
Gemini 2.5 Pro	资料补充员	强大的检索和整合能力

6.2 协作模式

分工阅读: 不同模型负责不同子领域
交叉验证: 同一篇论文由多个模型独立分析
冲突解决: 冲突点往往是研究空白
综合汇总: 由最强模型整合所有发现

7. 个人高通量选题法（补充）

这部分来自 AI research.md 的个人实践段落，已融合为可执行版本，用于把”读很多论文”变成”筛出能发的 claim”。

7.1 三层过滤流程

候选池层（广覆盖）
- 先建立 2000+ 论文级别的候选池，按任务、数据模态、评测协议分桶。
可验证层（可落地）
- 对每个候选方向补齐：主实验、消融、压力测试、失败预案。
可投稿层（可叙事）
- 只保留能形成完整论证链的方向：问题价值 → 方法机制 → 实验证据 → 反质疑预案。

7.2 快速打分模板（避免主观拍脑袋）

维度	问题	评分标准（1-5）
Novelty	是否只是已有方法换壳？	5 = 明确新设定或新机制
Executability	两周内能否跑通主实验？	5 = 依赖清晰、实现成本可控
Evaluability	是否有公认基准和强 baseline？	5 = 可直接复现实验协议
Narrative Fit	能否写成完整论文故事？	5 = 贡献/证据/风险闭环完整

建议只推进总分最高的 Top 1-3 个方向，降低“多线开坑”风险。

上一篇

Vibe Research

下一篇

调研项目