DOCS
科研圣经
零基础入门科研全指南 - 从顶会对比到Idea生成,从论文阅读到速成写作
科研圣经
本章节汇集零基础入门科研的核心知识,涵盖顶会顶刊对比、Idea生成方法、论文阅读流程与速成写作技巧。
一、顶会顶刊投稿对比
1. 审稿人意见分类
- Reject(拒稿)
- Major Revision(大修)
- Minor Revision(小修)
- Accept(接收)
会议:一般只有 Reject(拒稿)和 Accept(接收)两种
期刊:四种都有
意见及应对方法见:知乎文章
2. 审稿人提意见的意图
| 类型 | 意图 |
|---|---|
| 会议 | 提意见为了拒绝文章 |
| 期刊 | 审稿人提意见是为了改正文章,意见精确(跟哪些baseline进行对比、补充哪些评价指标、新增哪些数据集实验) |
3. 审稿人细致及专业程度
| 类型 | 特点 |
|---|---|
| 会议 | 很少有细节性的意见,质量参差不齐,不懂这个领域也可能是你的审稿人 |
| 期刊 | 认真细致,专业 |
4. 期刊和会议的优缺点
会议
时间较短(顶会可能2-3月左右)
CVPR-2026 时间线
| 重要时间节点 | 阶段 |
|---|---|
| 2025年10月 | OpenReview投稿网站开放作者注册 OpenReview |
| 2025年10月 | OpenReview投稿网站开放论文提交 |
| 2025年11月 | 摘要提交截止(晚上11:59 UTC-12) |
| 2025年11月 | 完整论文提交截止(晚上11:59 UTC-12) |
| 2025年12月 | 补充材料提交截止(晚上11:59 UTC-12) |
| 2026年1月 | 第一阶段拒稿通知 |
| 2026年2月 | 作者反馈窗口期 |
| 2026年3月 | 最终录用或拒稿通知(主要技术轨道) |
| 2026年3月 | 最终版(Camera-ready)文件提交(主要技术轨道) |
| 2026年6月 | CVPR-2026正式举办 |
AAAI-2026 时间线
| 重要时间节点 | 阶段 |
|---|---|
| 2025年6月16日 | OpenReview投稿网站开放作者注册 |
| 2025年6月25日 | OpenReview投稿网站开放论文提交 |
| 2025年7月25日 | 摘要提交截止 |
| 2025年8月1日 | 完整论文提交截止 |
| 2025年8月4日 | 代码/附录材料截止 |
| 2026年9月8日 | 第一轮结果出炉(首轮拒稿无rebuttal) |
| 2025年10月2-8日 | rebuttal阶段 |
| 2025年11月3日 | 最终录用通知 |
| 2025年11月13日 | 最终版(Camera-ready)文件提交 |
| 2026年1月20-27日 | AAAI-2026正式举办 |
期刊
周期较长(顶刊可能8月到1年左右不等)
LetPub 中科院一区 - 人工智能领域期刊查询结果
5. 顶刊顶会目录
(1)2025年中科院新分区 1区 共53本期刊
(2)CCF会议分类
中国计算机学会推荐国际学术会议和期刊目录(2022更名版,2025年使用).pdf
6. 计算机可投期刊信息查询及会议截止时间
(1)期刊
LetPub 是一个提供最新SCI期刊影响因子查询及投稿分析系统的网站,可按照期刊名、研究方向、影响因子、收录情况等条件筛选和排序
(2)会议
CCF会议分类及截稿倒计时网站
- 网站1:ccfddl.cn - 右上角可扫码关注小程序
- 网站2:ccfddl.com
二、零基础入门科研如何想Idea
1. 一篇论文诞生的整体流程图
寻找领域内当前效果最好的论文(最好开源)
↓
看论文里展示的SOTA结果比较了哪些baseline
↓
顺着 baseline 与引用一路往前读
↓
在理论层面进行分析,找改进点
(哪些工作上不work,能否扩展)
↓
复现代码
↓
在代码层面进行分析,找缺陷
(运行速度慢、内存占用大等)
↓
改出自己的Idea
举例:寻找领域内当前效果最好的那篇论文,最好开源→看论文里面展示的SOTA结果比较了哪些baseline,顺着 baseline 与引用一路往前读→在理论层面进行分析,找改进点,例如在哪些工作上是不work的,能否在这个领域进行一些扩展→复现代码→在代码层面进行分析,找缺陷,例如虽然某方法性能有提升,但是运行速度很慢、内存占用大,能否进行加速和优化→改出自己的点子。
2. 寻找论文的渠道
(1)看最新出顶会中新中的论文
官网
- NAACL2025接收文章列表:https://2025.naacl.org/program/accepted_papers/
- CVPR2025接收文章列表:https://cvpr.thecvf.com/Conferences/2025/AcceptedPapers
GitHub科研总结
- CVPR-2025-带代码的阅读论文:https://github.com/Paper2Chinese/CVPR-2025-reading-papers-with-code
(2)大机构数据库
- arxiv平台新出论文/预印本idea:https://arxiv.org/
- 谷歌学术:https://scholar.google.com.hk/
- dblp:https://dblp.org/
- Aminer:https://www.aminer.cn/
- huggingface新出论文:https://huggingface.co/blog/zh?tag=research
(3)Paper with Code上面SOTA结果
网址:https://paperswithcode.com/
3. 建议部分
(1)阶段划分
-
资格达成期
- 目标:满足学位授予的硬性成果指标(篇数、等级)
- 策略:锁定 1–2 个垂直子领域,开展深度研究,尽量避免进入高曝光热门赛道,降低idea被抢占风险
-
影响拓展期
- 目标:在完成资格后,利用已积累的模型、工具链与领域认知,向相邻学科或跨模态任务延伸,追求更高学术影响力
(2)日常科研习惯
-
输入端
- 文献精读:每周 2 篇,输出结构化摘要(问题-方法-缺陷-可改进点)
- 审稿意见逆向阅读:收集公开评审意见,提前预判可能被审稿人质疑点
例如:在 VLPose 这篇论文中,作者引入新模块的同时不可避免地引入了额外参数。为回应可能关于”性能提升是否仅源于参数增长”的质疑,作者在发表前通过对比实验设计,在参数量可控的前提下展示了其方法在性能上的显著优势,体现出结构设计本身的有效性。
Table3(b)表反映的是在不同模型尺寸下,各微调方法需要训练的参数量,单位为 MB。
1. Visual Prompt Tuning(视觉提示微调)
- 核心思想:不改动模型本体,仅在图像输入的”前面”加上可学习的”提示 embedding”
- 就像在 Transformer 里加了一个”引导标签”,帮助模型适应新任务
- 只训练这部分新加的 prompt,其余所有模型参数都 被冻结(frozen)
- 这叫做参数高效的微调方法,很轻量,不会破坏原模型
2. Last Layer Tuning(最后一层微调)
- 传统做法:固定前面的模型结构,只微调最后一层(通常是预测层)
- 相比全参数微调,它已经是”轻量”了,但仍然要训练模型的一部分原始参数
两种训练方式的不同点
项目 Visual Prompt Tuning Last Layer Tuning 是否改动原模型 否 不改,只加东西 是 改动最后一层 可训练参数来源 全是新加的 prompts 原模型中的部分参数 参数量 通常更少 较多 泛化能力保留 更强(原模型没动) 中等(最后一层被改) 结构可逆性 可随时删除 prompts 恢复原模型 改过原模型不可逆 结论是 VLPose 虽然只用了一点点额外的 prompt 参数(比 Visual Prompt 多,但远少于 Last Layer),但性能最好,结构还可逆,泛化也好。以高效的结构设计消解了对”参数堆砌”的潜在质疑。
-
输出端
- 即时记录:手机备忘录等
- 定期研讨:组会、会议、在线论坛等
4. 科研实操
4.1 入门大模型怎么选方向
目标:先搞清楚”能做多大的实验”
按资源情况划分:
| 手里的卡 | 推荐任务 | 为什么要这样做 | 真实例子 |
|---|---|---|---|
| 资源多 ≥100 张 A100 | 基于开源模型做大规模预训练、指令微调、强化学习 | 卡多=数据吞吐大,能把基线刷高 | LLaMA-65B 原版就是 2048 张 A100 训的 |
| 资源中等 8 张 V100 | 小领域微调 | 卡不多不少,可以训”窄场景”专用模型 | 纯语言领域:MoTCoder论文没有在humaneval或者mbpp这样的数据集上做验证,而是使用的Code Contest/apps:在专门做竞赛难度的编程数据集实验,数据量小但难度高。多模态领域:Lyra论文训练了一个视觉、语音、语言的多模态大模型,之前的多模态大模型在长音频和长视频上的效果不好,Lyra对应长视频音频的大海捞针任务做了提升 |
| 资源少 4 张 3090 | 免训练(training-free) | 训练一次要一周,迭代慢;免训可直接推理,每轮迭代速度都很快,无需大量资源 | 纯语言领域:Quick LLaMa:只做”长文本推理加速”,不改权重。视觉领域:VisionZIP:对图像的token做压缩 |
MoTCoder论文链接:https://arxiv.org/pdf/2312.15960
Lyra论文链接:https://arxiv.org/pdf/2412.09501
QuickLLaMA论文链接:https://arxiv.org/abs/2406.07528
VisionZIP论文链接:https://arxiv.org/pdf/2412.04467
4.2 如何判断一篇论文是否值得精读
值得精读 = 效果好 + 可复现
(1)效果好
情况1:在某个Benchmark上面是SOTA
Benchmark(基准测试)是指一套标准化的测试任务、数据集和评估指标,用于公平、可重复地比较不同方法或系统的性能。
情况2:不是SOTA,但是现有SOTA是在它的基础上进行改进
可能出现这样的情况,假设某论文A提出一个基础模型,后续论文B在A的基础上加了一个”花哨的模块”成为SOTA,但这个模块在数据量小或任务简单时反而拖后腿。所以可能基于论文A的baseline去改进效果会更好。
情况3:某工作是现有SOTA的基础或它启发了现有SOTA
如果不知道某论文是否和现有SOTA有关,可从以下4个方面来判断该篇论文的质量:
方面1:大机构 > 小机构
常见的大机构类型
-
顶尖高校及实验室
- 例如:MIT、Stanford、Tsinghua University等
- 这些学校下的研究实验室(如MIT CSAIL、Stanford AI Lab)在学术圈具有很强影响力
-
知名科研院所
- 例如:中国科学院、Max Planck Institute、Allen Institute for AI (AI2) 等
-
科技巨头的研究部门
- 例如:Google Research(Gemini)、DeepMind、Microsoft Research(DeBERTa)、Meta AI(PyTorch、LLaMA)、OpenAI(GPT、CLIP)、NVIDIA Research(Diffusion Models)
- 这些公司投入巨资,且产出大量SOTA研究成果
-
开源社区与合作研究组织
- Hugging Face、OpenMMLab 香港中文大学多媒体实验室网址
方面2:简单 > 复杂
复杂论文可能只是某个模块在起作用,作者为了使这篇论文工作更丰富创新,可能会融合很多模块,导致论文难以理解。
方面3:清晰 > 繁琐
优先论文有公式推导、伪代码和图示。
方面4:开源可复现
(2)可复现
优先有公开源码的论文,训练数据和训练参数齐全,近期公开/维护
Benchmark 是什么?
基本定义
- 在学术研究中,Benchmark 通常是:
- 一个公开可用的 标准数据集(比如 COCO、ImageNet、HumanArt)
- 配有 明确的评价指标(如 AP、Accuracy、F1-score)
- 用于对不同模型/方法进行 公平比较
举例
| 领域 | Benchmark 示例 | 作用 |
|---|---|---|
| 图像分类 | ImageNet | 比谁分类准 |
| 人体姿态估计 | MS COCO / HumanArt | 比谁关键点预测准 |
| 自然语言处理 | GLUE / SuperGLUE | 比谁语言理解好 |
| 大模型能力 | MMLU / GSM8K | 比谁多任务泛化能力强 |
一个完整的 Benchmark 往往包括:
| 组件 | 说明 |
|---|---|
| 数据集 | 统一的数据输入(比如图片、文本) |
| 标注 | 统一的”正确答案”或ground truth |
| 评价指标 | 用来打分,比如AP、Recall等 |
| 测试协议 | 比如是否允许使用额外数据、是否使用ground truth框等 |
4.3 看论文的流程
(1)标题:大致知道是做什么方面的工作
译为:QuickLLaMa:用于大型语言模型的查询感知推理加速
通过QuickLLaMa:知道大致在做一件加速的事情
(2)摘要&示意图:大致知道这篇论文在做什么事情
用户询问了关于哈利波特中很细节的问题,普通的Llama3无法给出回答,但是QuickLlama可以在30s内阅读完一本100k token的哈利波特并给出准确回答。
如果对这篇文章不感兴趣的话,可以去看下一篇文章了。
(3)深入看方法/架构示意图:知道这篇论文大致是在用什么框架/方式来实现这件事情
图示关键词解释
| 名称 | 含义 | 用途 | 举例 |
|---|---|---|---|
| Global Tokens (G) | 模型运行时始终存在的全局信息,如系统提示、任务说明等 | 作为整个推理过程中每一步都可访问的公共信息;增强模型对任务和角色的理解 | 系统提示:“你是一个图书问答助手” |
| Query Tokens (Q) | 用户输入的问题或查询句 | 用来指导模型重点关注哪些记忆块(Memory Blocks) | “哈利第一年结束时金妮指向了谁?“ |
| Context Tokens (C) | 模型历史接收过的长文本内容,被拆分成很多 memory blocks 存入”记忆”中 | 构成”记忆仓库”;供后续从中查找与 Query 或当前生成位置相关的上下文信息使用 | 整本《哈利·波特》的文本内容被切分成块 |
| Memory Blocks (B) | 上述 Context Tokens 划分后的一块块”笔记段落” | 用来支持查询感知(query-aware)的查找:哪些内容是现在需要调出来使用的 | Block 1 是”火车站送别”,Block 2 是”魔法课” 等 |
| Query-related Blocks (R) | 与 Query 或 Current Token 高度相关的 memory blocks | 是从 Memory Blocks 中”筛选”出的重要内容,用于当前推理窗口 | 当前提问与”火车站”段落相关,系统只加载这几段 |
| Local Tokens (L) | 当前生成位置前的短距离上下文 token(相对于 Current Token) | 让模型知道”现在在哪”,并为相关性打分提供”当前位置的上下文" | "昨天张三来了,他…” 是生成”是”之前的 L |
| Current Token (H) | 当前要生成/预测的 token 的隐藏向量表示(注意力机制中的 query 向量) | 用于决定当前哪些 memory block 有用(用于 s(B, H) 打分) | 当前正要生成当前准备生成/预测的那个 token”他是___“的”是”这个词 |
| Current Key-Value Cache (M) | 当前这一步模型使用的 key/value 信息组合,包含 G, Q, R, L 四部分 | 作为 Attention 层的输入;也是每一步模型做决策时真正”看到”的全部上下文 | 当前模型输入 = 全局说明 + 问题 + 相关段落 + 上下文 |
疑惑:先有的RAG和QuickLLaMa谁出现时间较早?它们有什么区别?
——>使用AI工具,用kimi k2查询得到以下对比表格:
| 维度 | RAG(2020年) | QuickLLaMA(2024年) |
|---|---|---|
| 核心机制 | 在生成前,先检索外部文档,再让 LLM 结合检索结果生成答案 | 在生成过程中,动态从长上下文中查找与查询相关的片段 |
| 数据来源 | 通常是外部知识库(如 Wikipedia、向量数据库) | 是当前输入的长文本本身(如一本书、一篇长文) |
| 是否需要训练 | 需要训练检索器和生成器 | 无需训练,可直接插入现有 LLM |
| 使用场景 | 回答知识密集型问题(如”2024 年奥运会举办城市”) | 回答长文本内部问题(如”哈利·波特中谁最后拿到魔杖?“) |
| 检索粒度 | 以文档或段落为单位 | 以token 或记忆块为单位,更细粒度 |
(4)看实验表格结果:看这篇论文的方法比较的baseline有哪些,明确这论文的优势和提升是什么
图一第一列展示了,不同 benchmark 中的任务(多项选择问答、阅读理解题、对话摘要…)
第一行:方法对比;第二行:上下文窗口大小(Context Window)
该方法可以在长文本输入的Benchmark(基准测试)上取得很好的效果。
| 方法名称 | 是否需要重新训练 | 是否 Query-aware(查问题重点) | 推理速度 | 显存占用 | 记忆能力 | 综合表现 |
|---|---|---|---|---|---|---|
| LLaMA3-8B-1048K | 需要 | 否 | 慢 | 极高 | 很强(靠训练) | 精度高但代价大 |
| StreamingLLM (Stream) | 不需要 | 否 | 快 | 中等 | 差(会忘) | 快但记不住长文本 |
| InfLLM | 不需要 | 否 | 快 | 低 | 一定记忆力 | 比 Stream 更强,但不够聪明 |
| QLLM (QuickLLaMA) | 不需要 | 是 | 最快 | 最低 | 最强(精准查找) | 表现最全面优秀 |
图二展示了该方法在显存占用和时间上面和baseline的对比,Llama3都显存占用会随着token数量增加呈现指数增长,很快就会OOM超显存,但本文方法最多只使用了20b左右的显存,且时间增长是线性的。故有此结论,该方法相比于之前的baseline在性能、显存占用、速度都有提升。
如果对这篇文章不感兴趣的话,认为某个步骤写的不好,可以去看下一篇文章了
(5)进一步看表格内部的baseline:找baseline对应论文,用上面的流程再读一遍
比如这里比较了英伟达的Stream LLM,去找这篇baseline对应的论文,用上面的流程再读一遍,把表格里面所有的baseline都搞懂,就差不多理解当前这篇论文了
(6)正文/代码:想有哪些地方可以改进,基于当前文章产生一个idea
4.4 代码跑通流程
(1)去 Papers with Code /github等搜索任务关键词。
(2)选有官方代码+有训练脚本+最近一年有更新的论文代码(有readme文件、环境版本号具体、参数详细、训练验证等使用教程清晰)。
(3)复现 = 配环境 → 下载数据 → 跑脚本 → 得到和作者差不多的分数。
详细流程:配置好代码环境和数据 → 理解代码运行逻辑(从主函数开始,哪些部分是数据处理,哪些是核心算法) → 基于哪些部分进行改进 → 对核心部分插入断点
阶段1 代码理解
例如:MoTCoder这篇论文中的模型,通过拆分子模块的方式来对代码问题进行求解,那么你可以输入给他一个例子,观察它是如何对输入问题进行子模块的拆分,从而理解这个模型的运行逻辑。
如果代码库提供可视化,可以基于可视化来帮助理解。
阶段2 在代码理解之上改进
基于现有代码进行改进,比如观察到论文中的attention热力图对某些局部信息没有体现,你就可以新增一个模块来重点关注这些局部细节信息。经过你的新增模块之后,再次绘制热力图,发现之前没有被标注的细节信息被highlight,那么可以证明你新增的模块是有效的。
例子:论文TagCLIP新增了一个Trusty Learner模块,作者在论文中配了对应的可视化示意图,来展示该模块的作用,用以验证该模块的有效性。
论文研究问题:现有的基于对比语言-图像预训练(CLIP)的零样本语义分割方法在处理未见类别时存在显著的误分类问题,尤其是容易将未见类别与语义相似的已知类别混淆。
对于阶段2例子的详细解释
- 研究问题:模型会把”没见过的东西”当成”见过的”
研究的核心问题是:在图像分割中,模型需要给每个像素打上正确的类别标签。但很多模型只见过训练集里的”已知类别”(比如飞机、汽车、牛),一旦遇到”没见过的类别”(比如盆栽、电视、沙发),它常常会误认为这些新东西也是已知类别。比如,它可能会把”盆栽”误认为是”瓶子”,因为两者颜色或形状有点像。
- 解决方法:让模型学会”这是不是我认识的东西”
TagCLIP 的方法是增加了一个 “Trusty Token”,它的工作就像一个”可信度检测器”——先判断这个像素是不是已知类别。如果它觉得”不像是我认识的东西”,就会抑制模型给它贴上已知类别的标签。
- 为什么要放 Fig.4?
Fig.4 就是用来证明这个”可信度检测器”真的好用。
- 图里左两列显示,检测器对”已知类别”的反应很明显(像飞机、汽车这些它认识的东西被高亮)
- 右一列显示,它对”未知类别”几乎不亮,说明它能有效忽略没见过的东西
简单说,这张图是”证据”,让读者一眼就能看出:
“看!我们的新方法确实能分清什么是它见过的,什么是它没见过的。“
4.5 怎么读代码
目标:搞清楚”哪一段代码是我未来要改的地方”
流程:
情况1:普通github代码
整体框架粗读,重点部分代码亲自跑一遍(插断点),一行行去看其中的变量是如何变化的、变量的形状是什么。
情况2:代码库
比如在大模型训练中常见的代码库LLaMA-Factory
或者在视觉检测中常见的MMDetection,但这个代码库的封装很厉害,找变量入口和变化方式都很麻烦。因此这种类型的库不必层层debug,无需完全理解它的代码运作流程,会用即可。在使用说明里面看,如何添加一个新的模型、数据集等。
(1)粗读:
打开github仓库,先看 README.md,找到入口脚本(通常叫 main.py 或 train.py)。
(2)细读:
在核心函数里打断点。
- IDE:用 VS Code 打开代码,
F9打断点,F5启动调试 - 断点:让程序跑到这行就暂停,方便查看变量值
- 变量形状:
print(x.shape),例如[32, 128, 768]表示 batch=32、序列长 128、特征维度 768
具体例子:在QuickLLaMA这篇文章中,它的核心框架是attention部分的实现,在代码中嵌套了方程来代替原本模型attention中的forward函数。除了论文中实现的QLLM之外,代码库还包含了这个方向的一系列论文,比如StreamLLM、LM-Infinite、InfLLM这些代码都是用同样的框架实现的,因此可以很容易比较他们之间的不同。
4.6 改进现有SOTA
从论文方法角度进行分析
效果好的论文,分成三类:
(1)效果好,方法创新——顶级论文
能否把这个方法用在新领域,比如Transformer出了之后——>做vision Transformer、Mamba出了之后——>做vision Mamba、Sam出了之后——>做3D Sam。
- 优点:如果是第一个把这个方法用在新领域的人,会受到很多关注
- 缺点:竞争大,各大机构都在同台竞技
(2)效果好,方法简单
- 缺点:方法简单但改进有难度
法1:可以把一项工作尝试用在新领域
MOOD的这篇CVPR论文就是把掩码图像建模用在了异常检测方面。掩码图像建模方法在很多领域都证明了其有效性,但未在异常检测领域进行应用,可以实验证明该方法在异常检测的各个方向上是有效的。
法2:把这篇论文和其他论文的方法相结合(不只是ABC模块组合,也可以是A模块+B方法+C评价指标)
比如MOODv2就是把MOOD结合上新的预训练策略BEiTv2再结合新的异常检测指标ViM
(3)效果好,方法复杂
因为方法复杂,尝试把方法进行拆解,把某些模块替换成你觉得更好的模块或把某些模块简化
两种通用的方法
法1:找到现有方法在某些场景不work的缺陷,去掉现有方法成立的一些必要条件
现有方法缺陷:比如QuickLLaMa这篇,核心框架是:利用问题在长文本中进行关键信息的查找,有一种情况是,如果用户先输入的是长文本但是却不输入问题,在这种情况下可以改进这一点来形成新的文章。
核心思路就是:去掉现有方法成立的一些必要条件。
在新的场景下,这些现有方法就不work了,你就可以针对这种新场景来完成一篇论文。
法2:关注新出的Benchmark
比如HumanArt数据集是第一个在艺术领域上的姿态检测数据集,之前的人体姿态估计方法在这个数据集上的效果不好,于是出现了VLPose这个方法,在艺术检测这个数据集上和通用数据集上都做出了改进,形成一篇新论文。
法3:添加新的Benchmark、消融实验、Task
当idea已经证明可行,但性能不是SOTA时:
-
前提建议:选题阶段即对标SOTA
-
已验证有效但非SOTA性能:改进与发表策略
(1)尝试和现有SOTA相结合
(2)无法结合SOTA时考虑:是否必须对比?
可能无需比较的情况:
- 情况1:是arxiv的预印本,还没有中稿
- 情况2:是同期工作
必须比较的情况(想尽办法去证明你的工作是有价值的):
方法1:添加新的 Benchmark(覆盖更多任务维度,提升普适性说服力)
- 某单一任务性能不如SOTA,但在其他10个任务上表现领先
- 在多跳推理上优于SOTA,虽然单跳问题上稍逊
方法2:加新的消融实验(精细化对比同一设置下的表现)
原则:
- 比较对象限定为同等规模模型/方法
- 若你贡献在于训练策略,仅需对比其他训练策略
- 开源只和开源比,小贡献但有价值
方法3:添加新的task(做别人做不到或未做之事,强调独特性)
- 多模态模型实现视觉+语音+语言,领先仅支持视觉+语言的方法
- 能处理2小时视频而非其他方法仅支持2秒视频
- 引入新语言/场景/规模等独特任务设定
总结
若以上方法均尝试后性能仍无竞争力,该idea或许尚不成熟。
科研初期优先级建议:
- 效果优于创新:方法普通但效果好,也值得发表
- 工程贡献也是贡献:通过数据工程、训练技巧取得SOTA,也会获得关注
例如:无需新颖方法,仅凭高质量数据 + 大参数量 + 微调策略也能发表高水平成果(如许多大模型训练类论文)。
4.8 怎么把论文的故事讲好
目标:让审稿人快速相信”你的工作合理且有效”
解释为什么A+B是有效的
(1)理论上
验证A+B > A,用公式推导进行证明(最有说服力,但很多情况下无法用理论求解)
(2)现象上
观察到了A中的一些现象,B这一模块可以弥补这一缺陷,为什么能够弥补,可以搭配一些可视化,与4.4 代码跑通流程阶段2 在代码理解之上改进这部分的原理是相同的
(3)工程上
把系统中的每个模块都相对应的比较同期模块,验证你的系统所采用的模块是最有效的。
例如 MOOD这篇论文比较了不同的预训练策略、不同的模型架构、不同的OOD检测指标,证明在这个系统中所使用的每一个模块都是最优的。
什么是OOD检测?
在现实世界中,很多AI系统面临这样的问题:它们在训练时只见过一部分”已知的数据”(称为In-Distribution(ID)数据),但测试或应用时可能会遇到”陌生的数据”(即Out-of-Distribution(OOD)数据)。OOD检测的任务就是要让AI系统学会识别出这些陌生的、没见过的数据,并避免错误地对它们做出判断。
(4)总结
把论文的形成过程讲清楚,包括整个系统的脉络、以及每个模块的作用、每个模块都要配合对应的消融实验来验证模块的有效性
三、怎么3天速成一篇论文
工具
- GPT-4o(英文) + DeepSeek(中文)
- LaTeX格式论文在线编译网站:Overleaf
应用举例
(1)给图片写标题:向GPT输入:图片+提示词(例如:给图片写英文latex格式的caption)
(2)写相关工作:相关工作的每篇论文摘要粘贴下来,输入给GPT可生成一个相关工作初稿
(3)介绍数据集:将数据集相关介绍输入给GPT生成data部分的段落
(4)组会汇报:做PPT可以使用DeepSeek:把一周工作内容输入给DeepSeek做PPT,将生成的表格直接粘贴到PPT中,提高工作效率