DOCS
自动化绘图工具
PaperBanana 等自动化学术插图工具介绍
1. PaperBanana (arXiv:2601.23265, 2026)
1.1 核心价值
PaperBanana 是首个专门为 AI 科学家设计的自动化学术插图生成系统。
论文: arXiv:2601.23265
1.2 核心功能
| 功能 | 说明 |
|---|---|
| 自动插图需求识别 | 从论文文本自动识别需要可视化的部分 |
| 顶会风格生成 | 生成符合 NeurIPS/ICML/ICLR 审美的初版 |
| 智能图表推荐 | 根据内容推荐最适合的图表类型 |
2. 工具生态全景
flowchart TD
subgraph ["原型阶段"]
A[Mermaid.js] --> B(快速原型)
C[draw.io] --> B
end
subgraph ["专业阶段"]
B --> D[Figma]
D --> E(专业插图)
end
subgraph ["自动化阶段"]
F[PaperBanana] --> G(自动生成)
G --> E
end
subgraph ["整合阶段"]
E --> H(PPT 整合)
H --> I(最终发布)
end
3. 工具对比
| 工具 | 类型 | 优势 | 适用场景 | 学习曲线 |
|---|---|---|---|---|
| Mermaid.js | 文本驱动 | 代码驱动、版本友好 | 流程图、时序图 | 低 |
| PlantUML | UML | 标准化 | 系统架构图 | 中 |
| D3.js | 自定义 | 高度可定制 | 创新可视化 | 高 |
| draw.io | 在线绘图 | 免费、协作 | 快速原型 | 低 |
| Figma | 协作设计 | 专业级 | 高质量插图 | 中 |
| PPT | 整合工具 | 方便整合 | 最终发布 | 低 |
4. 工具选择决策树
flowchart TD
A(图表类型) --> B{是流程图/时序图?}
A --> C{需要高度定制?}
A --> D{团队协作?}
A --> E{快速原型?}
B -->|是| F[Mermaid.js]
C -->|是| G[D3.js]
D -->|是| H[Figma]
E -->|是| I[draw.io]
F --> J(初版)
G --> K(精细化)
H --> L(协作)
I --> M(快速迭代)
M --> N(PPT 整合)
5. GPT 辅助绘图流程
5.1 阶段 1: 需求分析
你是一位专业的学术插图设计师。请分析以下论文内容:
["粘贴论文的方法部分"]
输出:
1. 需要可视化的核心概念
2. 概念之间的关系
3. 适合的图表类型建议
5.2 阶段 2: 元素清单
基于以下论文内容, 生成架构图的元素清单:
["论文内容"]
请输出:
1. 所有模块及其功能描述
2. 模块间的数据流向
3. 需要标注的关键信息
4. 建议的颜色方案
5.3 阶段 3: 布局建议
请为以下内容设计布局方案:
["元素清单"]
考虑:
- 从左到右还是从上到下?
- 中心辐射还是层次结构?
- 留白和平衡
5.4 阶段 4: Mermaid 代码生成
flowchart LR
subgraph ["输入处理"]
A(原始数据) --> B(预处理)
end
subgraph ["核心模型"]
B --> C(特征提取)
C --> D(注意力模块)
D --> E(输出生成)
end
subgraph ["损失函数"]
F(主损失) --> G(多任务Loss)
H(正则项) --> G
end
E --> I(最终输出)
6. 配色方案示例
6.1 AI 顶会风格
| 颜色 | 用途 | HEX |
|---|---|---|
| 背景 | 图表背景 | #FFFFFF |
| 主模块 | 核心方法 | #10A37F |
| 辅助模块 | 对比方法 | #007AFF |
| 数据流 | 箭头连接 | #6B7280 |
| 高亮 | 关键部分 | #AB68FF |
6.2 暗色主题
| 颜色 | 用途 | HEX |
|---|---|---|
| 背景 | 图表背景 | #212121 |
| 主模块 | 核心方法 | #10A37F |
| 辅助模块 | 对比方法 | #007AFF |
| 数据流 | 箭头连接 | #9CA3AF |
| 高亮 | 关键部分 | #AB68FF |
7. 最佳实践
整个论文使用统一的配色和字体方案
避免过多颜色, 每个颜色有明确含义
确保在黑白打印时也能清晰区分
每个图都有清晰的图例和说明
8. PaperBanana 论文要点补充(2601.23265)
为响应“把论文内容并入现有章节”的要求, 这里补充 PaperBanana 原文中的关键信息(不上传 PDF 文件):
8.1 研究动机
论文明确指出:自动科研系统已能生成方法与实验, 但发表级插图仍是人工瓶颈。PaperBanana 的目标是把“论文图”从手工绘制转为可迭代自动流程。
8.2 方法框架
PaperBanana 采用 agentic pipeline, 将插图生成拆为可控阶段:
- 检索参考图与风格约束
- 规划图的语义内容与视觉结构
- 图像渲染与矢量生成
- 自我批评与迭代修正
8.3 评测设置
论文引入 PaperBananaBench(292 个测试样例), 覆盖方法图等常见学术插图场景, 用于评估自动生成质量与可用性。
8.4 工程启发(对本书工作流)
- 图表要与方法叙事同源:由 method text 驱动, 而不是事后美化。
- 优先保证“信息正确 + 可复现”, 再追求视觉高级感。
- 生成后必须保留可编辑中间产物(SVG/分层素材), 便于审稿期快速改图。
8.5 AutoFigure-edit 项目补充(根目录项目)
来自 AutoFigure-Edit-main.zip 的 README 还提供了一条很实用的“方法图工程化”路线:
- 从 method text 先生成草图
figure.png - 用 SAM3 做区域检测与框选(产出
samed.png+boxlib.json) - 对图元做去背景(RMBG-2.0)得到可复用 icon
- 生成占位模板
template.svg并可迭代优化 - 最终组装成可编辑的
final.svg
这条链路和 PaperBanana 的共同点是:都强调中间产物可追溯, 便于审稿期快速改图。
9. Book 实战增补(逐篇并入)
本节并入 3 篇与”图表/视觉产物自动化”直接相关的文章,重点补齐从论文 Figure 到 PPT/视频转场的可执行流程。
9.1 1) PaperBanana:论文级 Figure 生成与润色
来源:book/谷歌做了个论文专用版nano_banana_顶会级Figure直出.md
9.1.1 关键增量
- Figure 目标从“好看”升级为“语义正确 + 学术审美一致”。
- 支持两类核心产物:方法结构图(Methodology)与统计图(Statistical Plots)。
- 支持从草图/初版图自动润色:重排层级、统一配色、强化箭头逻辑。
9.1.2 多 Agent 生产线(可复用)
- 检索参考图与领域范式;
- 规划结构化图描述(模块、关系、层级);
- 按审美约束生成初稿;
- 评论代理迭代纠错(语义一致性检查);
- 输出论文可用版与可编辑资产。
9.1.3 实操结论
- 统计图场景下,优先“AI 生成绘图代码再出图”,通常比直接生图更可控。
- 生成完成后必须保留中间素材,避免审稿期改图返工。
9.1.4 详细步骤(PaperBanana 风格流程)
- 准备输入:方法段落、关键模块列表、模块关系表(A→B)。
- 先产出“结构草稿”而不是终稿,确认语义无误后再美化。
- 进入风格增强阶段:统一配色、字体、间距、箭头方向。
- 对照正文逐项核验:术语一致、关系一致、无缺漏模块。
- 导出两份:投稿图 + 可编辑源文件(SVG/分层)。
9.1.5 文章细节补充(质量核验表)
- 语义一致:图中术语与正文完全一致;
- 逻辑一致:箭头方向与流程关系无冲突;
- 审美一致:配色、字号、间距统一;
- 投稿可用:分辨率与版式满足会议模板要求。
9.2 2) PPT Skills:从静态页面到转场视频
来源:book/学会了PPTSkills_豆包Kimi都感觉不香了_但90_的人卡在第一步_Gemini_NanoBananaPro_API国内用不了_这篇帮你全解决(8个坑_国内可用).md
9.2.1 可执行流程
- 输入主题与约束(页数、风格、分辨率);
- 批量生成每页视觉稿;
- 两两页面分析视觉差异;
- 自动生成转场提示词;
- 调用视频模型生成过渡片段;
- 用
ffmpeg合成完整演示视频。
9.2.2 工程化建议
- 优先“二次开发已有 skill”,避免从零造轮子。
- 配置分层:官方 API 与第三方 API 兼容两套路径。
- 对“连通性、鉴权、路径、依赖版本”做启动前自检,减少运行中断。
9.2.3 详细步骤(PPT Skills 国内可用改造)
- 复制原项目到新目录,避免直接污染上游版本。
- 创建虚拟环境并安装依赖:
python3 -m venv venv
source venv/bin/activate
pip install google-genai pillow python-dotenv -i https://pypi.org/simple
- 复制配置模板并填写:
cp .env.example .env
- 先做 API 连接测试(返回 200 再继续主流程)。
- 官方 SDK 不稳定时切 HTTP 直调,便于定位原始请求/响应。
- 生成完成后再执行转场视频流水线,避免前置失败放大损失。
9.2.4 文章细节补充(可复制命令顺序)
# 初始化
cd <project>
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
# 生成静态页
python generate_ppt.py --plan plans/demo.md --style styles/vector-illustration.md --resolution 2K
# 生成转场视频(按项目脚本)
python generate_transition.py --input outputs/<run>/images --output outputs/<run>/videos
ffmpeg -f concat -safe 0 -i outputs/<run>/videos/list.txt -c copy outputs/<run>/full_ppt_video.mp4
9.2.5 常见问题排查(细化)
- API 连通失败:先用独立脚本验证请求,再跑主流程。
- 模型返回空结果:检查模型名是否与供应商兼容。
- 转场合成失败:检查 ffmpeg 是否安装、输入列表是否存在。
- 分辨率不一致:统一生成参数,避免混用 2K/4K 导致拼接失败。
9.2.6 高频坑位清单
- Base URL 误配(多拼路径导致 404);
- 运行环境不一致(系统 Python 与虚拟环境混用);
- 官方 SDK 报错不透明(必要时改 HTTP 直调便于排错)。
9.3 3) 图文一体化 Skill:文章生成 + 配图落地
来源:book/Claude_Code_Skill_自动生成文章内容与配图.md
9.3.1 双 Skill 架构
article-generator:负责文章结构、SEO 信息与图片占位符。image-generator:负责读取占位符上下文、生成 prompt、调用图像流水线。
9.3.2 8 步流水线(建议模板)
- 生成文章与占位图;
- 提取占位符上下文;
- 生成每图 prompt;
- 批量生图;
- 转
webp压缩; - 上传对象存储(如 R2);
- 回填 CDN 链接;
- 输出可发布版本。
9.3.3 关键命令示例
npm run generate-images <article-slug>
npm run compress-images <article-slug>
npm run upload-images <article-slug>
npm run replace-images <article-slug>
9.3.4 详细步骤(图文流水线)
- 用
article-generator产出文章与占位图。 - 运行
image-generator读取占位并生成 prompt。 - 依次执行四个命令:生图 → 压缩 → 上传 → 链接替换。
- 每一步检查输出目录是否存在且非空。
- 替换完成后抽查 3 处图片链接,确认 CDN 可访问。
9.3.5 文章细节补充(目录规范建议)
articles/<slug>.md
prompts/<slug>/*.md
images/<slug>/*.png
images/<slug>/*.webp
建议每一步都写入一个 status.json,用于中断后恢复:
stepokupdated_aterror
9.3.6 章节衔接说明
这套方案与本章已有的 PaperBanana + AutoFigure-edit 形成互补:
- 论文 Figure 偏“科研表达规范化”;
- 图文流水线偏“内容生产自动化”;
- 两者都强调中间产物与可追溯性。