Nano-Banana Pro 论文绘图教程

发表于 2025-12-16 更新于 2025-12- 16

作者 Mark Gu

51~66 分钟 阅读

一、引言

Nano-Banana Pro 是一款极其强大的 AI 绘图模型，特别适合生成科研论文中常见的 系统架构图、流程图、概念示意图 等。
结合 LLM 的逻辑推理能力，本教程提供了一套标准化的工作流，将绘图拆分为三个阶段：

逻辑构建（The Architect）
视觉渲染（The Renderer）
交互式微调（The Editor）

按照此流程操作，可生成接近高水准的学术图。

二、总流程概览

绘图流程 = 思考（LLM） + 绘制（Nano Banana）+ 微调（自然语言编辑）

步骤一（The Architect）：让大模型生成结构蓝图（VISUAL SCHEMA）

步骤二（The Renderer）：让 Nano-Banana Pro 根据蓝图绘图

步骤三（The Editor）：你通过自然语言对图像微调 & 修补

目标：
生成足够专业、且可通过后期处理符合期刊要求的架构图/示意图。

Example1：

Attention is All You Need

Example2：

Tree-KG: An expandable knowledge graph construction framework for knowledge-intensive domains

三、具体实现

步骤一：逻辑构建（The Architect）

目标是利用逻辑推理能力出色的 LLM（如 Gemini 3 Pro、GPT-5、Claude 4.5），将论文内容转化为结构化、可视化的 [VISUAL SCHEMA]。这是整个流程最关键的一步，因为它决定了最终图形的逻辑严谨性与布局质量。

操作指南：为了生成可用于绘图模型的“强约束”视觉描述，请使用以下 Prompt，将你的论文摘要或方法内容附在最后。

核心思想是：必须把抽象算法转换为绘图模型能直接理解的物理化、几何化描述。

Prompt 1（逻辑构建）

# Role
你是一位 CVPR/NeurIPS 顶刊的**视觉架构师**。你的核心能力是将抽象的论文逻辑转化为**具体的、结构化的、几何级的视觉指令**。

# Objective
阅读我提供的论文内容，输出一份 **[VISUAL SCHEMA]**。这份 Schema 将被直接发送给 AI 绘图模型，因此必须使用**强硬的物理描述**。

# Phase 1: Layout Strategy Selector (关键步骤：布局决策)
在生成 Schema 之前，请先分析论文逻辑，从以下**布局原型**中选择最合适的一个（或组合）：
1.  **Linear Pipeline**: 左→右流向 (适合 Data Processing, Encoding-Decoding)。
2.  **Cyclic/Iterative**: 中心包含循环箭头 (适合 Optimization, RL, Feedback Loops)。
3.  **Hierarchical Stack**: 上→下或下→上堆叠 (适合 Multiscale features, Tree structures)。
4.  **Parallel/Dual-Stream**: 上下平行的双流结构 (适合 Multi-modal fusion, Contrastive Learning)。
5.  **Central Hub**: 一个核心模块连接四周组件 (适合 Agent-Environment, Knowledge Graphs)。

# Phase 2: Schema Generation Rules
1.  **Dynamic Zoning**: 根据选择的布局，定义 2-5 个物理区域 (Zones)。不要局限于 3 个。
2.  **Internal Visualization**: 必须定义每个区域内部的“物体” (Icons, Grids, Trees)，禁止使用抽象概念。
3.  **Explicit Connections**: 如果是循环过程，必须明确描述 "Curved arrow looping back from Zone X to Zone Y"。

# Output Format (The Golden Schema)
请严格遵守以下 Markdown 结构输出：

---BEGIN PROMPT---

[Style & Meta-Instructions]
High-fidelity scientific schematic, technical vector illustration, clean white background, distinct boundaries, academic textbook style. High resolution 4k, strictly 2D flat design with subtle isometric elements.

[LAYOUT CONFIGURATION]
* **Selected Layout**: [例如：Cyclic Iterative Process with 3 Nodes]
* **Composition Logic**: [例如：A central triangular feedback loop surrounded by input/output panels]
* **Color Palette**: Professional Pastel (Azure Blue, Slate Grey, Coral Orange, Mint Green).

[ZONE 1: LOCATION - LABEL]
* **Container**: [形状描述, e.g., Top-Left Panel]
* **Visual Structure**: [具体描述, e.g., A stack of documents]
* **Key Text Labels**: "[Text 1]"

[ZONE 2: LOCATION - LABEL]
* **Container**: [形状描述, e.g., Central Circular Engine]
* **Visual Structure**: [具体描述, e.g., A clockwise loop connecting 3 internal modules: A (Gear), B (Graph), C (Filter)]
* **Key Text Labels**: "[Text 2]", "[Text 3]"

[ZONE 3: LOCATION - LABEL]
... (Add Zone 4/5 if necessary based on layout)

[CONNECTIONS]
1.  [描述连接线, e.g., A curved dotted arrow looping from Zone 2 back to Zone 1 labeled "Feedback"]
2.  [描述连接线, e.g., A wide flow arrow from Zone 2 to Zone 3]

---END PROMPT---

# Input Data
[在此处粘贴你的论文内容]

步骤二：绘图渲染（The Renderer）

目标是利用 Nano-Banana Pro 优秀的指令遵循能力，将步骤一生成的 VISUAL SCHEMA 精准渲染为图像。

操作指南：请复制以下模板，并将步骤一的 Schema（从 --- BEGIN PROMPT --- 到 --- END PROMPT ---）直接粘贴进指定位置，无需修改。

Prompt 2（绘图渲染）

**Style Reference & Execution Instructions:**

1.  **Art Style (Visio/Illustrator Aesthetic):**
    Generate a **professional academic architecture diagram** suitable for a top-tier computer science paper (CVPR/NeurIPS).
    * **Visuals:** Flat vector graphics, distinct geometric shapes, clean thin outlines, and soft pastel fills (Azure Blue, Slate Grey, Coral Orange).
    * **Layout:** Strictly follow the spatial arrangement defined below.
    * **Vibe:** Technical, precise, clean white background. NOT hand-drawn, NOT photorealistic, NOT 3D render, NO shadows/shading.

2.  **CRITICAL TEXT CONSTRAINTS (Read Carefully):**
    * **DO NOT render meta-labels:** Do not write words like "ZONE 1", "LAYOUT CONFIGURATION", "Input", "Output", or "Container" inside the image. These are structural instructions for YOU, not text for the image.
    * **ONLY render "Key Text Labels":** Only text inside double quotes (e.g., "[Text]") listed under "Key Text Labels" should appear in the diagram.
    * **Font:** Use a clean, bold Sans-Serif font (like Roboto or Helvetica) for all labels.

3.  **Visual Schema Execution:**
    Translate the following structural blueprint into the final image:

[在此处直接粘贴 Step 1 生成的 ---BEGIN PROMPT--- ... ---END PROMPT--- 内容（包含方括号内的英文）]

步骤三：交互式微调与迭代（The Editor）

当你拿到第二步的结果之后，因为Nano-Banana Pro 的图像编辑能力成熟稳定，因此在得到初稿后不应急于完全重绘，而是优先通过自然语言进行微调。常见调整包括：

更换图标（例如“齿轮换成神经网络结构”）
调整颜色（例如“箭头改为深灰色”）
统一风格（例如“所有线条变细”）
修正文案或移除文字
使用选区编辑进行局部修补

若整体布局错误（例如循环结构被画成线性结构），应回到步骤一重新生成更清晰的 VISUAL SCHEMA，而不是修补图像。

这一步的核心理念是利用 Nano-Banana Pro 卓越的自然语言编辑能力进行“微调”。Nano-Banana Pro的图编辑已经很强了，所以如果你对这个图能达到80分的满意，就不要轻易点击重新生成。

💡关于抽卡（重新生成）的有效性
通过测试发现，抽卡对整体的布局和风格改动不会特别大，不过可能会对某些线条的路径、某些元素的颜色、图形的细节有些改变。
你可以抽卡选择你最喜欢的一张；或者如果你本身有明确的配色方案的话，可以直接用自然语言去对这张原图进行修改。
你可以对比下面两张相同提示词生成的结果，其实差别并不是特别显著。因此更多情况下，对于大幅度的调整可以去优化步骤一的提示词；小幅度调整直接自然语言去命令修改即可。

情况 A：整体布局满意，但细节或风格有瑕疵

此时应采取“自然语言编辑”策略。你可以直接在对话框中输入修改指令，或者利用界面上的“选中区域编辑”功能。模型会在保持画面主体结构不变的前提下，精准修改你指定的元素。例如：

修改图标：你可以说 "Change the 'Gear' icon in the center to a 'Neural Network' icon"（把中间的齿轮换成神经网络图标），或者 "Replace the robot head with a simple document symbol"（把机器人头换成文档符号）。
调整颜色：例如 "Make the background of the left panel pure white instead of light blue"（把左边面板的背景改成纯白），或 "Change the orange arrows to dark grey"（把橙色箭头改成深灰色）。
风格统一：如果线条太粗，可以说 "Make all lines thinner and cleaner"；如果阴影干扰了视觉，可以说 "Remove the shading effect, make it completely flat 2D"。
文字修正：如果出现拼写错误，可以说 "Correct the text 'ZONNE' to 'ZONE'"。当然，如果文字错误太严重，最稳妥的办法是直接让 AI 去掉文字 ("Remove the text labels")，后期自己在 PPT 中添加。

情况 B：整体布局错误 (Layout Failure)

如果你发现本该是循环结构的画成了直线，或者核心逻辑关系完全搞反了，这时候不要试图通过修补来挽救。这通常意味着步骤一生成的 [VISUAL SCHEMA] 本身描述不够清晰。

正确的做法是回到步骤一。检查并修改 Step 1 的 Prompt，确认是否选错了 [LAYOUT CONFIGURATION]，或者 Internal Visualization 的描述不够具体。你可以直接和LLM对话，要求它按照你的要求修改 [VISUAL SCHEMA] 重新生成蓝图后，再次运行步骤二，往往能解决根本问题。

四、进阶：从“可用”到“完美”

为了进一步提升出图质量，我们可以结合人工介入和一些工具技巧：

1. 人工介入微调（Human-in-the-loop）

Step 1 生成的 [VISUAL SCHEMA] 本质上是可完全编辑的文本蓝图，因此无需通过不断“抽卡”来尝试不同结果。

通常直接修改 Schema 会更加高效。例如，如果不希望某个图标出现在最终图中，只需将 Schema 中的 Top Visual: A robot 修改为 Top Visual: A brain icon 即可；如果觉得配色过于花哨，也可以直接在 Color Palette 中删除不需要的颜色。
通过对 Schema 进行人工干预，你可以精确控制图像的结构形式与视觉风格。

2. 提供参考图像的重要性

纯文字描述终究有限，再精准的 Prompt 也难以完整传达你脑海中的空间布局或视觉张力。因此，有必要引入更直观的约束方式——使用参考图像。

建议在平时阅读顶刊论文时，有意识地建立一个个人的“科研审美库”，收集布局优秀、配色专业的示意图。在实际绘图任务中，只需将目标风格图（甚至手绘草稿）上传给模型，并删除步骤二中的通用 Art Style 描述，然后明确提示：
“生成的图像在风格、布局和配色上应严格参考我上传的图片。”
这样可强制模型从“文生图”模式切换为更稳定的“图生图”模式，从根本上避免布局走形。

3. 参数化控色的重要性

单纯让 AI 使用诸如 “Light Blue” 或 “Red” 等模糊颜色描述通常会导致画面呈现廉价的塑料质感。为了达到专业级视觉效果，需要采用 参数化控色。

可以从你的审美库中使用取色工具提取精确的 HEX 色值（例如 #E1F5FE），并在 Prompt 中直接指定。同时建议准备一套经过学术界长期验证的配色方案，可参考一些顶刊示意图的 RGB/HEX 配色整理资源。
一旦使用精确的 RGB/HEX 参数，AI 生成的图像整体质感会显著提升，更接近 Nature / Science 级别的视觉水准。

4、如何避免生成的图像附带右下角水印

解决办法1：

使用PS的自动填充功能，去除并且填充水印位置（适用于水印部分比较简单或者大片空白的地方）

解决办法2：

在步骤二的提示词末尾加上一句：在图片底部插入一行占位文本，这行文本内容所在位置应该刚好能包含 Gemini 的水印。拿到图后，直接把底部包含文本和水印的区域裁剪掉即可。

五、后期处理

请将 AI 生成的图视为 90% 的完成品。为了达到出版要求，建议使用 Photoshop 或 Adobe illustrator（AI）进行最后的修整。比如，AI 生成的文字可能会有拼写错误或字体不统一的问题，最好的办法是用修图软件抹掉这些文字，然后换成符合论文格式（如 Times New Roman）的矢量文字。如果是超长流程图，可以分段生成（Zone 1+2 一次，Zone 3 一次），最后在 PPT 里拼接起来。

有相关的使用者指出 Illustrator的“图像描摹”功能可以将 Nano banana Pro 生成的PNG图转为矢量图，具体参数和步骤如下：

但是存在的问题：

可能会出现效果并不是特别完美，精度有些低。可能这个参数更适用于生物学等领域的 biorender 风格。如果确实有将 PNG 矢量化的需求，可以去测试颜色、路径、边角、杂色这几个参数的取值，提高精度。不过这个过程可能对硬件资源消耗较大，会耗费一些时间。

六、最后的警告和建议

注意事项：正确认识 AI 的局限性

尽管 Nano-Banana Pro 在文本标注和结构化布局方面表现突出，能够显著提升绘图效率，将原本需要数小时的绘图过程压缩至数分钟，但必须强调：AI 是辅助工具，而不是科研绘图的最终决策者。在绘图工作中，模型可能存在理解偏差与“幻觉”风险，因此人工审核仍然是不可或缺的环节。节省下来的时间应投入到对图表内容的严谨校对之中，而非进一步降低对内容准确性的要求。

使用过程中需要重点警惕以下问题：

1. “视觉合理性”与“科学真实性”的冲突

Nano-Banana Pro 在生成图形时，可能会优先优化视觉平衡或美观性，而牺牲科学逻辑的准确性。这类偏差常见于以下场景：

细节偏差：在机制图或生物通路图中，模型可能将抑制箭头画反、将激活关系误画成抑制关系，或过度简化复杂调控结构。
逻辑重组：为了版面美观，模型可能“自动优化”流程顺序，将实验步骤重新排序，从而与实际流程不一致。

这些错误往往隐藏于图形细节中，不易被立即发现，因此需要你在审核阶段保持高度警惕。

2. 文本标注错位与语义混淆

尽管模型具备较强的语言与生成能力，但在信息密度较高的图表中，仍可能出现：

为不存在的元素添加额外说明；
将属于模块 A 的标签错误放置到模块 B；
文本内容与视觉区域不对应。

科研插图对逻辑一致性要求极高，因此每条箭头、每个模块、每个注释都必须进行逐项核查，避免产生误导性表达。

3. “过度艺术化”及领域适配问题

模型有时会为提升美观度而加入渐变、阴影、光泽等视觉效果，或采用不符合学术规范的配色方案。这在计算机领域通常只是风格不统一的问题，但在生物医学等对颜色语义有严格要求的领域（例如：上调＝红色，下调＝蓝色），可能导致实质性的科学误解。

需要根据领域规范手动统一风格。
此外，本文提供的 Prompt 主要面向工程与计算机视觉类研究；对于生物、化学或社会科学等其他学科，建议上传领域经典图示作为参考以确保风格一致性。

4. 数据真实性与学术伦理

必须强调：
本教程介绍的 AI 绘图流程仅适用于 概念结构图、流程图、系统架构图等不涉及真实数据的示意图。

严禁使用 AI 绘制或修改任何与实验数据相关的统计图，例如：

柱状图
折线图
散点图
热力图

原因在于模型无法理解数据的物理意义，其生成的数值仅基于概率猜测。使用 AI 生成数据型图表不仅会导致科学错误，更可能构成 数据造假与严重学术不端行为。

总结：工具是助力，而非替代

Nano-Banana Pro 的价值在于帮助你“高效画出图”，节约部分绘图思考时间，而不是“判断图是否正确”。
真正的科学准确性仍需你逐层审核、反复确认。
只有保持严谨态度并主动识别潜在错误，AI 才能成为科研中的强大生产力工具，而非学术隐患的源头。

针对禁止 AI 图像的期刊的应对策略

若投稿期刊明确禁止使用 AI 生成的图像，可采用如下合规策略，使 AI 作为“草图生成器”而非最终图像来源：

使用 Nano-Banana Pro 生成高质量草图；
将图导入 Figma 或 Adobe Illustrator；
将透明度调低，将其作为底图；
依据草图 手工重绘线条、图形与布局；
图标可使用 iconfont 等开源矢量图标库替换；
所有数据型图表必须使用 Python（matplotlib、seaborn 等）重新绘制。
参照草图在visio等绘图软件重新绘制。

此方法能够：

保留 AI 在布局设计与逻辑构建上的优势
避免版权与伦理风险
满足严格期刊的审稿要求

参考资料：

[再也不担心论文！Nano-Banana Pro 论文绘图最全教程发布 - 微信文章](https://tenten.co/learning/nano-banana-pro-tutorials/)

[Nano-Banana Pro 完整指南：10 個製作實戰技巧](https://tenten.co/learning/nano-banana-pro-tutorials/)

[Gemini 3 Pro 影像模型发布：Nano Banana Pro 功能详解与应用教程 | Gemini 中文版](https://www.gemini-cn.com/blog/gemini-3-pro-image-model-nano-banana.html)

[实用指南！用Nano Banana Pro制作论文插图，附Prompt (aje.cn)](https://www.aje.cn/arc/graphic-design-for-academic-papers)

[Nano Banana 一键去水印 - 小红书](https://www.xiaohongshu.com/explore/68e88a590000000004007f5d?note_flow_source=wechat&xsec_token=CB8qUC0evJew9kTHL04pjUgbGo6X1AR-ep0u87BR_rE_I=)

[1分钟将图片转为矢量图，元素随意拖动！ - 小红书](https://www.xiaohongshu.com/explore/693041cc000000001e033691?note_flow_source=wechat&xsec_token=CBxCBtmFky6B_YwXXIHbnvgSlb9RS24-rPJCpm0Hm3MYc=)

[顶刊高质量论文插图配色（含RGB值及16进制HEX码） - 知乎](https://zhuanlan.zhihu.com/p/670396774)

科研工具, 学习

科研绘图图表绘制人工智能大语言模型（LLM）

许可协议: CC BY 4.0