Nano-Banana Pro 论文绘图教程
一、引言
Nano-Banana Pro 是一款极其强大的 AI 绘图模型,特别适合生成科研论文中常见的 系统架构图、流程图、概念示意图 等。
结合 LLM 的逻辑推理能力,本教程提供了一套标准化的工作流,将绘图拆分为三个阶段:
逻辑构建(The Architect)
视觉渲染(The Renderer)
交互式微调(The Editor)
按照此流程操作,可生成接近高水准的学术图。
二、总流程概览
绘图流程 = 思考(LLM) + 绘制(Nano Banana)+ 微调(自然语言编辑)
步骤一(The Architect):让大模型生成结构蓝图(VISUAL SCHEMA)
步骤二(The Renderer):让 Nano-Banana Pro 根据蓝图绘图
步骤三(The Editor):你通过自然语言对图像微调 & 修补
目标:
生成足够专业、且可通过后期处理符合期刊要求的架构图/示意图。
Example1:

Attention is All You Need
Example2:

Tree-KG: An expandable knowledge graph construction framework for knowledge-intensive domains
三、具体实现
步骤一:逻辑构建(The Architect)
目标是利用逻辑推理能力出色的 LLM(如 Gemini 3 Pro、GPT-5、Claude 4.5),将论文内容转化为结构化、可视化的 [VISUAL SCHEMA]。这是整个流程最关键的一步,因为它决定了最终图形的逻辑严谨性与布局质量。
操作指南:为了生成可用于绘图模型的“强约束”视觉描述,请使用以下 Prompt,将你的论文摘要或方法内容附在最后。
核心思想是:必须把抽象算法转换为绘图模型能直接理解的物理化、几何化描述。
Prompt 1(逻辑构建)
# Role
你是一位 CVPR/NeurIPS 顶刊的**视觉架构师**。你的核心能力是将抽象的论文逻辑转化为**具体的、结构化的、几何级的视觉指令**。
# Objective
阅读我提供的论文内容,输出一份 **[VISUAL SCHEMA]**。这份 Schema 将被直接发送给 AI 绘图模型,因此必须使用**强硬的物理描述**。
# Phase 1: Layout Strategy Selector (关键步骤:布局决策)
在生成 Schema 之前,请先分析论文逻辑,从以下**布局原型**中选择最合适的一个(或组合):
1. **Linear Pipeline**: 左→右流向 (适合 Data Processing, Encoding-Decoding)。
2. **Cyclic/Iterative**: 中心包含循环箭头 (适合 Optimization, RL, Feedback Loops)。
3. **Hierarchical Stack**: 上→下或下→上堆叠 (适合 Multiscale features, Tree structures)。
4. **Parallel/Dual-Stream**: 上下平行的双流结构 (适合 Multi-modal fusion, Contrastive Learning)。
5. **Central Hub**: 一个核心模块连接四周组件 (适合 Agent-Environment, Knowledge Graphs)。
# Phase 2: Schema Generation Rules
1. **Dynamic Zoning**: 根据选择的布局,定义 2-5 个物理区域 (Zones)。不要局限于 3 个。
2. **Internal Visualization**: 必须定义每个区域内部的“物体” (Icons, Grids, Trees),禁止使用抽象概念。
3. **Explicit Connections**: 如果是循环过程,必须明确描述 "Curved arrow looping back from Zone X to Zone Y"。
# Output Format (The Golden Schema)
请严格遵守以下 Markdown 结构输出:
---BEGIN PROMPT---
[Style & Meta-Instructions]
High-fidelity scientific schematic, technical vector illustration, clean white background, distinct boundaries, academic textbook style. High resolution 4k, strictly 2D flat design with subtle isometric elements.
[LAYOUT CONFIGURATION]
* **Selected Layout**: [例如:Cyclic Iterative Process with 3 Nodes]
* **Composition Logic**: [例如:A central triangular feedback loop surrounded by input/output panels]
* **Color Palette**: Professional Pastel (Azure Blue, Slate Grey, Coral Orange, Mint Green).
[ZONE 1: LOCATION - LABEL]
* **Container**: [形状描述, e.g., Top-Left Panel]
* **Visual Structure**: [具体描述, e.g., A stack of documents]
* **Key Text Labels**: "[Text 1]"
[ZONE 2: LOCATION - LABEL]
* **Container**: [形状描述, e.g., Central Circular Engine]
* **Visual Structure**: [具体描述, e.g., A clockwise loop connecting 3 internal modules: A (Gear), B (Graph), C (Filter)]
* **Key Text Labels**: "[Text 2]", "[Text 3]"
[ZONE 3: LOCATION - LABEL]
... (Add Zone 4/5 if necessary based on layout)
[CONNECTIONS]
1. [描述连接线, e.g., A curved dotted arrow looping from Zone 2 back to Zone 1 labeled "Feedback"]
2. [描述连接线, e.g., A wide flow arrow from Zone 2 to Zone 3]
---END PROMPT---
# Input Data
[在此处粘贴你的论文内容]步骤二:绘图渲染(The Renderer)
目标是利用 Nano-Banana Pro 优秀的指令遵循能力,将步骤一生成的 VISUAL SCHEMA 精准渲染为图像。
操作指南:请复制以下模板,并将步骤一的 Schema(从 --- BEGIN PROMPT --- 到 --- END PROMPT ---)直接粘贴进指定位置,无需修改。
Prompt 2(绘图渲染)
**Style Reference & Execution Instructions:**
1. **Art Style (Visio/Illustrator Aesthetic):**
Generate a **professional academic architecture diagram** suitable for a top-tier computer science paper (CVPR/NeurIPS).
* **Visuals:** Flat vector graphics, distinct geometric shapes, clean thin outlines, and soft pastel fills (Azure Blue, Slate Grey, Coral Orange).
* **Layout:** Strictly follow the spatial arrangement defined below.
* **Vibe:** Technical, precise, clean white background. NOT hand-drawn, NOT photorealistic, NOT 3D render, NO shadows/shading.
2. **CRITICAL TEXT CONSTRAINTS (Read Carefully):**
* **DO NOT render meta-labels:** Do not write words like "ZONE 1", "LAYOUT CONFIGURATION", "Input", "Output", or "Container" inside the image. These are structural instructions for YOU, not text for the image.
* **ONLY render "Key Text Labels":** Only text inside double quotes (e.g., "[Text]") listed under "Key Text Labels" should appear in the diagram.
* **Font:** Use a clean, bold Sans-Serif font (like Roboto or Helvetica) for all labels.
3. **Visual Schema Execution:**
Translate the following structural blueprint into the final image:
[在此处直接粘贴 Step 1 生成的 ---BEGIN PROMPT--- ... ---END PROMPT--- 内容(包含方括号内的英文)]步骤三:交互式微调与迭代(The Editor)
当你拿到第二步的结果之后,因为Nano-Banana Pro 的图像编辑能力成熟稳定,因此在得到初稿后不应急于完全重绘,而是优先通过自然语言进行微调。常见调整包括:
更换图标(例如“齿轮换成神经网络结构”)
调整颜色(例如“箭头改为深灰色”)
统一风格(例如“所有线条变细”)
修正文案或移除文字
使用选区编辑进行局部修补
若整体布局错误(例如循环结构被画成线性结构),应回到步骤一重新生成更清晰的 VISUAL SCHEMA,而不是修补图像。
这一步的核心理念是利用 Nano-Banana Pro 卓越的自然语言编辑能力进行“微调”。Nano-Banana Pro的图编辑已经很强了,所以如果你对这个图能达到80分的满意,就不要轻易点击重新生成。
💡关于抽卡(重新生成)的有效性
通过测试发现,抽卡对整体的布局和风格改动不会特别大,不过可能会对某些线条的路径、某些元素的颜色、图形的细节有些改变。
你可以抽卡选择你最喜欢的一张;或者如果你本身有明确的配色方案的话,可以直接用自然语言去对这张原图进行修改。
你可以对比下面两张相同提示词生成的结果,其实差别并不是特别显著。因此更多情况下,对于大幅度的调整可以去优化步骤一的提示词;小幅度调整直接自然语言去命令修改即可。
情况 A:整体布局满意,但细节或风格有瑕疵
此时应采取“自然语言编辑”策略。你可以直接在对话框中输入修改指令,或者利用界面上的“选中区域编辑”功能。模型会在保持画面主体结构不变的前提下,精准修改你指定的元素。例如:
修改图标:你可以说 "Change the 'Gear' icon in the center to a 'Neural Network' icon"(把中间的齿轮换成神经网络图标),或者 "Replace the robot head with a simple document symbol"(把机器人头换成文档符号)。
调整颜色:例如 "Make the background of the left panel pure white instead of light blue"(把左边面板的背景改成纯白),或 "Change the orange arrows to dark grey"(把橙色箭头改成深灰色)。
风格统一:如果线条太粗,可以说 "Make all lines thinner and cleaner";如果阴影干扰了视觉,可以说 "Remove the shading effect, make it completely flat 2D"。
文字修正:如果出现拼写错误,可以说 "Correct the text 'ZONNE' to 'ZONE'"。当然,如果文字错误太严重,最稳妥的办法是直接让 AI 去掉文字 ("Remove the text labels"),后期自己在 PPT 中添加。
情况 B:整体布局错误 (Layout Failure)
如果你发现本该是循环结构的画成了直线,或者核心逻辑关系完全搞反了,这时候不要试图通过修补来挽救。这通常意味着步骤一生成的 [VISUAL SCHEMA] 本身描述不够清晰。
正确的做法是回到步骤一。检查并修改 Step 1 的 Prompt,确认是否选错了 [LAYOUT CONFIGURATION],或者 Internal Visualization 的描述不够具体。你可以直接和LLM对话,要求它按照你的要求修改 [VISUAL SCHEMA] 重新生成蓝图后,再次运行步骤二,往往能解决根本问题。
四、进阶:从“可用”到“完美”
为了进一步提升出图质量,我们可以结合人工介入和一些工具技巧:
1. 人工介入微调(Human-in-the-loop)
Step 1 生成的 [VISUAL SCHEMA] 本质上是可完全编辑的文本蓝图,因此无需通过不断“抽卡”来尝试不同结果。
通常直接修改 Schema 会更加高效。例如,如果不希望某个图标出现在最终图中,只需将 Schema 中的 Top Visual: A robot 修改为 Top Visual: A brain icon 即可;如果觉得配色过于花哨,也可以直接在 Color Palette 中删除不需要的颜色。
通过对 Schema 进行人工干预,你可以精确控制图像的结构形式与视觉风格。
2. 提供参考图像的重要性
纯文字描述终究有限,再精准的 Prompt 也难以完整传达你脑海中的空间布局或视觉张力。因此,有必要引入更直观的约束方式——使用参考图像。
建议在平时阅读顶刊论文时,有意识地建立一个个人的“科研审美库”,收集布局优秀、配色专业的示意图。在实际绘图任务中,只需将目标风格图(甚至手绘草稿)上传给模型,并删除步骤二中的通用 Art Style 描述,然后明确提示:
“生成的图像在风格、布局和配色上应严格参考我上传的图片。”
这样可强制模型从“文生图”模式切换为更稳定的“图生图”模式,从根本上避免布局走形。
3. 参数化控色的重要性
单纯让 AI 使用诸如 “Light Blue” 或 “Red” 等模糊颜色描述通常会导致画面呈现廉价的塑料质感。为了达到专业级视觉效果,需要采用 参数化控色。
可以从你的审美库中使用取色工具提取精确的 HEX 色值(例如 #E1F5FE),并在 Prompt 中直接指定。同时建议准备一套经过学术界长期验证的配色方案,可参考一些顶刊示意图的 RGB/HEX 配色整理资源。
一旦使用精确的 RGB/HEX 参数,AI 生成的图像整体质感会显著提升,更接近 Nature / Science 级别的视觉水准。
4、如何避免生成的图像附带右下角水印
解决办法1:
使用PS的自动填充功能,去除并且填充水印位置(适用于水印部分比较简单或者大片空白的地方)
解决办法2:
在步骤二的提示词末尾加上一句:在图片底部插入一行占位文本,这行文本内容所在位置应该刚好能包含 Gemini 的水印。拿到图后,直接把底部包含文本和水印的区域裁剪掉即可。

五、后期处理
请将 AI 生成的图视为 90% 的完成品。为了达到出版要求,建议使用 Photoshop 或 Adobe illustrator(AI)进行最后的修整。比如,AI 生成的文字可能会有拼写错误或字体不统一的问题,最好的办法是用修图软件抹掉这些文字,然后换成符合论文格式(如 Times New Roman)的矢量文字。如果是超长流程图,可以分段生成(Zone 1+2 一次,Zone 3 一次),最后在 PPT 里拼接起来。
有相关的使用者指出 Illustrator的“图像描摹”功能可以将 Nano banana Pro 生成的PNG图转为矢量图,具体参数和步骤如下:

但是存在的问题:
可能会出现效果并不是特别完美,精度有些低。可能这个参数更适用于生物学等领域的 biorender 风格。如果确实有将 PNG 矢量化的需求,可以去测试
颜色、路径、边角、杂色这几个参数的取值,提高精度。不过这个过程可能对硬件资源消耗较大,会耗费一些时间。
六、最后的警告和建议
注意事项:正确认识 AI 的局限性
尽管 Nano-Banana Pro 在文本标注和结构化布局方面表现突出,能够显著提升绘图效率,将原本需要数小时的绘图过程压缩至数分钟,但必须强调:AI 是辅助工具,而不是科研绘图的最终决策者。在绘图工作中,模型可能存在理解偏差与“幻觉”风险,因此人工审核仍然是不可或缺的环节。节省下来的时间应投入到对图表内容的严谨校对之中,而非进一步降低对内容准确性的要求。
使用过程中需要重点警惕以下问题:
1. “视觉合理性”与“科学真实性”的冲突
Nano-Banana Pro 在生成图形时,可能会优先优化视觉平衡或美观性,而牺牲科学逻辑的准确性。这类偏差常见于以下场景:
细节偏差:在机制图或生物通路图中,模型可能将抑制箭头画反、将激活关系误画成抑制关系,或过度简化复杂调控结构。
逻辑重组:为了版面美观,模型可能“自动优化”流程顺序,将实验步骤重新排序,从而与实际流程不一致。
这些错误往往隐藏于图形细节中,不易被立即发现,因此需要你在审核阶段保持高度警惕。
2. 文本标注错位与语义混淆
尽管模型具备较强的语言与生成能力,但在信息密度较高的图表中,仍可能出现:
为不存在的元素添加额外说明;
将属于模块 A 的标签错误放置到模块 B;
文本内容与视觉区域不对应。
科研插图对逻辑一致性要求极高,因此每条箭头、每个模块、每个注释都必须进行逐项核查,避免产生误导性表达。
3. “过度艺术化”及领域适配问题
模型有时会为提升美观度而加入渐变、阴影、光泽等视觉效果,或采用不符合学术规范的配色方案。这在计算机领域通常只是风格不统一的问题,但在生物医学等对颜色语义有严格要求的领域(例如:上调=红色,下调=蓝色),可能导致实质性的科学误解。
需要根据领域规范手动统一风格。
此外,本文提供的 Prompt 主要面向工程与计算机视觉类研究;对于生物、化学或社会科学等其他学科,建议上传领域经典图示作为参考以确保风格一致性。
4. 数据真实性与学术伦理
必须强调:
本教程介绍的 AI 绘图流程仅适用于 概念结构图、流程图、系统架构图等不涉及真实数据的示意图。
严禁 使用 AI 绘制或修改任何与实验数据相关的统计图,例如:
柱状图
折线图
散点图
热力图
原因在于模型无法理解数据的物理意义,其生成的数值仅基于概率猜测。使用 AI 生成数据型图表不仅会导致科学错误,更可能构成 数据造假与严重学术不端行为。
总结:工具是助力,而非替代
Nano-Banana Pro 的价值在于帮助你“高效画出图”,节约部分绘图思考时间,而不是“判断图是否正确”。
真正的科学准确性仍需你逐层审核、反复确认。
只有保持严谨态度并主动识别潜在错误,AI 才能成为科研中的强大生产力工具,而非学术隐患的源头。
针对禁止 AI 图像的期刊的应对策略
若投稿期刊明确禁止使用 AI 生成的图像,可采用如下合规策略,使 AI 作为“草图生成器”而非最终图像来源:
使用 Nano-Banana Pro 生成高质量草图;
将图导入 Figma 或 Adobe Illustrator;
将透明度调低,将其作为底图;
依据草图 手工重绘线条、图形与布局;
图标可使用 iconfont 等开源矢量图标库替换;
所有数据型图表必须使用 Python(matplotlib、seaborn 等)重新绘制。
参照草图在visio等绘图软件重新绘制。
此方法能够:
保留 AI 在布局设计与逻辑构建上的优势
避免版权与伦理风险
满足严格期刊的审稿要求
参考资料:
[再也不担心论文!Nano-Banana Pro 论文绘图最全教程发布 - 微信文章](https://tenten.co/learning/nano-banana-pro-tutorials/)
[Nano-Banana Pro 完整指南:10 個製作實戰技巧](https://tenten.co/learning/nano-banana-pro-tutorials/)
[Gemini 3 Pro 影像模型发布:Nano Banana Pro 功能详解与应用教程 | Gemini 中文版](https://www.gemini-cn.com/blog/gemini-3-pro-image-model-nano-banana.html)
[实用指南!用Nano Banana Pro制作论文插图,附Prompt (aje.cn)](https://www.aje.cn/arc/graphic-design-for-academic-papers)
[Nano Banana 一键去水印 - 小红书](https://www.xiaohongshu.com/explore/68e88a590000000004007f5d?note_flow_source=wechat&xsec_token=CB8qUC0evJew9kTHL04pjUgbGo6X1AR-ep0u87BR_rE_I=)
[1分钟将图片转为矢量图,元素随意拖动! - 小红书](https://www.xiaohongshu.com/explore/693041cc000000001e033691?note_flow_source=wechat&xsec_token=CBxCBtmFky6B_YwXXIHbnvgSlb9RS24-rPJCpm0Hm3MYc=)
[顶刊高质量论文插图配色(含RGB值及16进制HEX码) - 知乎](https://zhuanlan.zhihu.com/p/670396774)
