avatar

MarkGu 的博客

Stay Hungry, Stay Foolish

  • 首页
  • 分类
  • 标签
  • 友链
  • 我的足迹
  • 关于我(About Me)
主页 Nano-Banana Pro 论文绘图教程
文章

Nano-Banana Pro 论文绘图教程

发表于 最近 更新于 最近
作者 Mark Gu
51~66 分钟 阅读

一、引言

Nano-Banana Pro 是一款极其强大的 AI 绘图模型,特别适合生成科研论文中常见的 系统架构图、流程图、概念示意图 等。
结合 LLM 的逻辑推理能力,本教程提供了一套标准化的工作流,将绘图拆分为三个阶段:

  1. 逻辑构建(The Architect)

  2. 视觉渲染(The Renderer)

  3. 交互式微调(The Editor)

按照此流程操作,可生成接近高水准的学术图。

二、总流程概览

绘图流程 = 思考(LLM) + 绘制(Nano Banana)+ 微调(自然语言编辑)

步骤一(The Architect):让大模型生成结构蓝图(VISUAL SCHEMA)

步骤二(The Renderer):让 Nano-Banana Pro 根据蓝图绘图

步骤三(The Editor):你通过自然语言对图像微调 & 修补

目标:
生成足够专业、且可通过后期处理符合期刊要求的架构图/示意图。

Example1:

nano_banana_figure_1.png

Attention is All You Need

Example2:

nano_banana_figure_2.png

Tree-KG: An expandable knowledge graph construction framework for knowledge-intensive domains

三、具体实现

步骤一:逻辑构建(The Architect)

目标是利用逻辑推理能力出色的 LLM(如 Gemini 3 Pro、GPT-5、Claude 4.5),将论文内容转化为结构化、可视化的 [VISUAL SCHEMA]。这是整个流程最关键的一步,因为它决定了最终图形的逻辑严谨性与布局质量。

操作指南:为了生成可用于绘图模型的“强约束”视觉描述,请使用以下 Prompt,将你的论文摘要或方法内容附在最后。

核心思想是:必须把抽象算法转换为绘图模型能直接理解的物理化、几何化描述。

Prompt 1(逻辑构建)

# Role
你是一位 CVPR/NeurIPS 顶刊的**视觉架构师**。你的核心能力是将抽象的论文逻辑转化为**具体的、结构化的、几何级的视觉指令**。

# Objective
阅读我提供的论文内容,输出一份 **[VISUAL SCHEMA]**。这份 Schema 将被直接发送给 AI 绘图模型,因此必须使用**强硬的物理描述**。

# Phase 1: Layout Strategy Selector (关键步骤:布局决策)
在生成 Schema 之前,请先分析论文逻辑,从以下**布局原型**中选择最合适的一个(或组合):
1.  **Linear Pipeline**: 左→右流向 (适合 Data Processing, Encoding-Decoding)。
2.  **Cyclic/Iterative**: 中心包含循环箭头 (适合 Optimization, RL, Feedback Loops)。
3.  **Hierarchical Stack**: 上→下或下→上堆叠 (适合 Multiscale features, Tree structures)。
4.  **Parallel/Dual-Stream**: 上下平行的双流结构 (适合 Multi-modal fusion, Contrastive Learning)。
5.  **Central Hub**: 一个核心模块连接四周组件 (适合 Agent-Environment, Knowledge Graphs)。

# Phase 2: Schema Generation Rules
1.  **Dynamic Zoning**: 根据选择的布局,定义 2-5 个物理区域 (Zones)。不要局限于 3 个。
2.  **Internal Visualization**: 必须定义每个区域内部的“物体” (Icons, Grids, Trees),禁止使用抽象概念。
3.  **Explicit Connections**: 如果是循环过程,必须明确描述 "Curved arrow looping back from Zone X to Zone Y"。

# Output Format (The Golden Schema)
请严格遵守以下 Markdown 结构输出:

---BEGIN PROMPT---

[Style & Meta-Instructions]
High-fidelity scientific schematic, technical vector illustration, clean white background, distinct boundaries, academic textbook style. High resolution 4k, strictly 2D flat design with subtle isometric elements.

[LAYOUT CONFIGURATION]
* **Selected Layout**: [例如:Cyclic Iterative Process with 3 Nodes]
* **Composition Logic**: [例如:A central triangular feedback loop surrounded by input/output panels]
* **Color Palette**: Professional Pastel (Azure Blue, Slate Grey, Coral Orange, Mint Green).

[ZONE 1: LOCATION - LABEL]
* **Container**: [形状描述, e.g., Top-Left Panel]
* **Visual Structure**: [具体描述, e.g., A stack of documents]
* **Key Text Labels**: "[Text 1]"

[ZONE 2: LOCATION - LABEL]
* **Container**: [形状描述, e.g., Central Circular Engine]
* **Visual Structure**: [具体描述, e.g., A clockwise loop connecting 3 internal modules: A (Gear), B (Graph), C (Filter)]
* **Key Text Labels**: "[Text 2]", "[Text 3]"

[ZONE 3: LOCATION - LABEL]
... (Add Zone 4/5 if necessary based on layout)

[CONNECTIONS]
1.  [描述连接线, e.g., A curved dotted arrow looping from Zone 2 back to Zone 1 labeled "Feedback"]
2.  [描述连接线, e.g., A wide flow arrow from Zone 2 to Zone 3]

---END PROMPT---

# Input Data
[在此处粘贴你的论文内容]

步骤二:绘图渲染(The Renderer)

目标是利用 Nano-Banana Pro 优秀的指令遵循能力,将步骤一生成的 VISUAL SCHEMA 精准渲染为图像。

操作指南:请复制以下模板,并将步骤一的 Schema(从 --- BEGIN PROMPT --- 到 --- END PROMPT ---)直接粘贴进指定位置,无需修改。

Prompt 2(绘图渲染)

**Style Reference & Execution Instructions:**

1.  **Art Style (Visio/Illustrator Aesthetic):**
    Generate a **professional academic architecture diagram** suitable for a top-tier computer science paper (CVPR/NeurIPS).
    * **Visuals:** Flat vector graphics, distinct geometric shapes, clean thin outlines, and soft pastel fills (Azure Blue, Slate Grey, Coral Orange).
    * **Layout:** Strictly follow the spatial arrangement defined below.
    * **Vibe:** Technical, precise, clean white background. NOT hand-drawn, NOT photorealistic, NOT 3D render, NO shadows/shading.

2.  **CRITICAL TEXT CONSTRAINTS (Read Carefully):**
    * **DO NOT render meta-labels:** Do not write words like "ZONE 1", "LAYOUT CONFIGURATION", "Input", "Output", or "Container" inside the image. These are structural instructions for YOU, not text for the image.
    * **ONLY render "Key Text Labels":** Only text inside double quotes (e.g., "[Text]") listed under "Key Text Labels" should appear in the diagram.
    * **Font:** Use a clean, bold Sans-Serif font (like Roboto or Helvetica) for all labels.

3.  **Visual Schema Execution:**
    Translate the following structural blueprint into the final image:

[在此处直接粘贴 Step 1 生成的 ---BEGIN PROMPT--- ... ---END PROMPT--- 内容(包含方括号内的英文)]

步骤三:交互式微调与迭代(The Editor)

当你拿到第二步的结果之后,因为Nano-Banana Pro 的图像编辑能力成熟稳定,因此在得到初稿后不应急于完全重绘,而是优先通过自然语言进行微调。常见调整包括:

  • 更换图标(例如“齿轮换成神经网络结构”)

  • 调整颜色(例如“箭头改为深灰色”)

  • 统一风格(例如“所有线条变细”)

  • 修正文案或移除文字

  • 使用选区编辑进行局部修补

若整体布局错误(例如循环结构被画成线性结构),应回到步骤一重新生成更清晰的 VISUAL SCHEMA,而不是修补图像。

这一步的核心理念是利用 Nano-Banana Pro 卓越的自然语言编辑能力进行“微调”。Nano-Banana Pro的图编辑已经很强了,所以如果你对这个图能达到80分的满意,就不要轻易点击重新生成。

💡关于抽卡(重新生成)的有效性

通过测试发现,抽卡对整体的布局和风格改动不会特别大,不过可能会对某些线条的路径、某些元素的颜色、图形的细节有些改变。

你可以抽卡选择你最喜欢的一张;或者如果你本身有明确的配色方案的话,可以直接用自然语言去对这张原图进行修改。

你可以对比下面两张相同提示词生成的结果,其实差别并不是特别显著。因此更多情况下,对于大幅度的调整可以去优化步骤一的提示词;小幅度调整直接自然语言去命令修改即可。

nano_banana_figure_3.png

情况 A:整体布局满意,但细节或风格有瑕疵

此时应采取“自然语言编辑”策略。你可以直接在对话框中输入修改指令,或者利用界面上的“选中区域编辑”功能。模型会在保持画面主体结构不变的前提下,精准修改你指定的元素。例如:

  • 修改图标:你可以说 "Change the 'Gear' icon in the center to a 'Neural Network' icon"(把中间的齿轮换成神经网络图标),或者 "Replace the robot head with a simple document symbol"(把机器人头换成文档符号)。

  • 调整颜色:例如 "Make the background of the left panel pure white instead of light blue"(把左边面板的背景改成纯白),或 "Change the orange arrows to dark grey"(把橙色箭头改成深灰色)。

  • 风格统一:如果线条太粗,可以说 "Make all lines thinner and cleaner";如果阴影干扰了视觉,可以说 "Remove the shading effect, make it completely flat 2D"。

  • 文字修正:如果出现拼写错误,可以说 "Correct the text 'ZONNE' to 'ZONE'"。当然,如果文字错误太严重,最稳妥的办法是直接让 AI 去掉文字 ("Remove the text labels"),后期自己在 PPT 中添加。

情况 B:整体布局错误 (Layout Failure)

如果你发现本该是循环结构的画成了直线,或者核心逻辑关系完全搞反了,这时候不要试图通过修补来挽救。这通常意味着步骤一生成的 [VISUAL SCHEMA] 本身描述不够清晰。

正确的做法是回到步骤一。检查并修改 Step 1 的 Prompt,确认是否选错了 [LAYOUT CONFIGURATION],或者 Internal Visualization 的描述不够具体。你可以直接和LLM对话,要求它按照你的要求修改 [VISUAL SCHEMA] 重新生成蓝图后,再次运行步骤二,往往能解决根本问题。

四、进阶:从“可用”到“完美”

为了进一步提升出图质量,我们可以结合人工介入和一些工具技巧:

1. 人工介入微调(Human-in-the-loop)

Step 1 生成的 [VISUAL SCHEMA] 本质上是可完全编辑的文本蓝图,因此无需通过不断“抽卡”来尝试不同结果。

通常直接修改 Schema 会更加高效。例如,如果不希望某个图标出现在最终图中,只需将 Schema 中的 Top Visual: A robot 修改为 Top Visual: A brain icon 即可;如果觉得配色过于花哨,也可以直接在 Color Palette 中删除不需要的颜色。
通过对 Schema 进行人工干预,你可以精确控制图像的结构形式与视觉风格。

2. 提供参考图像的重要性

纯文字描述终究有限,再精准的 Prompt 也难以完整传达你脑海中的空间布局或视觉张力。因此,有必要引入更直观的约束方式——使用参考图像。

  • 建议在平时阅读顶刊论文时,有意识地建立一个个人的“科研审美库”,收集布局优秀、配色专业的示意图。在实际绘图任务中,只需将目标风格图(甚至手绘草稿)上传给模型,并删除步骤二中的通用 Art Style 描述,然后明确提示:
    “生成的图像在风格、布局和配色上应严格参考我上传的图片。”
    这样可强制模型从“文生图”模式切换为更稳定的“图生图”模式,从根本上避免布局走形。

3. 参数化控色的重要性

单纯让 AI 使用诸如 “Light Blue” 或 “Red” 等模糊颜色描述通常会导致画面呈现廉价的塑料质感。为了达到专业级视觉效果,需要采用 参数化控色。

  • 可以从你的审美库中使用取色工具提取精确的 HEX 色值(例如 #E1F5FE),并在 Prompt 中直接指定。同时建议准备一套经过学术界长期验证的配色方案,可参考一些顶刊示意图的 RGB/HEX 配色整理资源。
    一旦使用精确的 RGB/HEX 参数,AI 生成的图像整体质感会显著提升,更接近 Nature / Science 级别的视觉水准。

4、如何避免生成的图像附带右下角水印

解决办法1:

使用PS的自动填充功能,去除并且填充水印位置(适用于水印部分比较简单或者大片空白的地方)

解决办法2:

在步骤二的提示词末尾加上一句:在图片底部插入一行占位文本,这行文本内容所在位置应该刚好能包含 Gemini 的水印。拿到图后,直接把底部包含文本和水印的区域裁剪掉即可。

nano_banana_figure_4.png

五、后期处理

请将 AI 生成的图视为 90% 的完成品。为了达到出版要求,建议使用 Photoshop 或 Adobe illustrator(AI)进行最后的修整。比如,AI 生成的文字可能会有拼写错误或字体不统一的问题,最好的办法是用修图软件抹掉这些文字,然后换成符合论文格式(如 Times New Roman)的矢量文字。如果是超长流程图,可以分段生成(Zone 1+2 一次,Zone 3 一次),最后在 PPT 里拼接起来。

有相关的使用者指出 Illustrator的“图像描摹”功能可以将 Nano banana Pro 生成的PNG图转为矢量图,具体参数和步骤如下:

nano_banana_figure_5.png

但是存在的问题:

可能会出现效果并不是特别完美,精度有些低。可能这个参数更适用于生物学等领域的 biorender 风格。如果确实有将 PNG 矢量化的需求,可以去测试颜色、路径、边角、杂色这几个参数的取值,提高精度。不过这个过程可能对硬件资源消耗较大,会耗费一些时间。

六、最后的警告和建议

注意事项:正确认识 AI 的局限性

尽管 Nano-Banana Pro 在文本标注和结构化布局方面表现突出,能够显著提升绘图效率,将原本需要数小时的绘图过程压缩至数分钟,但必须强调:AI 是辅助工具,而不是科研绘图的最终决策者。在绘图工作中,模型可能存在理解偏差与“幻觉”风险,因此人工审核仍然是不可或缺的环节。节省下来的时间应投入到对图表内容的严谨校对之中,而非进一步降低对内容准确性的要求。

使用过程中需要重点警惕以下问题:


1. “视觉合理性”与“科学真实性”的冲突

Nano-Banana Pro 在生成图形时,可能会优先优化视觉平衡或美观性,而牺牲科学逻辑的准确性。这类偏差常见于以下场景:

  • 细节偏差:在机制图或生物通路图中,模型可能将抑制箭头画反、将激活关系误画成抑制关系,或过度简化复杂调控结构。

  • 逻辑重组:为了版面美观,模型可能“自动优化”流程顺序,将实验步骤重新排序,从而与实际流程不一致。

这些错误往往隐藏于图形细节中,不易被立即发现,因此需要你在审核阶段保持高度警惕。


2. 文本标注错位与语义混淆

尽管模型具备较强的语言与生成能力,但在信息密度较高的图表中,仍可能出现:

  • 为不存在的元素添加额外说明;

  • 将属于模块 A 的标签错误放置到模块 B;

  • 文本内容与视觉区域不对应。

科研插图对逻辑一致性要求极高,因此每条箭头、每个模块、每个注释都必须进行逐项核查,避免产生误导性表达。


3. “过度艺术化”及领域适配问题

模型有时会为提升美观度而加入渐变、阴影、光泽等视觉效果,或采用不符合学术规范的配色方案。这在计算机领域通常只是风格不统一的问题,但在生物医学等对颜色语义有严格要求的领域(例如:上调=红色,下调=蓝色),可能导致实质性的科学误解。

需要根据领域规范手动统一风格。
此外,本文提供的 Prompt 主要面向工程与计算机视觉类研究;对于生物、化学或社会科学等其他学科,建议上传领域经典图示作为参考以确保风格一致性。


4. 数据真实性与学术伦理

必须强调:
本教程介绍的 AI 绘图流程仅适用于 概念结构图、流程图、系统架构图等不涉及真实数据的示意图。

严禁 使用 AI 绘制或修改任何与实验数据相关的统计图,例如:

  • 柱状图

  • 折线图

  • 散点图

  • 热力图

原因在于模型无法理解数据的物理意义,其生成的数值仅基于概率猜测。使用 AI 生成数据型图表不仅会导致科学错误,更可能构成 数据造假与严重学术不端行为。


总结:工具是助力,而非替代

Nano-Banana Pro 的价值在于帮助你“高效画出图”,节约部分绘图思考时间,而不是“判断图是否正确”。
真正的科学准确性仍需你逐层审核、反复确认。
只有保持严谨态度并主动识别潜在错误,AI 才能成为科研中的强大生产力工具,而非学术隐患的源头。


针对禁止 AI 图像的期刊的应对策略

若投稿期刊明确禁止使用 AI 生成的图像,可采用如下合规策略,使 AI 作为“草图生成器”而非最终图像来源:

  1. 使用 Nano-Banana Pro 生成高质量草图;

  2. 将图导入 Figma 或 Adobe Illustrator;

  3. 将透明度调低,将其作为底图;

  4. 依据草图 手工重绘线条、图形与布局;

  5. 图标可使用 iconfont 等开源矢量图标库替换;

  6. 所有数据型图表必须使用 Python(matplotlib、seaborn 等)重新绘制。

  7. 参照草图在visio等绘图软件重新绘制。

此方法能够:

  • 保留 AI 在布局设计与逻辑构建上的优势

  • 避免版权与伦理风险

  • 满足严格期刊的审稿要求

参考资料:

[再也不担心论文!Nano-Banana Pro 论文绘图最全教程发布 - 微信文章](https://tenten.co/learning/nano-banana-pro-tutorials/)

[Nano-Banana Pro 完整指南:10 個製作實戰技巧](https://tenten.co/learning/nano-banana-pro-tutorials/)

[Gemini 3 Pro 影像模型发布:Nano Banana Pro 功能详解与应用教程 | Gemini 中文版](https://www.gemini-cn.com/blog/gemini-3-pro-image-model-nano-banana.html)

[实用指南!用Nano Banana Pro制作论文插图,附Prompt (aje.cn)](https://www.aje.cn/arc/graphic-design-for-academic-papers)

[Nano Banana 一键去水印 - 小红书](https://www.xiaohongshu.com/explore/68e88a590000000004007f5d?note_flow_source=wechat&xsec_token=CB8qUC0evJew9kTHL04pjUgbGo6X1AR-ep0u87BR_rE_I=)

[1分钟将图片转为矢量图,元素随意拖动! - 小红书](https://www.xiaohongshu.com/explore/693041cc000000001e033691?note_flow_source=wechat&xsec_token=CBxCBtmFky6B_YwXXIHbnvgSlb9RS24-rPJCpm0Hm3MYc=)

[顶刊高质量论文插图配色(含RGB值及16进制HEX码) - 知乎](https://zhuanlan.zhihu.com/p/670396774)

科研工具, 学习
科研绘图 图表绘制 人工智能 大语言模型(LLM)
许可协议:  CC BY 4.0
分享

相关文章

12月 16, 2025

Nano-Banana Pro 论文绘图教程

Nano-Banana Pro是一款AI绘图模型,适用于生成科研论文中的系统架构图、流程图和概念示意图。本教程提供了一套标准化工作流,包括逻辑构建、视觉渲染和交互式微调三个阶段,以生成接近高水准的学术图。逻辑构建阶段利用LLM的逻辑推理能力将论文内容转化为结构化、可视化的VISUAL SCHEMA;视觉渲染阶段使用Nano-Banana Pro根据蓝图绘图;交互式微调阶段通过自然语言对图像进行微调和修补。目标是生成足够专业、且可通过后期处理符合期刊要求的架构图/示意图。此外,还提供了从“可用”到“完美”的进阶技巧,包括人工介入微调、提供参考图像的重要性、参数化控色的重要性以及如何避免生成的图像附带右下角水印。最后,强调了AI绘图的局限性和正确认识AI的局限性,以及针对禁止AI图像的期刊的应对策略。

下一篇

我的第一个博客:反正都点进来了,不如看看?

上一篇

最近更新

  • Nano-Banana Pro 论文绘图教程
  • 我的第一个博客:反正都点进来了,不如看看?

热门标签

文献管理 数据预处理 Python 写作技巧 Jupyter 参数调优 踩坑记录 知识记录 Java 机器学习

目录

©2025 MarkGu 的博客. 保留部分权利。

使用 Halo 主题 Chirpy