文生图模型写字的简易解决方案

众所周知,让文生图模型写字(尤其是汉字)很困难。

原因也很简单:模型并没有使用大量带有文字的图片训练,不善于将自然语言转换为图片。1后期修改难度太高,还容易破坏一致性。

前两天我灵光乍现,想出一个极度简单的解决方案:把需要写的字做成参考图

举个例子

使用 Google 闪闪发光的 Nano Banana 模型。

  • 没有参考图,提示词:

    a glass can with plastic lid, black paint inside, wrapping paper writing "高级颜料"
    

    不出意外 Gemini 开始自己造字。

  • 加上参考图:

    并且提示词修改为:

    a glass can with plastic lid, black paint inside, wrapping paper writing "高级颜料" (as in the reference image)
    

    这次明显好多了,四个字都是正常的。Gemini 参考了图片里的字体(和图片尺寸),加上 Nano Banana 的一大优势就是「像素级」一致性。

另外,即使希望生成花字,自己做不了字体,提供一张参考图也是有帮助的。比如上面这张图片,继续提供参考图,提示词改成:

a glass can with plastic lid, black paint inside, wrapping paper writing "高级颜料" (as in the reference image, but turn it into a calligraphy style)

这个方法对于一致性强的模型效果很不错。

延伸

用自然语言描述构图也是很困难的。如果有画图的设备(但没有技术),可以自己画一张简笔线稿,然后让模型按要求填补细节。效果应该比长篇大论的描述要好。

  1. 某些模型尝试解决这个问题,比如 Qwen-Image,最大的卖点就是复杂文字渲染。