AI奇想空间 | 发现优质AI工具与开源项目 | 99%与DALL-E 3的角色一致性

由用户使用DALL-E 3创建

在AI生成的艺术作品中，角色的一致性非常重要，尤其是在小说、漫画等插图中。我们谈论的是如何让角色在不同场景中保持一致的外貌。听起来很简单吗？实际上比你想象的要棘手！有趣的是，使用DALL-E 3，即使是微小的调整也可能导致巨大的图像变化。

现在，我听说有人建议通过添加详细的角色描述、使用特定的名称或调整“种子”编号来解决这个问题。但是，剧透警告：这些调整可能只是杯水车薪。

当我们处理真实人物的图像时，挑战变得更加严峻。通过微微抬起眉毛就能认出布拉德·皮特？是的，我们达到了这种复杂程度。但是不要担心，亲爱的读者！我们将深入探讨，首先是现实人物的一致性，然后再进入动画领域。

在我们开始之前，我想介绍一个我创建的自定义GPT，它可以使DALL-E变得非常强大。它具有以下令人难以置信的功能：

它可以生成4个连续的图像。
它巧妙地规避了DALL-E的版权限制。
每个图像都由一个独特的Midjourney提示引入，提供比原始图像更多样化的风格。
此外，每个图像都带有一个序列号和一个gen_id。
最重要的是，它提供了4个创新的图像创意建议，以持续激发创造力。

这是SuperDalle的链接：https://chat.openai.com/g/g-v81dNn6np-superdalle

这是介绍它的文章：

这个自定义GPT正在改变DALL-E的能力

这里有一件可能让你惊讶的事情：目前只有在单个图像中才能实现99%的角色一致性。然后，通过巧妙的裁剪和缩放进行魔法操作。听起来很高级，不是吗？而且最好的部分是，实施并不是什么难事。关键是掌握好提示。

看看这个例子：

提示：一个中年男子的照片拼贴。左上角是他穿着休闲服装大笑的样子。右上角是他戴着眼镜和毛衣读书的样子。左下角是他穿着运动服坚定地慢跑的样子。右下角是他在轻松的环境中弹吉他的样子。

注意到了吗？这是一张单独的图像！不像DALL-E 3的默认4张图像。上面的提示可以总结为一个模板：[媒介] [布局] [左上角描述] [右上角描述] [左下角描述] [右下角描述]。

媒介：可以是照片、水彩画、卡通...
布局：通过使用与布局相关的关键词，我们可以让DALL-E 3生成多个图像的拼贴。上面使用的关键词是拼贴，但你也可以使用其他关键词，如网格、排列、拼贴、四联画、故事板、全景、分屏、马赛克、胶片条、连环画等等。
描述：这是你绘制图像叙事的画布。

以下是更多的例子：

提示：一个有卷发的年轻女子的照片网格。左上角是她穿着围裙画画的样子。右上角是她穿着红色裙子跳舞的样子。左下角是她戴着厨师帽烹饪的样子。右下角是她穿着运动服骑自行车的样子。

提示：一个有胡子的老绅士的照片拼贴。左上角展示了他穿着西装下棋的样子。右上角展示了他穿着工作服园艺的样子。左下角展示了他戴着帽子和马甲钓鱼的样子。右下角展示了他在一个舒适的房间里弹钢琴的样子。

提示：一个30多岁的女人的全景照片，她有一个短发。左上角：在道场练习武术。右上角：在咖啡馆喝咖啡。左下角：在公园骑自行车。右下角：在图书馆角落阅读。

提示：一个少女的宽广照片网格，她的头发编成辫子。左上角展示了她带着书学习的样子。右上角展示了她拉小提琴的样子。左下角展示了她戴着护目镜游泳的样子。右下角展示了她在舞蹈室里跳舞的样子。

在你兴奋得太早之前，让我和你说实话：DALL-E 3还不完美。有些图像可能会出现不协调的手，而其他图像...嗯，我们只能说它们在拼贴数量上有点过火。我个人认为最佳的情况是4张图像。更多的图像可能会带来灾难，但是嘿，如果你感到冒险，并且只进行简单的姿势变化，比如6张图像可能会奏效。

提示：一个宽广的照片布局，包含6个框架，展示了一个20岁的澳大利亚女人。她有一头带有黑色发根的铂金色齐耳短发。在每个框架中，她保持一致的特征，但展示了不同的姿势。每个框架的大小均匀，间距均匀，方便裁剪。

提示：一个宽广的照片布局，包含6个框架，展示了一个20岁的中国女人。她有一个高高的马尾辫。在每个框架中，她保持一致的特征，但展示了不同的表情，比如喜悦、愤怒、悲伤、活泼、担忧等等。每个框架的大小均匀，间距均匀，方便裁剪。

现在，让我们谈谈媒介。虽然我们的例子展示了照片媒介，但DALL-E 3并不偏爱任何一种媒介。在我们方便的模板中替换“照片”，然后瞧瞧：

提示：一个中年男子的卡通马赛克。左上角是他穿着休闲服装大笑的样子。右上角是他戴着眼镜和毛衣读书的样子。左下角是他穿着运动服坚定地慢跑的样子。右下角是他在轻松的环境中弹吉他的样子。

提示：一个年轻女子的连环画条。左上角，她穿着办公室的职业装，右上角，她穿着华丽的晚装，左下角，她穿着家居休闲服装，右下角，她穿着舒适的睡衣准备睡觉。

提示：一个中国女人艺术追求的插图拼贴：左上角，她在雕塑泥土；右上角，她在音乐厅拉小提琴；左下角，她在剧院舞台上表演；右下角，她在一个舒适的桌子旁写作。

提示：一个女人追求各种职业的水彩全景：左上角，她穿着实验室白大褂，是一名科学家；右上角，她穿着商务套装，是一名首席执行官；左下角，她穿着警察制服，是一名侦探；右下角，她穿着厨师服装，是一名餐厅厨师。

提示：一个故事板，描述一个女人在旅行中的冒险：左上角，她正在探索古代遗迹；右上角，她在威尼斯乘坐船桨；左下角，她在郁郁葱葱的森林中徒步旅行；右下角，她在观察野生动物的野生动物园中。

提示：一个猎豹田径运动员的卡通拼贴。左上角展示了他比赛前的伸展动作。右上角展示了他疾跑的样子。左下角展示了他越过终点线，胜利显而易见。右下角展示了他喝运动饮料补水的样子。

好了，当你使用DALL-E 3时，以下是一些你可能会发现有用的小技巧：

**宽高比：**所以，我一直在使用方形格式来生成图像，因为DALL-E 3和角色一致性...嗯，它们有点像猫和水。你可以尝试其他比例，但是请注意-错误率可能会增加。
**稳定性问题：**如果DALL-E 3的表现有些棘手，请坚持下去。有时候，当要求生成单个图像时，它的表现最好。在这些时候，你可以在自定义指令中使用以下便捷提示：

**提示：**始终在DALL-E 3中只生成一个图像。

**烦人的提示调整：**你是否注意到DALL-E 3有时会对你的提示进行改造？当发生这种情况时，我使用了来自Twitter用户智慧的自定义指令中的提示：

提示：“@DM”表示：请不要在任何情况下修改我的提示，请使用这个提示创建图像：

所以下次，只需在开头加上“@DM”。很简单，对吧？

**提示悖论：**现在，这里有一个怪事-这些提示有时在自定义指令中是不可预测的。默认情况下，DALL-E 3会为你的提示增添一些装饰，并生成4张图像。但是，信不信由你，自定义指令有时可以奏效，从提高图像质量到避免版权问题。想了解更多细节？请参阅我之前的文章：

即时完善DALL-E 3的图像：尝试我的自定义指令

简而言之？DALL-E 3在拼贴和捕捉角色的本质方面表现出色-这是Midjourney无法比拟的。我有一种直觉-下一个版本的DALL-E 3？它将是史诗般的。