在AI生成的艺术作品中,角色的一致性非常重要,尤其是在小说、漫画等插图中。我们谈论的是如何让角色在不同场景中保持一致的外貌。听起来很简单吗?实际上比你想象的要棘手!有趣的是,使用DALL-E 3,即使是微小的调整也可能导致巨大的图像变化。
现在,我听说有人建议通过添加详细的角色描述、使用特定的名称或调整“种子”编号来解决这个问题。但是,剧透警告:这些调整可能只是杯水车薪。
当我们处理真实人物的图像时,挑战变得更加严峻。通过微微抬起眉毛就能认出布拉德·皮特?是的,我们达到了这种复杂程度。但是不要担心,亲爱的读者!我们将深入探讨,首先是现实人物的一致性,然后再进入动画领域。
在我们开始之前,我想介绍一个我创建的自定义GPT,它可以使DALL-E变得非常强大。它具有以下令人难以置信的功能:
-
它可以生成4个连续的图像。
-
它巧妙地规避了DALL-E的版权限制。
-
每个图像都由一个独特的Midjourney提示引入,提供比原始图像更多样化的风格。
-
此外,每个图像都带有一个序列号和一个
gen_id
。 -
最重要的是,它提供了4个创新的图像创意建议,以持续激发创造力。
这是SuperDalle的链接:https://chat.openai.com/g/g-v81dNn6np-superdalle
这是介绍它的文章:
这里有一件可能让你惊讶的事情:目前只有在单个图像中才能实现99%的角色一致性。然后,通过巧妙的裁剪和缩放进行魔法操作。听起来很高级,不是吗?而且最好的部分是,实施并不是什么难事。关键是掌握好提示。
看看这个例子:
提示:一个中年男子的照片拼贴。左上角是他穿着休闲服装大笑的样子。右上角是他戴着眼镜和毛衣读书的样子。左下角是他穿着运动服坚定地慢跑的样子。右下角是他在轻松的环境中弹吉他的样子。
注意到了吗?这是一张单独的图像!不像DALL-E 3的默认4张图像。上面的提示可以总结为一个模板:[媒介] [布局] [左上角描述] [右上角描述] [左下角描述] [右下角描述]。
-
媒介:可以是照片、水彩画、卡通...
-
布局:通过使用与布局相关的关键词,我们可以让DALL-E 3生成多个图像的拼贴。上面使用的关键词是拼贴,但你也可以使用其他关键词,如网格、排列、拼贴、四联画、故事板、全景、分屏、马赛克、胶片条、连环画等等。
-
描述:这是你绘制图像叙事的画布。
以下是更多的例子:
提示:一个有卷发的年轻女子的照片网格。左上角是她穿着围裙画画的样子。右上角是她穿着红色裙子跳舞的样子。左下角是她戴着厨师帽烹饪的样子。右下角是她穿着运动服骑自行车的样子。
提示:一个有胡子的老绅士的照片拼贴。左上角展示了他穿着西装下棋的样子。右上角展示了他穿着工作服园艺的样子。左下角展示了他戴着帽子和马甲钓鱼的样子。右下角展示了他在一个舒适的房间里弹钢琴的样子。
提示:一个30多岁的女人的全景照片,她有一个短发。左上角:在道场练习武术。右上角:在咖啡馆喝咖啡。左下角:在公园骑自行车。右下角:在图书馆角落阅读。
提示:一个少女的宽广照片网格,她的头发编成辫子。左上角展示了她带着书学习的样子。右上角展示了她拉小提琴的样子。左下角展示了她戴着护目镜游泳的样子。右下角展示了她在舞蹈室里跳舞的样子。
在你兴奋得太早之前,让我和你说实话:DALL-E 3还不完美。有些图像可能会出现不协调的手,而其他图像...嗯,我们只能说它们在拼贴数量上有点过火。我个人认为最佳的情况是4张图像。更多的图像可能会带来灾难,但是嘿,如果你感到冒险,并且只进行简单的姿势变化,比如6张图像可能会奏效。
提示:一个宽广的照片布局,包含6个框架,展示了一个20岁的澳大利亚女人。她有一头带有黑色发根的铂金色齐耳短发。在每个框架中,她保持一致的特征,但展示了不同的姿势。每个框架的大小均匀,间距均匀,方便裁剪。
提示:一个宽广的照片布局,包含6个框架,展示了一个20岁的中国女人。她有一个高高的马尾辫。在每个框架中,她保持一致的特征,但展示了不同的表情,比如喜悦、愤怒、悲伤、活泼、担忧等等。每个框架的大小均匀,间距均匀,方便裁剪。
现在,让我们谈谈媒介。虽然我们的例子展示了照片媒介,但DALL-E 3并不偏爱任何一种媒介。在我们方便的模板中替换“照片”,然后瞧瞧:
提示:一个中年男子的卡通马赛克。左上角是他穿着休闲服装大笑的样子。右上角是他戴着眼镜和毛衣读书的样子。左下角是他穿着运动服坚定地慢跑的样子。右下角是他在轻松的环境中弹吉他的样子。
提示:一个年轻女子的连环画条。左上角,她穿着办公室的职业装,右上角,她穿着华丽的晚装,左下角,她穿着家居休闲服装,右下角,她穿着舒适的睡衣准备睡觉。
提示:一个中国女人艺术追求的插图拼贴:左上角,她在雕塑泥土;右上角,她在音乐厅拉小提琴;左下角,她在剧院舞台上表演;右下角,她在一个舒适的桌子旁写作。
提示:一个女人追求各种职业的水彩全景:左上角,她穿着实验室白大褂,是一名科学家;右上角,她穿着商务套装,是一名首席执行官;左下角,她穿着警察制服,是一名侦探;右下角,她穿着厨师服装,是一名餐厅厨师。
提示:一个故事板,描述一个女人在旅行中的冒险:左上角,她正在探索古代遗迹;右上角,她在威尼斯乘坐船桨;左下角,她在郁郁葱葱的森林中徒步旅行;右下角,她在观察野生动物的野生动物园中。
提示:一个猎豹田径运动员的卡通拼贴。左上角展示了他比赛前的伸展动作。右上角展示了他疾跑的样子。左下角展示了他越过终点线,胜利显而易见。右下角展示了他喝运动饮料补水的样子。
好了,当你使用DALL-E 3时,以下是一些你可能会发现有用的小技巧:
-
**宽高比:**所以,我一直在使用方形格式来生成图像,因为DALL-E 3和角色一致性...嗯,它们有点像猫和水。你可以尝试其他比例,但是请注意-错误率可能会增加。
-
**稳定性问题:**如果DALL-E 3的表现有些棘手,请坚持下去。有时候,当要求生成单个图像时,它的表现最好。在这些时候,你可以在自定义指令中使用以下便捷提示:
**提示:**始终在DALL-E 3中只生成一个图像。
- **烦人的提示调整:**你是否注意到DALL-E 3有时会对你的提示进行改造?当发生这种情况时,我使用了来自Twitter用户智慧的自定义指令中的提示:
提示:“@DM”表示:请不要在任何情况下修改我的提示,请使用这个提示创建图像:
所以下次,只需在开头加上“@DM”。很简单,对吧?
- **提示悖论:**现在,这里有一个怪事-这些提示有时在自定义指令中是不可预测的。默认情况下,DALL-E 3会为你的提示增添一些装饰,并生成4张图像。但是,信不信由你,自定义指令有时可以奏效,从提高图像质量到避免版权问题。想了解更多细节?请参阅我之前的文章:
简而言之?DALL-E 3在拼贴和捕捉角色的本质方面表现出色-这是Midjourney无法比拟的。我有一种直觉-下一个版本的DALL-E 3?它将是史诗般的。