尽管 Midjourney 在角色设计和风格一致性方面表现良好,但它在提示理解和文本生成两大方面仍有不足,尤其是在复杂提示和生成可读文本的表现上明显落后。
如果你是一位创作者、标志设计师,或专业的迷因制作人,那么提示理解和文本生成的准确性对你至关重要。这关系到你是否能在短时间内获得你所期待的图像。
关键问题是什么?
研究人员在不断努力解决扩散模型中的两大核心挑战,即提示理解和文本生成。
提示理解是指模型能否准确理解复杂提示,以便用户能在较少尝试下获得理想的图像。
文本生成即模型能否生成清晰可读的字母、单词和句子。
想测试模型在这两方面的表现?可以尝试提供一个带有复杂元素的场景描述,并观察生成结果。为测试模型的表现,我设计了一个场景:
提示:一只戴着单片眼镜、拥有白色胡须的猫站在一辆红色汽车的左侧,车上有一块写着“喜欢猫的话就按喇叭”的牌子。光线昏暗,背景是电影片场的绿幕。前景是一位导演拿着写有“Action”的场记板。
大家能想象这个场景了吗?是的,我也有些模糊。但无论如何,这是三款不同模型生成的图像:
那么,你觉得哪个生成效果最好?
别急,回去再仔细对比一遍。
你确定答案了吗?
模型 1:Flux 1.1 Pro(评分 6/10)
模型 2:Midjourney 6.1(评分 5/10)
模型 3:Ideogram v 2.0(评分 9.9/10)
是不是有点意外?
我也是。
为了进一步验证,我还进行了其他几个简单的测试来比较输出效果。以下是结果:
人像
提示:一张75岁西班牙裔祖母的照片,她有深深的皱纹,穿着亮黄色毛衣,微笑着看向观众,背景是自然光充足的厨房。
风景
提示:一条蜿蜒穿过茂密森林的小路,前景是一条有小瀑布的河流,天空中有彩虹,背景中有鸟飞翔。
食物
提示:一盘烤鸡配玉米、绿色沙拉和一块南瓜派的照片,盘子是白色的,放在大理石台面上,专业灯光从上方和左侧照射,背景是一扇窗户,可以看到城市天际线。
标志
提示:设计一个在白色背景上的标志,上书“在 Medium 上关注 @PromptingPixels”,要求标志色彩丰富且引人注目。
简单文本
提示:一位 30 岁女士举着写有“什么是真实?”的牌子。她戴着眼镜,穿着衬衫和蓝色牛仔裤,站在海滩上,光线是自然的黄金时刻。
长文本
提示:一个年轻男孩举着写有“我生日只想要一个 VR 头盔”的牌子,站在后院的秋千旁。戴眼镜,穿横条纹衬衫和蓝色牛仔裤。夏日的自然光照射着。
这意味着什么?
Midjourney 是个不错的模型,但如果你希望在直接生成中获得理想结果,并减少因文本混乱而多次调整的烦恼,不妨考虑 Ideogram 或 Flux 1.1 Pro。
除了质量,Ideogram 和 Flux 1.1 Pro 的价格也更加亲民。以最低价套餐计算,每张图像的成本大致如下:
- Flux 1.1 Pro(API复制版):每张图像 0.04 美元
- Midjourney:每张图像 0.05 美元
- Ideogram:每张图像 0.015 美元
- Ideogram(API):每张图像 0.08 美元
我已经反复核算,确保没有遗漏。
最后总结
这些只是我在 2024 年 10 月的观察结果。或许 Midjourney 下一次模型更新会带来不同的表现。
如果你希望在更少的尝试中得到更好结果,推荐你试试 Ideogram 或 Flux 1.1 Pro,相信你不会失望。