AI奇想空间 | 发现优质AI工具与开源项目

尽管 Midjourney 在角色设计和风格一致性方面表现良好，但它在提示理解和文本生成两大方面仍有不足，尤其是在复杂提示和生成可读文本的表现上明显落后。

提示：一位光头男士手举一块牌子，上写“Midjourney 出问题了吗？！”他穿灰色衬衫和蓝色牛仔裤，站在有车辆经过的街道上，自然光照射。模型 - Ideogram 2.0

如果你是一位创作者、标志设计师，或专业的迷因制作人，那么提示理解和文本生成的准确性对你至关重要。这关系到你是否能在短时间内获得你所期待的图像。

关键问题是什么？

研究人员在不断努力解决扩散模型中的两大核心挑战，即提示理解和文本生成。

提示理解是指模型能否准确理解复杂提示，以便用户能在较少尝试下获得理想的图像。

文本生成即模型能否生成清晰可读的字母、单词和句子。

想测试模型在这两方面的表现？可以尝试提供一个带有复杂元素的场景描述，并观察生成结果。为测试模型的表现，我设计了一个场景：

提示：一只戴着单片眼镜、拥有白色胡须的猫站在一辆红色汽车的左侧，车上有一块写着“喜欢猫的话就按喇叭”的牌子。光线昏暗，背景是电影片场的绿幕。前景是一位导演拿着写有“Action”的场记板。

大家能想象这个场景了吗？是的，我也有些模糊。但无论如何，这是三款不同模型生成的图像：

**注意：文字清晰，但整体构图有误，显得过度饱和，右上角的猫戴着礼帽，尽管提示中未提及。评分 6/10

**注意：色彩还不错，但未能准确遵循提示，仅有部分文字符合要求。评分 5/10

**注意：🤯 效果相当好，逼真且没有拼写错误。唯一不足是左上角文字缺少“Love”。几乎完全符合预期。评分 9.9/10

那么，你觉得哪个生成效果最好？

别急，回去再仔细对比一遍。

你确定答案了吗？

模型 1：Flux 1.1 Pro（评分 6/10）

模型 2：Midjourney 6.1（评分 5/10）

模型 3：Ideogram v 2.0（评分 9.9/10）

是不是有点意外？

我也是。

为了进一步验证，我还进行了其他几个简单的测试来比较输出效果。以下是结果：

人像

提示：一张75岁西班牙裔祖母的照片，她有深深的皱纹，穿着亮黄色毛衣，微笑着看向观众，背景是自然光充足的厨房。

Ideogram 的效果显得更逼真。Midjourney 也不错，但皮肤上带有 AI 的光泽——或者这位祖母的保养确实不错。而 Flux 1.1 Pro 的效果有些过于饱和，显得过分修饰。

风景

提示：一条蜿蜒穿过茂密森林的小路，前景是一条有小瀑布的河流，天空中有彩虹，背景中有鸟飞翔。

由于未指定是否为照片或插图，导致不同模型的结果各异。所有模型的构图都准确，但色彩的呈现有所不同。

食物

提示：一盘烤鸡配玉米、绿色沙拉和一块南瓜派的照片，盘子是白色的，放在大理石台面上，专业灯光从上方和左侧照射，背景是一扇窗户，可以看到城市天际线。

Ideogram 再次表现出色，看起来最为真实。Midjourney 在生成食物方面表现较弱（看看那块派！？）。Flux 1.1 Pro 的表现还不错，但食物显得有些不真实。

标志

提示：设计一个在白色背景上的标志，上书“在 Medium 上关注 @PromptingPixels”，要求标志色彩丰富且引人注目。

Ideogram 和 Flux 在标志生成方面表现都很强，Ideogram 生成的四张图中有一张符合背景要求。Midjourney 几乎失败，文字并不符合预期。

简单文本

提示：一位 30 岁女士举着写有“什么是真实？”的牌子。她戴着眼镜，穿着衬衫和蓝色牛仔裤，站在海滩上，光线是自然的黄金时刻。

所有模型都可以在 5 个字以内生成简单文本。Midjourney 的文字生成则经常出现语法错误。

长文本

提示：一个年轻男孩举着写有“我生日只想要一个 VR 头盔”的牌子，站在后院的秋千旁。戴眼镜，穿横条纹衬衫和蓝色牛仔裤。夏日的自然光照射着。

Ideogram 的效果最好，四张生成图都语法正确。Midjourney 无法完全理解这句话，而 Flux 1.1 Pro 则在尝试三次后生成了可接受的句子。

这意味着什么？

Midjourney 是个不错的模型，但如果你希望在直接生成中获得理想结果，并减少因文本混乱而多次调整的烦恼，不妨考虑 Ideogram 或 Flux 1.1 Pro。

除了质量，Ideogram 和 Flux 1.1 Pro 的价格也更加亲民。以最低价套餐计算，每张图像的成本大致如下：

Flux 1.1 Pro（API复制版）：每张图像 0.04 美元
Midjourney：每张图像 0.05 美元
Ideogram：每张图像 0.015 美元
Ideogram（API）：每张图像 0.08 美元

我已经反复核算，确保没有遗漏。

最后总结

这些只是我在 2024 年 10 月的观察结果。或许 Midjourney 下一次模型更新会带来不同的表现。

如果你希望在更少的尝试中得到更好结果，推荐你试试 Ideogram 或 Flux 1.1 Pro，相信你不会失望。

关键问题是什么？

研究人员在不断努力解决扩散模型中的两大核心挑战，即提示理解和文本生成。

提示理解是指模型能否准确理解复杂提示，以便用户能在较少尝试下获得理想的图像。

文本生成即模型能否生成清晰可读的字母、单词和句子。

想测试模型在这两方面的表现？可以尝试提供一个带有复杂元素的场景描述，并观察生成结果。为测试模型的表现，我设计了一个场景：

提示：一只戴着单片眼镜、拥有白色胡须的猫站在一辆红色汽车的左侧，车上有一块写着“喜欢猫的话就按喇叭”的牌子。光线昏暗，背景是电影片场的绿幕。前景是一位导演拿着写有“Action”的场记板。

大家能想象这个场景了吗？是的，我也有些模糊。但无论如何，这是三款不同模型生成的图像：

**注意：文字清晰，但整体构图有误，显得过度饱和，右上角的猫戴着礼帽，尽管提示中未提及。评分 6/10

**注意：色彩还不错，但未能准确遵循提示，仅有部分文字符合要求。评分 5/10

**注意：🤯 效果相当好，逼真且没有拼写错误。唯一不足是左上角文字缺少“Love”。几乎完全符合预期。评分 9.9/10

那么，你觉得哪个生成效果最好？

别急，回去再仔细对比一遍。

你确定答案了吗？

模型 1：Flux 1.1 Pro（评分 6/10）

模型 2：Midjourney 6.1（评分 5/10）

模型 3：Ideogram v 2.0（评分 9.9/10）

是不是有点意外？

我也是。

为了进一步验证，我还进行了其他几个简单的测试来比较输出效果。以下是结果：

人像

提示：一张75岁西班牙裔祖母的照片，她有深深的皱纹，穿着亮黄色毛衣，微笑着看向观众，背景是自然光充足的厨房。

风景

提示：一条蜿蜒穿过茂密森林的小路，前景是一条有小瀑布的河流，天空中有彩虹，背景中有鸟飞翔。

由于未指定是否为照片或插图，导致不同模型的结果各异。所有模型的构图都准确，但色彩的呈现有所不同。

食物

提示：一盘烤鸡配玉米、绿色沙拉和一块南瓜派的照片，盘子是白色的，放在大理石台面上，专业灯光从上方和左侧照射，背景是一扇窗户，可以看到城市天际线。

Ideogram 再次表现出色，看起来最为真实。Midjourney 在生成食物方面表现较弱（看看那块派！？）。Flux 1.1 Pro 的表现还不错，但食物显得有些不真实。

标志

提示：设计一个在白色背景上的标志，上书“在 Medium 上关注 @PromptingPixels”，要求标志色彩丰富且引人注目。

Ideogram 和 Flux 在标志生成方面表现都很强，Ideogram 生成的四张图中有一张符合背景要求。Midjourney 几乎失败，文字并不符合预期。

简单文本

提示：一位 30 岁女士举着写有“什么是真实？”的牌子。她戴着眼镜，穿着衬衫和蓝色牛仔裤，站在海滩上，光线是自然的黄金时刻。

所有模型都可以在 5 个字以内生成简单文本。Midjourney 的文字生成则经常出现语法错误。

长文本

提示：一个年轻男孩举着写有“我生日只想要一个 VR 头盔”的牌子，站在后院的秋千旁。戴眼镜，穿横条纹衬衫和蓝色牛仔裤。夏日的自然光照射着。

Ideogram 的效果最好，四张生成图都语法正确。Midjourney 无法完全理解这句话，而 Flux 1.1 Pro 则在尝试三次后生成了可接受的句子。

这意味着什么？

Midjourney 是个不错的模型，但如果你希望在直接生成中获得理想结果，并减少因文本混乱而多次调整的烦恼，不妨考虑 Ideogram 或 Flux 1.1 Pro。

除了质量，Ideogram 和 Flux 1.1 Pro 的价格也更加亲民。以最低价套餐计算，每张图像的成本大致如下：

Flux 1.1 Pro（API复制版）：每张图像 0.04 美元
Midjourney：每张图像 0.05 美元
Ideogram：每张图像 0.015 美元
Ideogram（API）：每张图像 0.08 美元

我已经反复核算，确保没有遗漏。

最后总结

这些只是我在 2024 年 10 月的观察结果。或许 Midjourney 下一次模型更新会带来不同的表现。

如果你希望在更少的尝试中得到更好结果，推荐你试试 Ideogram 或 Flux 1.1 Pro，相信你不会失望。

Midjourney 对比 Ideogram

关键问题是什么？

人像

风景

食物

标志

简单文本

长文本

这意味着什么？

最后总结

Midjourney 对比 Ideogram

关键问题是什么？

人像

风景

食物

标志

简单文本

长文本

这意味着什么？

最后总结