FLUX vs. Midjourney:深入探讨排版、解剖学、提示跟随等方面
生成艺术的领域不断发展,最近 Black Forest Labs 推出的 FLUX 引起了创作者们的极大兴趣。FLUX 是一个开源的文本到图像模型套件,根据官方评估,它在这一领域的领先模型中表现出色,包括流行的 Midjourney。
作为一个深入探索并记录了 Midjourney 能力的人,我对围绕 FLUX 的声明感到好奇。怀着一丝怀疑,我决定对 FLUX 进行测试,直接比较其与 Midjourney 在几个关键维度上的表现。本文详细介绍了我的研究结果,全面比较了这两个在生成艺术领域中强大工具。
对于喜欢通过视频内容深入了解 Stable Diffusion 的人,欢迎查看与本文配套的视频教程:
文本生成
让我们从研究 FLUX 和 Midjourney 的文本生成能力开始。为了说明差异,考虑两组图像:左侧是由 FLUX Dev 生成的图像,右侧是 Midjourney V6.1 生成的图像。
1. 文本处理和纹理
这两个模型都展示了处理简单单词拼写的熟练能力。然而,在文本纹理方面,FLUX 似乎更胜一筹。例如,Midjourney 生成的单词 "HEAL" 显示出类似饼干的纹理,这与预期的果味外观不太一致。相比之下,FLUX 提供了更合适的纹理,使文本看起来更真实,符合提示的要求。
当我们看到涉及文本叠加的图像时,质量差异变得更加明显,比如带有冰块的示例。FLUX 生成的文本因其清晰度而脱颖而出 - "Cubes" 一词周围的轮廓清晰,视觉上吸引人,而 Midjourney 的版本则缺乏这种精度。
2. 宽高比灵活性
FLUX 的另一个显著优势是其支持各种宽高比,这一功能比 Midjourney 更具灵活性。例如,在 1:1 的宽高比下,FLUX 生成较小的文本,间距更紧凑,确保所有五个字母从正面视图完全可见。然而,Midjourney 在这方面表现不佳 - 其字母显得拥挤,无法从正面视角显示。
结论
总体而言,FLUX 展示了出色的排版能力,甚至在这一领域超越了 Midjourney。其处理不同宽高比和生成高质量、纹理良好的文本的能力使其成为生成艺术中更为多才多艺、强大的工具。
解剖学
接下来,让我们探讨 FLUX 和 Midjourney 如何处理生成人体这一复杂任务 - 这是长期以来困扰 AI 模型的挑战,如扭曲的肢体和不自然的身体部位等问题。
1️ 解剖准确性
FLUX 中的一个显著改进是其能够在不出现 Stable Diffusion 3 等早期模型中常见的明显错误的情况下生成人体形象。在 FLUX 生成的图像中,人体呈现出高度准确的解剖结构,没有主要的解剖错误。然而,仍然有一些地方可以看出 AI 的影响,比如过于突出的肌肉。这些肌肉凸起看起来略显不真实,熟悉肌肉结构的人很容易辨认出这幅图像是由 AI 生成的。
另一方面,Midjourney 生成的肌肉结构看起来略微更真实,特别是在添加汗水等细节时。这使得 Midjourney 图像中的健美运动员看起来更具生动感,增加了整体逼真感。
2️ 空间关系
虽然 Midjourney 在肌肉逼真度方面可能更胜一筹,但在空间关系方面却遇到了显著困难。例如,在一幅图像中,杠铃似乎穿过女性头部 - 这是一个明显的缺陷,破坏了生成场景的沉浸感。相比之下,FLUX 在这方面表现出色。由于其灵活的宽高比支持,FLUX 准确描绘了空间关系,使整个杠铃能够完整显示,而不会使图像拥挤或引入尴尬的错误。
3️ 动作和姿势:芭蕾舞者和瑜伽
比较这些模型如何处理动态姿势,比如芭蕾舞者和瑜伽练习者的姿势时,FLUX 和 Midjourney 都表现出色,尽管存在一些差异。
-
芭蕾舞者:两个模型生成的芭蕾舞者图像非常相似,各有细微问题。然而,Midjourney 的版本虽然略微更有缺陷,但通过光线和阴影的运用,提供了更具戏剧性的美感。
-
瑜伽姿势:转向瑜伽姿势,FLUX 展示了出色的准确性,几乎完美地呈现了复杂的姿势。Midjourney 也表现不错。
结论
在生成人体方面,FLUX 和 Midjourney 几乎不相上下。FLUX 在空间关系和准确描绘动态姿势方面表现出色,而 Midjourney 在呈现逼真肌肉结构和戏剧性光影方面稍占优势。总体而言,这两个模型都展现出显著优势,使它们成为生成 AI 艺术中生成人体形象的强大工具。
互动/提示跟随
接下来,让我们深入探讨“互动”概念 - 这些模型描绘人与物体之间自然互动的能力,或者它们如何准确地遵循给定的提示。这是生成艺术的一个关键方面,特别是在处理需要对空间关系和人类情感进行微妙理解的复杂场景时。
1️ 处理复杂角度和自然互动
考虑一个场景,一个小男孩正在向后看 - 这对任何模型来说都是一个具有挑战性的角度。在这种情况下,FLUX 的表现优于 Midjourney。虽然 FLUX 图像中的蝴蝶并没有像提示可能暗示的那样完全落在男孩的肩膀上,但它确实落在了他的手臂上,创造了比 Midjourney 更自然、更可信的互动。FLUX 还擅长捕捉小男孩的目光,完美地传达了一种惊奇和好奇的感觉。
2️ 提示遵循和表达
在另一组图像中,Midjourney 展示了对提示更强的遵循度,几乎完全复制了提示。相比之下,FLUX 稍显不足。例如,在一个场景中,一个男人应该表现出惊讶,但 FLUX 图像中男人的表情缺乏预期的强烈或清晰的情感。在这里,Midjourney 对细节的关注,特别是在面部表情方面,导致了一个更具说服力和符合提示的图像。
3️ 图像质量和逼真度
在整体图像质量方面,Midjourney 通常产生更逼真的结果,特别是在皮肤质地和细节方面。Midjourney 图像中的皮肤看起来更自然,带有增强逼真感的微妙细节。另一方面,FLUX 有时会产生略带塑料感的皮肤,降低了图像的整体逼真度。
结论
尽管 FLUX 在某些方面存在一些缺陷,但在某些情况下它仍能胜过 Midjourney,特别是在创造自然互动和捕捉复杂角度方面。虽然 Midjourney 在特定情况下可能在图像质量和提示遵循方面胜出,但 FLUX 处理具有微妙互动要素的挑战性提示的能力相当令人印象深刻。这使得 FLUX 在关键时刻成为一个引人注目的选择,即使它并非在所有方面都能取得胜利。
手部
让我们讨论生成艺术中最臭名昭著的挑战之一:创造逼真的手部。许多 AI 模型在这方面遇到困难,经常产生看起来扭曲或不自然的手部。让我们看看 FLUX 和 Midjourney 在这方面的表现。
1️ 手部生成的逼真性
FLUX 以其生成看起来令人印象深刻的逼真手部而脱颖而出。特别是在处理具有挑战性角度的情况下,比如左手处于不寻常角度时,FLUX 能够保持解剖准确性和自然外观。这种细节水平对于创造令人信服的图像至关重要。
另一方面,Midjourney 在处理手部生成时存在一些明显问题。即使在一些较好的示例中,Midjourney 在处理指甲盖等细节方面也存在问题,特别是在无名指和小指上。这些不准确之处可能会分散注意力,降低图像的整体逼真度。
2️ 在不同场景中的一致性
Midjourney 的手部生成存在的问题不仅仅是偶发事件;这是一个持续存在的问题。例如,在一组展示弹钢琴的图片中 - 这是手部准确性至关重要的场景 - Midjourney 再次表现不佳。它生成的手部经常显得笨拙或不正确,破坏了场景的视觉完整性。相比之下,FLUX 在这方面处理得更加精准,生成的手部看起来在图片的背景下既合适又自然。
结论
在生成手部方面,FLUX 明显优于 Midjourney。无论是在不寻常角度的解剖准确性还是在不同场景下的一致性方面,FLUX 在处理 AI 生成图像中最具挑战性的一个方面上展现出了卓越的能力。对于需要可靠和逼真手部描绘的创作者来说,FLUX 是更好的选择。
生成面部
生成逼真面部是对 AI 模型的另一个关键测试,这是一个细微细节如皮肤质地和色调可以起到决定作用的领域。让我们看看 FLUX 和 Midjourney 在这方面的表现如何。
1️ 皮肤质地和逼真度
在皮肤质地方面,Midjourney 有明显优势。它生成的面部往往看起来更逼真,皮肤质地捕捉到了栩栩如生的质感。这种逼真度进一步得到加强,因为 Midjourney 能够反映出提示中的暖色调,创造出更自然和令人信服的外观。
相比之下,FLUX 在这方面表现不佳。FLUX 生成的面部皮肤经常显得油腻或塑料般,影响了图像的整体逼真度。与 Midjourney 甚至 Stable Diffusion 3 Medium 相比,这个问题尤为明显。值得注意的是,Stable Diffusion 3 Medium 有时在皮肤质地质量方面甚至可以超过 FLUX 和 Midjourney,生成出更加细腻和自然的质地面部。
2️ 处理眼泪和情感细节
虽然 FLUX 在皮肤质地方面表现不佳,但它确实在某些面部细节方面与 Midjourney 保持一致,比如生成眼泪。FLUX 和 Midjourney 都能够在提示时展示眼泪 - 并非所有模型都能做到的成就。
例如,在与 Juggernaut XL 和 Stable Diffusion 3 Medium 的比较中,这两个模型都没有成功捕捉到眼泪,突显了 FLUX 和 Midjourney 表现良好的领域。
结论
在面部生成领域,Midjourney 主要因其优越的皮肤质地和更准确地反映提示中的暖色调的能力而胜过 FLUX。FLUX 虽然能够处理某些面部细节如眼泪,但在提供逼真和自然面部外观方面一直落后。对于那些将面部逼真度,特别是皮肤质地视为重中之重的创作者来说,Midjourney 仍然是更强大的选择。
总结
经过对这些图像的彻底审查,作为一个开源模型,FLUX 在生成艺术方面正在取得重大进展。它在几个方面超越了 Midjourney,如提示跟随和手部生成,展示了开源模型的潜力。虽然 FLUX 目前在整体图像质量方面表现不佳,但其开源性质使其能够与其他模型合作,潜在地带来快速改进。
围绕 FLUX 的热议表明,我们可以期待在不久的将来看到基于这项技术的更加精致的模型。我将继续为您更新有关 FLUX 的教程,所以如果您还没有关注我,现在是一个很好的时机!