AI奇想空间 | 发现优质AI工具与开源项目 | 谷歌 Imagen 2 与 OpenAI 的 Dall-E 3

Google Imagen 2 vs Dall-E 3

谷歌最近宣布了其自家 AI 图像生成器 Imagen 的下一个版本，Imagen 2.0。这个版本生成的图像非常逼真，我甚至分不清什么是真实的，什么是虚构的了。

在这篇文章中，我想将 Imagen 2 与另一个大型 AI 图像生成器 OpenAI 的 Dall-E 3 进行对比，看看它们各自的能力。

在对比测试中，我将使用谷歌在 Imagen 2 发布公告中发布的示例图像，以及 Dall-E 3 的 ChatGPT。我会添加所有的图像提示，这样你也可以自己尝试。

让我们开始吧。

提示 #1

一张32岁的女性，正在丛林中成为一名新兴的保育主义者的照片；她身材健美，头发短而卷曲，面带温暖的微笑

很明显，Imagen 2 生成的图像比 Dall-E 3 更逼真，特别是在皮肤质感和头发细节方面，这是 AI 图像生成器经常遇到的问题。

提示 #2

一幅小型油画，画着一个放在砧板上的橙子。光线透过橙子的切片，将橙色的光投射在砧板的一部分上。背景上有一块蓝白相间的布料。光线折射、反射光、富有表现力的画笔笔触

左边图像的柔和色调给人一种逼真的效果。但是 Dall-E 3 更准确地呈现了背景中的蓝白相间的布料。

提示 #3

知更鸟从它摇摆的常春藤上飞到墙顶，它张开嘴唱出一声响亮而美妙的颤音，只是为了炫耀。世界上没有什么比知更鸟在炫耀时更可爱的了——它们几乎总是在这样做。

Imagen 2 在这个提示中呈现了一个非常逼真的知更鸟，堪比国家地理杂志的照片。然而，Dall-E 3 的解释更加奇幻和富有表现力，捕捉到了描述中的可爱本质。不同的方法，都令人印象深刻。

提示 #4

一杯写着“Delicious”字样的草莓酸奶，放在木质桌面上。在酸奶杯旁边是一盘烤面包和一杯橙汁。

这个例子揭示了 Dall-E 3 在生成文本方面的不一致性，因为它没有在提示中指定的酸奶杯上包含“Delicious”细节。Imagen 2 在这方面表现得更准确。

提示 #5

一个代表企业 AI 平台智能的抽象标志，标志下面写着“Vertex AI”。

好吧，这真的很酷。两个 AI 系统都令人印象深刻地呈现了“Vertex AI”文本。然而，Imagen 2 在设计上更加简约、专业，适合企业平台。两者都执行得很好。

提示 #6

一个写着“CYMBAL”的牙膏管，放在浴室台面上，广告。

与前面的文本示例一样，Dall-E 3 在输入正确的“CYMBAL”品牌方面出现了问题，而Imagen 2 的表现准确。这表明了 Dall-E 3 在文本生成能力方面的不一致性。

提示 #7

一个以马赛克为灵感的人像，他们的特征由一系列小而丰富多彩的瓷砖组成。

这两个 AI 工具都做得很好——马赛克肖像图像鲜艳而引人注目。我稍微偏向于 Imagen 2 的构图，但两种解释都很有创意。

提示 #8

一个在乡村道路上行驶的汽车的等距 3D 渲染图，周围是树木，明亮的颜色，头顶上是蓬松的云。

Imagen 2 完美地呈现了提示中的“一辆汽车”部分。而 Dall-E 3 则决定举办一个拼车派对，将四辆车挤在了一起。此外，我喜欢 Imagen 2 的鲜艳调色板和复古魅力。

提示 #9

一只在深蓝色背景上的水母

这是一个风格上的偏好问题——Imagen 2 通过其水母实现了逼真的效果，而 Dall-E 3 则呈现了更具艺术性的插图。你更喜欢哪一个？

提示 #10

一张图片：考虑海的微妙之处；它最可怕的生物在水下滑动，大部分时间都不为人所见，隐藏在最美丽的蔚蓝色中

这个提示是来自赫尔曼·梅尔维尔的《白鲸》的摘录。因此，Imagen 2 生成了一幅抽象的鲸鱼画。而 Dall-E 3 则只是生成了一个随机的水下场景。

总结

从 Imagen 2 和 Dall-E 3 的图像结果来看，我可以说前者生成了更逼真和一致的图像。当然，现在下结论还为时过早，因为这些都是从 Imagen 2 中挑选出来的图像。一旦 playground 或 API 可用，我将深入研究并为大家撰写另一篇对比测试文章。

我希望这个对比能让你了解这些 AI 图像生成器之间的差异。我还将对 Imagen 2 和 Midjourney V5 进行对比，所以记得关注和订阅，以便在发布时收到通知。

Google Imagen 2 vs Dall-E 3

谷歌最近宣布了其自家 AI 图像生成器 Imagen 的下一个版本，Imagen 2.0。这个版本生成的图像非常逼真，我甚至分不清什么是真实的，什么是虚构的了。

在这篇文章中，我想将 Imagen 2 与另一个大型 AI 图像生成器 OpenAI 的 Dall-E 3 进行对比，看看它们各自的能力。

在对比测试中，我将使用谷歌在 Imagen 2 发布公告中发布的示例图像，以及 Dall-E 3 的 ChatGPT。我会添加所有的图像提示，这样你也可以自己尝试。

让我们开始吧。

提示 #1

一张32岁的女性，正在丛林中成为一名新兴的保育主义者的照片；她身材健美，头发短而卷曲，面带温暖的微笑

很明显，Imagen 2 生成的图像比 Dall-E 3 更逼真，特别是在皮肤质感和头发细节方面，这是 AI 图像生成器经常遇到的问题。

提示 #2

一幅小型油画，画着一个放在砧板上的橙子。光线透过橙子的切片，将橙色的光投射在砧板的一部分上。背景上有一块蓝白相间的布料。光线折射、反射光、富有表现力的画笔笔触

左边图像的柔和色调给人一种逼真的效果。但是 Dall-E 3 更准确地呈现了背景中的蓝白相间的布料。

提示 #3

知更鸟从它摇摆的常春藤上飞到墙顶，它张开嘴唱出一声响亮而美妙的颤音，只是为了炫耀。世界上没有什么比知更鸟在炫耀时更可爱的了——它们几乎总是在这样做。

提示 #4

一杯写着“Delicious”字样的草莓酸奶，放在木质桌面上。在酸奶杯旁边是一盘烤面包和一杯橙汁。

这个例子揭示了 Dall-E 3 在生成文本方面的不一致性，因为它没有在提示中指定的酸奶杯上包含“Delicious”细节。Imagen 2 在这方面表现得更准确。

提示 #5

一个代表企业 AI 平台智能的抽象标志，标志下面写着“Vertex AI”。

提示 #6

一个写着“CYMBAL”的牙膏管，放在浴室台面上，广告。

与前面的文本示例一样，Dall-E 3 在输入正确的“CYMBAL”品牌方面出现了问题，而Imagen 2 的表现准确。这表明了 Dall-E 3 在文本生成能力方面的不一致性。

提示 #7

一个以马赛克为灵感的人像，他们的特征由一系列小而丰富多彩的瓷砖组成。

这两个 AI 工具都做得很好——马赛克肖像图像鲜艳而引人注目。我稍微偏向于 Imagen 2 的构图，但两种解释都很有创意。

提示 #8

一个在乡村道路上行驶的汽车的等距 3D 渲染图，周围是树木，明亮的颜色，头顶上是蓬松的云。

提示 #9

一只在深蓝色背景上的水母

这是一个风格上的偏好问题——Imagen 2 通过其水母实现了逼真的效果，而 Dall-E 3 则呈现了更具艺术性的插图。你更喜欢哪一个？

提示 #10

一张图片：考虑海的微妙之处；它最可怕的生物在水下滑动，大部分时间都不为人所见，隐藏在最美丽的蔚蓝色中

这个提示是来自赫尔曼·梅尔维尔的《白鲸》的摘录。因此，Imagen 2 生成了一幅抽象的鲸鱼画。而 Dall-E 3 则只是生成了一个随机的水下场景。

总结

我希望这个对比能让你了解这些 AI 图像生成器之间的差异。我还将对 Imagen 2 和 Midjourney V5 进行对比，所以记得关注和订阅，以便在发布时收到通知。

谷歌 Imagen 2 与 OpenAI 的 Dall-E 3 - 相同的提示，不同的结果

提示 #1

提示 #2

提示 #3

提示 #4

提示 #5

提示 #6

提示 #7

提示 #8

提示 #9

提示 #10

总结

谷歌 Imagen 2 与 OpenAI 的 Dall-E 3 - 相同的提示，不同的结果

提示 #1

提示 #2

提示 #3

提示 #4

提示 #5

提示 #6

提示 #7

提示 #8

提示 #9

提示 #10

总结