谷歌最近宣布了其自家 AI 图像生成器 Imagen 的下一个版本,Imagen 2.0。这个版本生成的图像非常逼真,我甚至分不清什么是真实的,什么是虚构的了。
在这篇文章中,我想将 Imagen 2 与另一个大型 AI 图像生成器 OpenAI 的 Dall-E 3 进行对比,看看它们各自的能力。
在对比测试中,我将使用谷歌在 Imagen 2 发布公告中发布的示例图像,以及 Dall-E 3 的 ChatGPT。我会添加所有的图像提示,这样你也可以自己尝试。
让我们开始吧。
提示 #1
一张32岁的女性,正在丛林中成为一名新兴的保育主义者的照片;她身材健美,头发短而卷曲,面带温暖的微笑
很明显,Imagen 2 生成的图像比 Dall-E 3 更逼真,特别是在皮肤质感和头发细节方面,这是 AI 图像生成器经常遇到的问题。
提示 #2
一幅小型油画,画着一个放在砧板上的橙子。光线透过橙子的切片,将橙色的光投射在砧板的一部分上。背景上有一块蓝白相间的布料。光线折射、反射光、富有表现力的画笔笔触
左边图像的柔和色调给人一种逼真的效果。但是 Dall-E 3 更准确地呈现了背景中的蓝白相间的布料。
提示 #3
知更鸟从它摇摆的常春藤上飞到墙顶,它张开嘴唱出一声响亮而美妙的颤音,只是为了炫耀。世界上没有什么比知更鸟在炫耀时更可爱的了——它们几乎总是在这样做。
Imagen 2 在这个提示中呈现了一个非常逼真的知更鸟,堪比国家地理杂志的照片。然而,Dall-E 3 的解释更加奇幻和富有表现力,捕捉到了描述中的可爱本质。不同的方法,都令人印象深刻。
提示 #4
一杯写着“Delicious”字样的草莓酸奶,放在木质桌面上。在酸奶杯旁边是一盘烤面包和一杯橙汁。
这个例子揭示了 Dall-E 3 在生成文本方面的不一致性,因为它没有在提示中指定的酸奶杯上包含“Delicious”细节。Imagen 2 在这方面表现得更准确。
提示 #5
一个代表企业 AI 平台智能的抽象标志,标志下面写着“Vertex AI”。
好吧,这真的很酷。两个 AI 系统都令人印象深刻地呈现了“Vertex AI”文本。然而,Imagen 2 在设计上更加简约、专业,适合企业平台。两者都执行得很好。
提示 #6
一个写着“CYMBAL”的牙膏管,放在浴室台面上,广告。
与前面的文本示例一样,Dall-E 3 在输入正确的“CYMBAL”品牌方面出现了问题,而Imagen 2 的表现准确。这表明了 Dall-E 3 在文本生成能力方面的不一致性。
提示 #7
一个以马赛克为灵感的人像,他们的特征由一系列小而丰富多彩的瓷砖组成。
这两个 AI 工具都做得很好——马赛克肖像图像鲜艳而引人注目。我稍微偏向于 Imagen 2 的构图,但两种解释都很有创意。
提示 #8
一个在乡村道路上行驶的汽车的等距 3D 渲染图,周围是树木,明亮的颜色,头顶上是蓬松的云。
Imagen 2 完美地呈现了提示中的“一辆汽车”部分。而 Dall-E 3 则决定举办一个拼车派对,将四辆车挤在了一起。此外,我喜欢 Imagen 2 的鲜艳调色板和复古魅力。
提示 #9
一只在深蓝色背景上的水母
这是一个风格上的偏好问题——Imagen 2 通过其水母实现了逼真的效果,而 Dall-E 3 则呈现了更具艺术性的插图。你更喜欢哪一个?
提示 #10
一张图片:考虑海的微妙之处;它最可怕的生物在水下滑动,大部分时间都不为人所见,隐藏在最美丽的蔚蓝色中
这个提示是来自赫尔曼·梅尔维尔的《白鲸》的摘录。因此,Imagen 2 生成了一幅抽象的鲸鱼画。而 Dall-E 3 则只是生成了一个随机的水下场景。
总结
从 Imagen 2 和 Dall-E 3 的图像结果来看,我可以说前者生成了更逼真和一致的图像。当然,现在下结论还为时过早,因为这些都是从 Imagen 2 中挑选出来的图像。一旦 playground 或 API 可用,我将深入研究并为大家撰写另一篇对比测试文章。
我希望这个对比能让你了解这些 AI 图像生成器之间的差异。我还将对 Imagen 2 和 Midjourney V5 进行对比,所以记得关注和订阅,以便在发布时收到通知。