两年前,在我的工作中,我在 2021 年在 𝕏(当时是 Twitter)上了解到了 DALL-E 的消息。它可以根据文本生成图片,这简直让我惊叹不已。
我的一个最好的朋友在一家人工智能公司工作,我们每两周习惯性地花一两个小时讨论技术和我们对未来的看法。在其中一次谈话中,我了解到了大语言模型(LLMs)以及它们如何训练自己的模型。巧合的是,我的朋友的公司正在研究视频生成。
因此,当 Midjourney 在 2022 年 3 月推出时,它绝对引起了我的兴趣。与 DALL-E 类似,从高层次的角度看,它看起来令人印象深刻。虽然这些图片仍然需要改进,但我对所看到的东西感到惊讶。
100 天、100 张图片挑战的原因
在几个月内,DALL-E 和 Midjourney 的几个迭代版本和版本发布,以及大量新网站推出了他们自己的人工智能图片生成模型。
“提示工程”的趋势也在这段时间内获得了显著的关注,并且截至目前仍然很受欢迎。
自 2012 年以来,我一直在 𝕏 上获取新闻,而不是传统媒体。我的网络主要由软件开发人员、技术爱好者和作家组成。
自然而然地,我想尝试提示,我觉得在 𝕏 上持续生成图片是一个理想的开始方式。我决定接受“100 天、100 张图片”的挑战,每天使用人工智能工具生成一张图片,并在 𝕏 上发布,带有标签 #100DaysOfAI。
那么,什么是提示工程?
以通俗的方式来说,提示工程是一种制定正确问题或指令来引导人工智能模型,特别是大语言模型,产生期望结果的实践。
可以将其视为编程,但更简单。在传统编程中,您需要了解特定的语言,如 Java、JavaScript 或 Python 来编写程序。在提示工程中,您需要的语言是英语(或者根据模型支持的情况,任何其他自然语言)。
您在日常生活中已经熟悉这样的技术。语音助手如 Siri、Google Assistant 或 Alexa 使用自然语言处理;您可能已经用英语或您的地区语言让它们播放歌曲或将商品添加到购物车。
事实上,特斯拉前人工智能总监 Andrej Karpathy 甚至将英语描述为最热门的新编程语言。
提示工程在过去几个月中已经成为一项关键技能,因为它作为确保人工智能与人类适当交互的桥梁。
随着最新的大语言模型在理解上下文和细微差别方面取得显著进展,您的提示可以显著影响您从人工智能模型获得的响应的质量。
提示生成图片的示例
虽然这个话题可以扩展到几个方面,但我将重点介绍提示是如何工作以及为什么它一直令人感兴趣。有许多方法可以提示 ChatGPT 或任何大语言模型(或人工智能聊天机器人),从而生成各种用例。
但是,在本文中,我将集中讨论图片生成。
首先,提示在不同工具上的工作方式有所不同,这取决于它们使用的经过微调的图片模型。事实上,即使在同一个人工智能工具中,每次提示生成的结果也会有所不同。
这是有道理的,不是吗?这对于生成独特的图片至关重要;否则,我们使用相同的提示将得到相同的图片。
让我用一些相同的提示举例说明:
示例 #1
因此,我在 Leonardo AI 中使用了以下提示,这是一款流行的文本到图片生成工具:
在一张破旧、裂开的纸上,以 Alex Stoddard 风格的迷人双重曝光艺术作品,捕捉一个动态迷人的场景,唤起复古美感,结合两个主题,揭示复杂和神秘的层次。
生成的图片很美丽。这位女士设想了一座房子,里面有一个后院和一个湖。这是一幅双重曝光艺术作品,因此人工智能以一种特定的方式对图片进行了上下文化。
对于那些不了解的人,双重曝光是一种流行的摄影技术,将两次曝光合成为一张图片。有不同版本和种类的双重曝光照片(您可以搜索了解更多)。
示例 #2
对上一次生成的结果不满意,我再次运行了提示,这次生成的图片更好。
这次的图片是真正的双重曝光艺术作品,与您看到专业摄影师拍摄的相似。但这种(类型的)图片,我已经在过去生成过了。
示例 #3
再次尝试相同的提示,艺术作品略有变化。
这张图片很好,但看起来像一幅“更破旧”的艺术作品,不是我所期望的。
示例 #4
最后一次尝试生成的图片令人难以置信,这可能是我最喜欢的。
这幅图片符合我使用的提示。它在破旧的纸上使用了双重曝光艺术作品的元素,风格类似于 Alex Stoddard,一位著名摄影师。虽然它并不完全具有 100% 的双重曝光元素,但它有所有正确的元素。这是我会打印并贴在家里作为海报的图片。
您可能不喜欢其他图片或根本没有图片。但这是为了向您展示,每次提示的工作方式都是不同的。我在同一个人工智能工具上使用了相同的提示,您可以看到变化。如果您稍微更改提示,图片生成将完全不同。
因此,如果您尝试使用人工智能工具生成图片,您必须使用相同或不同的提示进行多次迭代,直到获得所需的结果。
#100DaysOfAI 挑战
对于这个挑战,规则很简单。您可以使用任何知名的人工智能文本到图片工具,其中您使用您的提示,工具根据提示的上下文生成图片。
我继续生成了 100 张图片,这证明是一次很好的学习经验。我使用的人工智能工具包括 LeonardoAI、Midjourney、必应 AI 创作者 和 NightCafe 等。
我还尝试了各种文本到视频工具,如 Runway、Pika 和 Luma Labs,但我们将把这个讨论留到另一天。
我学到了很多不同风格的艺术形式,以及来自世界各地各个时代的艺术家、摄影师及其摄影风格、流行绘画、作家、人工智能模型、提示写作等。
让我展示一些我最喜欢的图片生成以及它们的提示。
一张黑白照片,描绘一个年轻女孩在野花田间奔跑
提示:一位拥有飘逸棕色头发的年轻女孩在野花田间与风比赛,她的笑声回荡在空中,被捕捉在一张候拍照片中,黑白图片,她快乐表情中的原始情感,增强了光影的对比。
雾中山羊人的超现实主义肖像
提示:雾中山羊人脸部的超现实特写,强调他可怕的特征,眼睛发出红光,脸部是人类和山羊的混合,带有大而尖锐的角。
文森特·梵高作为哈利·波特
提示:文森特·梵高的“戴草帽的自画像”,重新想象成“哈利·波特”电影。
光影和人类缺陷的逼真捕捉
提示:强烈的光影,极其逼真的不洁皮肤,带有轻微皱纹和一些雀斑,头发中有灰色条纹,极其详细生动的眼睛,逼真。
霓虹梦境
提示:明亮的霓虹色彩,卡通风格插图,描绘一位经历幻觉的女人,陶醉,溅射艺术,溅射的霓虹色彩,虹彩发光的烟雾,动态效果。
8K 逼真数字肖像
### 一位北欧女战士的素描肖像
提示:素描风格,素描,手绘,黑暗,粗糙,逼真的素描,粗糙的素描,混合了粗黑线条和松散线条,画在纸上,角色转身表,一个极其美丽的北欧女战士。手持长刀,皮革和蕾丝紧身胸衣,战士服装,类似史前时代,棕色飘逸的头发,刘海,全身,北欧符号,符文,黑暗主题,完美构图黄金比例,杰作,4k,清晰聚焦。
拳击大师对阵新手
提示:50 岁的迈克·泰森和 25 岁的杰克·保罗在拳击擂台上,人群欢呼雀跃,两人在聚光灯下被汗水浸透,为了冠军腰带而激烈搏斗,超现实主义。
派对上的超现实主义女性自拍
提示:派对上一位女性的自拍,真实自画像,超广角,独特的面部特征,霓虹灯光,红色,日常服装,超现实主义。
乐高版蒙娜丽莎
提示:利奥纳多·达·芬奇的《蒙娜丽莎》的乐高积木艺术