探索生成式 AI 在视频中的新工作流程
最近,我一直在探索与人工智能共同创作故事的世界。我相信这些工具已经发展到可以制作出不错的视频故事的程度,而要真正找出答案的唯一方法就是亲自动手尝试。
使用的工具:
-
概念和剧本: ChatGPT 和 Claude AI
-
基础图像、角色设定和概念设计: Midjourney 和 Freepik
-
视频生成: Runway Gen-3、LumaLabs 和 Kling
-
声音和音效: ElevenLabs、Hedra Labs 和 Capcut
-
编辑: Capcut
-
图形设计: Figma
由于这些工具仍然相对较新,工作流程是实验性的,我预计它将随着每个独特项目的进行而不断发展。
以下是我为这个项目遵循的流程。
概念和剧本
作为一名设计师,我经常从单个图像中汲取灵感。在制作 Midjourney 参考风格大全 (sref 代码) 时,我被 sref 3456119169 所吸引:
我想要创作一个关于孤独的科幻赏金猎人的沉重故事,以那个参考图像的情绪为基础。有了这些元素在脑海中,我转而向 ChatGPT 和 Claude AI 寻求创意,使用以下提示:
另一个星球的人类殖民地中的未来设定。一个赏金猎人去酒吧收取一些款项。他最终接到了追捕某人的任务。在一个阴郁、赛博朋克风格的环境中,提出 5 个短视频故事的可能想法。
在审查了回复后,我提取了我喜欢的想法,并使用以下提示进一步完善了故事:
根据以下情节制作剧本:赏金猎人进入酒吧收取报酬,却发现欠款的人已被一个隐藏在殖民地贫民窟中的臭名昭著的机器罪犯杀害,并带走了款项。赏金猎人决定追捕这个罪犯。
现在,有了剧本的基本草稿,我将其用作指导,使用 Midjourney 和 Freepik 生成图像。
生成图像
为了在整个视频中保持一致的美学风格,我在 Midjourney 中使用了 sref 参数,具体是 sref 3456119169。这为所有图像提供了橙色、朦胧的情绪。以下是一些生成的图像示例:
电影静态画面,未来城市的航拍视角,摩天大楼,移除人物,末世,赛博朋克 - 宽高比 16:9 - sref 3456119169 - p - 风格化 1000 - v 6
电影静态画面,未来城市巷子里的未来车辆,摩天大楼,末世,赛博朋克 - 宽高比 16:9 - sref 3456119169 - v 6 - 风格化 1000 - p
电影静态画面,巷子里的未来酒吧招牌,背景是摩天大楼,末世,赛博朋克 - 宽高比 16:9 - sref 3456119169 - v 6 - 风格化 1000 - p
使用这个 sref 生成的一些图像有些粗糙,这在动画时可能会有问题。
使用 Freepik 进行放大处理是必要的,以提高质量。
图像动画化
接下来的步骤涉及使用 Runway、LumaLabs 和 Kling 对这些图像进行动画化。添加简短的提示描述所需的动作有助于赋予场景生机:
提示:车辆飞走
提示:人物行走
LumaLabs 的图像混合功能非常有用,让我可以尝试在场景之间过渡。结果为结构增添了深度。
基本结构开始成形。
但是,这里出现了 AI 电影的大问题:
哒哒哒哒哒。
角色一致性。
这仍然是 AI 电影制作中的一个重大挑战,远未得到完全解决。对于这个项目,我使用了一个方法来解决这个问题,取得了令人满意的结果。
角色
我对我的角色外貌有清晰的愿景,基于一个名人的参考。我的初始提示是:
电影静态画面,正面镜头,布鲁斯·威利斯穿着未来风衣在巷子里行走,末世,赛博朋克 - 宽高比 16:9 - sref 3456119169 - p - 风格化 1000 - v 6
是的。他很合适。
这个方法效果还不错,所以我将其作为所有角色场景的基本模板,只更改场景描述,并添加了 -cref 参数以加强图像 URL。
虽然不完美,但对于这个项目来说已经足够了。
建议: 不要为此问题感到过分紧张。目前还没有完美的解决方案。
对于配角,另一个技巧是生成一个角色的主要肖像,并使用 Midjourney 的编辑器更改周围环境。这为场景增添了足够的变化,使得一旦动画化,角色之间的差异足够明显。
旁注: 我在使用这个 sref 时遇到的一个限制是无法将角色的服装改变为未来风格。后来我意识到,将 sref 与另一个具有未来元素的图像混合可能会解决这个问题。
一旦动画化,它们之间的差异将足够明显。
旁注:在这里,我发现了这个 Midjourney sref 的一个限制。无论我如何更改提示,我都无法让 MJ 为她穿上未来风格的服装。(当我写这篇文章时,我想到了我可以将 sref 与另一个具有未来元素的图像混合。哦,好吧)
声音和音效
为角色添加声音和音效有几种选择:
-
ElevenLabs: 使用文本转语音生成声音。
-
Runway 和 Hedra Labs: 唇语功能允许您向图像添加声音。
-
Capcut: 提供声音生成功能,但没有唇语功能。
此外,音效可以提升您的视频。ElevenLabs 和 Capcut 都提供了生成或添加音效的选项。
上传到 YouTube
YouTube 是分享您的作品并建立观众群的最佳平台。我建议创建并分享您的频道。
对于缩略图,我使用了 Figma 的免费版本。它提供了一系列出色的字体。以下是我设计的一些缩略图:
您更喜欢哪一个?
这就是最终结果。