随着人工智能技术飞速发展,越来越多的创意工作开始借助生成式AI工具完成。作为一名教授和AI热爱者,我将这股浪潮与家庭生活结合,和我七岁的女儿Kate一同展开了一场别开生面的创作旅程。我们的目标,是利用多款领先的AI生成工具,在仅凭Kate一张戴虎面具、身穿粉色浴衣的照片基础上,共同制作一部1分钟的动画短片。这次经历不仅令我们玩得开心,更让我切身感受到生成式视频AI的巨大潜力与挑战,同时积累了宝贵的实践经验,希冀能为同行或家长提供参考。 创作背景在开始之前,我对生成式AI视频技术已有一定了解,并保持关注这些工具的更新迭代。六个月前,我曾尝试过腾讯的鸿远视频,那个时候它被称作技术突破的代表。
但AI发展速度之快超乎想象,目前开放权重社区普遍认同阿里巴巴推出的万视频体系作为更强大的替代方案。万视频不仅拥有包括文本转视频、图像转视频、首末帧到视频等多种基础模型,还有各种开源扩展和训练的LORA(低秩适配器)模块。诸如VACE这样的强控件允许用户精细控制生成内容,CausVid以及更加快速的SelfForcing技术有效提升了生成速度,整个万视频生态为创作者提供了丰富工具。“玩”起AI来,不仅能体验技术革新,也能和家人共享创作乐趣。 故事策划与分镜设计整个项目花费了大约20个小时,其中包括1小时的剧本构思、4小时搭建工作流程、15小时的渲染,以及1小时从众多版本中挑选最佳剪辑。首先,我们需要一个具体且简单的故事框架。
Kate特别喜欢Minecraft,因此我们决定让她扮演游戏中的像素角色,在一片翠绿的虚拟世界探险。故事板使用了Flux Kontext这款强大的图像编辑模型,它不仅能保持角色一致性,还能智能调整形象,使角色逐渐变成像素化的Minecraft风格。借助简洁的文本提示将画面一步步勾勒出来,例如让角色站在绿茵茵的Minecraft背景中,手轻搭像素村民的头顶,逐步构建故事视觉。由于目前Flux Kontext尚未开源,只能通过付费API访问,这部分成本相当合理(制作剧本板费用约3欧,不过体验极佳)。故事分镜的设计远比想象中快速而富有成效,这为后续视频生成工作奠定了坚实基础。 构建生成视频工作流程在完成故事板后,接下来便是搭建ComfyUI的生成工作流程,以使得视频能够循着故事板的脉络流畅播放。
我选择了wan基础模型中名为FLF2V-14B的版本,它可以同时接受首帧、末帧和文本描述作为输入,从而形成跨越画面的动态视频。然而万视频生成速度一直是最大挑战之一。我尝试引入Self Forcing技术加速流程,这是来自Adobe Research的一种提速机制,据称能够使速度提升约5倍。在调试的过程中发现,Self Forcing与FLF2V-14B并不兼容,启用后生成指令失效,甚至翻译成中文提示也无效。事后反思,若能提前切换到支持Self Forcing的I2V-14B和VACE模型组合,整体效率将更卓越。另一重要环节是如何将两个关键帧描述转化为中间动作的自然流动。
我采用了由David Snow提出的方法,先用Florence模型描述首尾图像内容,再由语言模型(LLM)基于这两组描述生成中间动作的文本提示。通过多次预览以及微调文本,最终得到动态且丰富的视觉表达。在对比多种LLM后,我选择了DeepSeek R1-Distill-Llama-70B,因为它在质量与速度之间达到了良好平衡。 创作中的奇妙发现以及挑战在动画制作中,AI创意往往超出预期。比如视频中的老虎头突然变成扑克牌,简单动作中却暗含了丰富想象力。角色与龙互动时的细腻表情令人忍俊不禁。
由于生成过程中的“幻觉”,曾出现老虎失去翅膀的情况,但故事板中设定他应有翅膀。团队巧妙地处理了这一偏差,通过动画中引入一只鸟飞来并逐渐变形成翅膀,实现了视觉合理性。这也体现了AI生成视频项目中,人工修正与想象力补全的重要性。 总结与展望通过这次亲子项目,我认识到Self Forcing技术确实开放了视频生成全新速度纬度,极大降低了试错时间。选择合适模型组合与对LLM提示的优化,同样影响着作品质感与制作效率。虽然结果仍不算十分精致,但相比数年前动辄动辄数万元制作费用和漫长周期,短时间内以极低成本产出的动画令人惊叹。
未来,我期待万视频生态进一步完善,尤其希望Flux Kontext代码能早日开源,为更多爱好者带来创造力工具。随着AI技术的持续进步,我们或许会看到更多家庭成员、尤其是孩子们利用简单易用的工具,实现个性化、多样化的艺术表达。这种亲子共同创作,不仅能培养孩子想象力和技术素养,也能激发对未来数字世界的深入理解。总之,AI动画制作不仅是技术挑战,更是教育艺术与亲情纽带的桥梁。未来还将有更多探索值得期待。