加密交易所新闻 首次代币发行 (ICO) 和代币销售

与七岁女儿共创1分钟AI动画:探索人工智能视频生成的奇妙旅程

加密交易所新闻 首次代币发行 (ICO) 和代币销售
Experience Making a 1-minute AI movie with my 7-year old daughter

通过与七岁女儿合作创作一部仅有一分钟时长的AI动画,深入揭秘使用当前先进生成式AI技术制作动画的全过程,分享选用工具、构思故事、工作流程搭建到最终渲染的详细经验,为喜欢家庭亲子项目和AI影视制作的读者带来实用启发。

随着人工智能技术飞速发展,越来越多的创意工作开始借助生成式AI工具完成。作为一名教授和AI热爱者,我将这股浪潮与家庭生活结合,和我七岁的女儿Kate一同展开了一场别开生面的创作旅程。我们的目标,是利用多款领先的AI生成工具,在仅凭Kate一张戴虎面具、身穿粉色浴衣的照片基础上,共同制作一部1分钟的动画短片。这次经历不仅令我们玩得开心,更让我切身感受到生成式视频AI的巨大潜力与挑战,同时积累了宝贵的实践经验,希冀能为同行或家长提供参考。 创作背景在开始之前,我对生成式AI视频技术已有一定了解,并保持关注这些工具的更新迭代。六个月前,我曾尝试过腾讯的鸿远视频,那个时候它被称作技术突破的代表。

但AI发展速度之快超乎想象,目前开放权重社区普遍认同阿里巴巴推出的万视频体系作为更强大的替代方案。万视频不仅拥有包括文本转视频、图像转视频、首末帧到视频等多种基础模型,还有各种开源扩展和训练的LORA(低秩适配器)模块。诸如VACE这样的强控件允许用户精细控制生成内容,CausVid以及更加快速的SelfForcing技术有效提升了生成速度,整个万视频生态为创作者提供了丰富工具。“玩”起AI来,不仅能体验技术革新,也能和家人共享创作乐趣。 故事策划与分镜设计整个项目花费了大约20个小时,其中包括1小时的剧本构思、4小时搭建工作流程、15小时的渲染,以及1小时从众多版本中挑选最佳剪辑。首先,我们需要一个具体且简单的故事框架。

Kate特别喜欢Minecraft,因此我们决定让她扮演游戏中的像素角色,在一片翠绿的虚拟世界探险。故事板使用了Flux Kontext这款强大的图像编辑模型,它不仅能保持角色一致性,还能智能调整形象,使角色逐渐变成像素化的Minecraft风格。借助简洁的文本提示将画面一步步勾勒出来,例如让角色站在绿茵茵的Minecraft背景中,手轻搭像素村民的头顶,逐步构建故事视觉。由于目前Flux Kontext尚未开源,只能通过付费API访问,这部分成本相当合理(制作剧本板费用约3欧,不过体验极佳)。故事分镜的设计远比想象中快速而富有成效,这为后续视频生成工作奠定了坚实基础。 构建生成视频工作流程在完成故事板后,接下来便是搭建ComfyUI的生成工作流程,以使得视频能够循着故事板的脉络流畅播放。

我选择了wan基础模型中名为FLF2V-14B的版本,它可以同时接受首帧、末帧和文本描述作为输入,从而形成跨越画面的动态视频。然而万视频生成速度一直是最大挑战之一。我尝试引入Self Forcing技术加速流程,这是来自Adobe Research的一种提速机制,据称能够使速度提升约5倍。在调试的过程中发现,Self Forcing与FLF2V-14B并不兼容,启用后生成指令失效,甚至翻译成中文提示也无效。事后反思,若能提前切换到支持Self Forcing的I2V-14B和VACE模型组合,整体效率将更卓越。另一重要环节是如何将两个关键帧描述转化为中间动作的自然流动。

我采用了由David Snow提出的方法,先用Florence模型描述首尾图像内容,再由语言模型(LLM)基于这两组描述生成中间动作的文本提示。通过多次预览以及微调文本,最终得到动态且丰富的视觉表达。在对比多种LLM后,我选择了DeepSeek R1-Distill-Llama-70B,因为它在质量与速度之间达到了良好平衡。 创作中的奇妙发现以及挑战在动画制作中,AI创意往往超出预期。比如视频中的老虎头突然变成扑克牌,简单动作中却暗含了丰富想象力。角色与龙互动时的细腻表情令人忍俊不禁。

由于生成过程中的“幻觉”,曾出现老虎失去翅膀的情况,但故事板中设定他应有翅膀。团队巧妙地处理了这一偏差,通过动画中引入一只鸟飞来并逐渐变形成翅膀,实现了视觉合理性。这也体现了AI生成视频项目中,人工修正与想象力补全的重要性。 总结与展望通过这次亲子项目,我认识到Self Forcing技术确实开放了视频生成全新速度纬度,极大降低了试错时间。选择合适模型组合与对LLM提示的优化,同样影响着作品质感与制作效率。虽然结果仍不算十分精致,但相比数年前动辄动辄数万元制作费用和漫长周期,短时间内以极低成本产出的动画令人惊叹。

未来,我期待万视频生态进一步完善,尤其希望Flux Kontext代码能早日开源,为更多爱好者带来创造力工具。随着AI技术的持续进步,我们或许会看到更多家庭成员、尤其是孩子们利用简单易用的工具,实现个性化、多样化的艺术表达。这种亲子共同创作,不仅能培养孩子想象力和技术素养,也能激发对未来数字世界的深入理解。总之,AI动画制作不仅是技术挑战,更是教育艺术与亲情纽带的桥梁。未来还将有更多探索值得期待。

加密货币交易所的自动交易 以最优惠的价格买卖您的加密货币 Privatejetfinder.com

下一步
Mary Queen of Scots' scheming revealed in decoded letters
2025年09月22号 19点29分00秒 破译玛丽·苏格兰女王囚中密信:揭开伊丽莎白时代宫廷阴谋真相

通过最新解密的玛丽·苏格兰女王在囚禁时期的隐秘信件,展现她作为政治谋士在伊丽莎白一世宫廷中精心策划的复杂阴谋,揭示这一段历史的新视角和深刻意义。

Disabling Intel Graphics Security Mitigations Can Boost GPU Compute Performance
2025年09月22号 19点30分08秒 禁用英特尔显卡安全缓解措施 助力GPU计算性能提升20%

英特尔显卡安全缓解措施虽保障了系统安全,但也造成了GPU计算性能的显著损失。通过禁用这些缓解措施,用户可以显著提升GPU计算效率,同时业界领先的Linux发行版Ubuntu也即将推出相关优化,带来更流畅高效的图形计算体验。

Paragraph Flowing as a Fold
2025年09月22号 19点31分08秒 探索折叠函数在段落排版中的创新应用

介绍利用折叠函数改进段落排版算法的方法,揭示其相较于传统贪心算法的优势,以及具体实现思路与算法性能分析,适合对文本排版和函数式编程感兴趣的读者。

AI, data centers and the coming US power demand surge [pdf]
2025年09月22号 19点31分52秒 人工智能与数据中心推动美国电力需求剧增的未来趋势

探讨人工智能技术和高速发展的数据中心如何影响美国电力需求,分析能源行业面临的挑战与机遇,深入剖析可持续发展与技术进步的协调路径。

Evaluating LLMs for Visualization Tasks
2025年09月22号 19点32分36秒 大型语言模型在数据可视化任务中的应用与评估

探讨大型语言模型(LLMs)在生成数据可视化代码及理解常见可视化图表方面的能力与局限,分析其对信息可视化领域的影响及未来发展方向。

Writing Toy Software Is a Joy
2025年09月22号 19点33分52秒 玩转编程乐趣:为何编写趣味软件是每位开发者的必修课

探索编写趣味软件带来的乐趣与成长,揭示其如何帮助开发者深入理解计算机科学,激发创新思维,并在现代软件开发行业中保持竞争力。

 Price predictions 6/25: BTC, ETH, XRP, BNB, SOL, DOGE, ADA, HYPE, BCH, SUI
2025年09月22号 19点35分16秒 2025年6月25日加密货币价格预测:BTC、ETH、XRP、BNB、SOL、DOGE、ADA、HYPE、BCH与SUI全面分析

深入解析2025年6月25日主要加密货币的市场表现与未来价格走势,包括比特币、以太坊、瑞波币、币安币、索拉纳、多吉币、艾达币、Hyperliquid、比特币现金及Sui,揭示当前市场背后的驱动因素与投资机会。