近年来,人工智能技术的迅猛发展正在深刻改变我们与数字世界互动的方式。2025年9月,腾讯发布了一个全新的开源AI模型 - - HunyuanWorld-Voyager,该模型能够通过单张图片生成可供用户探索的3D一致性视频序列。与传统的3D建模方法不同,Voyager直接结合RGB视频和深度信息,为生成虚拟场景提供了全新的思路。其突破性的技术不仅丰富了视频制作和3D重建领域的应用场景,同时也引发了业界对于未来互动式虚拟世界演进的热烈讨论。 HunyuanWorld-Voyager的核心优势在于它通过输入图像及用户指定的摄像机轨迹,实现仿佛现实世界中摄像机移动拍摄的效果。用户可自定义摄像机的前后、左右移动及旋转角度,模型随后生成约49帧的连续视频画面,这些画面保持了空间上的一致性和正确的透视关系。
虽然每个视频片段仅持续约两秒,但通过多个片段的串联,用户能够体验到几分钟甚至更长的虚拟空间探索过程。值得注意的是,这些效果是在没有生成真实3D模型的前提下实现的,生成的视频帧配合深度图信息可以被转换为3D点云,为后续三维重构提供有力支持。 技术实现层面,Voyager采用了一种创新的几何反馈机制,使得生成的每一帧视频都基于此前帧的3D点信息进行空间校验和矫正。模型将输出的视频帧转化为3D点云,再将这些点云从新的摄像角度映射回二维图像,用于对当前帧进行参照,确保空间位置、物体关系以及视角变化的合理性。这样的设计使得Voyager可以跨越时间轴保持内容稳定,避免常见AI视频生成过程中的空间错乱和透视失真,大大提升了观看体验的真实感与沉浸感。 尽管表现亮眼,Voyager仍存在一些技术瓶颈。
其中最突出的限制就是难以实现完整的360度全景旋转。一方面,这与Transformer架构本质上的模式复制特点有关,模型只能在训练数据范围内模仿空间变化模式,难以突破训练时未见过的新环境。另一方面,随着视频帧数的累积,微小的匹配误差会逐渐放大,最终导致几何约束无法维持空间一致性,造成画面破碎或跳帧。这意味着目前Voyager更多适用于短时长、有限角度的场景展示,而不足以替代真实3D模型在完全自由漫游中的应用。 从计算资源需求角度来看,Voyager对硬件条件提出了较高门槛。其运行时最低需要60GB显存支持540p分辨率,官方建议使用80GB显存以获得更佳表现。
对于大多数普通用户和开发者来说,这意味着必须投入高性能GPU集群或多GPU并行计算才能顺畅体验,限制了其在普适市场的推广。为缓解这一难题,腾讯引入了基于xDiT框架的多GPU协同推理,利用八块GPU可实现单GPU性能的6.69倍提升,为制作更长视频序列提供了现实可能性。 从训练方法上,Voyager依托腾讯自主开发的自动化数据处理管道,首次实现了大规模视频数据的无人工标注训练。通过分析超过10万段包含真实世界和虚幻引擎场景的视频,模型自主提取摄像机运动轨迹和深度信息,从而极大提高了训练效率与模型泛化能力。与此同时,Voyager是腾讯"昀元"(Hunyuan)AI生态系统的重要组成部分,与其他模型如Hunyuan3D-2和HunyuanVideo协同,致力于推动AI在3D生成和视频合成领域的技术突破。 值得一提的是,Voyager目前在斯坦福大学研发的WorldScore基准测试中表现优异,整体得分为77.62,领先于WonderWorld和CogVideoX-I2V等竞品,特别在物体控制、风格一致性和主观质量方面表现突出,体现了其在空间和视觉连贯性上的技术优势。
不过在摄像机控制评分上稍逊于WonderWorld,反映了其在复杂摄像机路径适应性上的改进空间。 谈及市场应用,Voyager的技术特性使其更适合影视制作、虚拟场景重建以及文化遗产数字化等领域。因为其生成的视频带有深度信息,可以直接转换为3D点云,支持后续精细化建模和场景还原。此外,针对需要长视频和高交互性的游戏和实时虚拟现实环境,目前还难以胜任,这也决定了其短期不会成为游戏行业的主流生产工具。然而,随着AI算力的不断提升和算法的进一步优化,基于类似技术的实时3D世界生成和导航或将成为未来数字媒体的重要突破口。 腾讯的发布策略和许可限制也值得关注。
根据官方声明,Voyager及相关Hunyuan模型的使用范围受到地域和商业规模的严格限制,禁止在欧盟、英国和韩国使用,且针对超过一亿月活用户的商业应用需额外授权。这些规定反映了腾讯对技术输出风险和市场控制的谨慎态度,也在一定程度上影响了其全球化推广速度。 纵观目前市场上类似技术,谷歌的Genie 3和Dynamics Lab的Mirage 2也展示了AI在3D世界生成领域的多样化应用。Genie 3特别强调从文本提示生成可互动的720p分辨率世界,支持实时导航,但尚未公开发布。Mirage 2则着重于浏览器端的用户原创内容生成,方便无技术门槛的虚拟环境创建。相比之下,Voyager更聚焦专业视频制作和三维重建,体现了多家科技巨头在进行技术路径多样化探索。
展望未来,基于单幅图片的3D空间视频生成代表了AI创作在虚拟现实和数字艺术领域的全新形式。尽管现阶段存在诸多技术和资源方面的挑战,这种结合深度学习与几何推理的创新思路为后续突破奠定了坚实基础。随着模型性能提升与硬件负载降低,用户或将在不久的将来享受到更自然流畅的虚拟探索体验,甚至可能颠覆传统影视制作和游戏设计流程,催生属于AI时代的"沉浸式创作"新时代。由腾讯引领的HunyuanWorld-Voyager无疑是迈向这一目标的重要一步,为我们描绘了未来数字世界无限可能的宏伟蓝图。 。