类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全	区块链技术去中心化金融 (DeFi) 新闻山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

类别
NFT 和数字艺术元宇宙与虚拟现实加密交易所新闻加密初创公司与风险投资加密市场分析加密活动与会议	加密税务与合规加密货币的机构采用加密钱包与支付解决方案加密骗局与安全区块链技术去中心化金融 (DeFi) 新闻	山寨币更新投资策略与投资组合管理挖矿与质押比特币监管和法律更新稳定币与中央银行数字货币	行业领袖访谈首次代币发行 (ICO) 和代币销售

页面
主页关于条款	搜索

请捐款 BTC

2026年02月01号 19点16分32秒

TinyWorlds:从零开始重塑DeepMind Genie 3世界模型的创新之路

首次代币发行 (ICO) 和代币销售加密初创公司与风险投资

钱财 qian.cx

探讨TinyWorlds项目如何基于DeepMind的Genie架构,从零实现一个极简的自回归世界模型。详细解析其架构设计、核心技术及应用前景,为机器学习与视频预测领域带来新的视角。

随着人工智能领域的不断发展,世界模型(World Models)逐渐成为研究热点。世界模型本质上是一种能够理解和预测环境状态演变规律的函数,它不仅压缩了现实的数据,还捕捉了世界的内在结构与动态法则。TinyWorlds项目正是基于这一理念,致力于帮助研究者深入理解并实现高效的世界模型。作为对DeepMind旗下Genie架构的重新实现,TinyWorlds从零出发,引入自回归Transformer技术和一系列创新模块,为视频游戏环境中的场景预测提供了极具竞争力的解决方案。世界模型作为AI理解和操纵环境的核心技术,已在机器人物理世界感知、在线物理仿真器以及交互式虚拟现实体验等多方面展现出巨大潜力。然而,大多数传统方法依赖动作标签或有监督数据,限制了它们的扩展能力。

DeepMind的Genie架构巧妙地通过无监督方式推断动作,解决了这一本质障碍。TinyWorlds在此基础上进行了简约而深入的再创作,旨在让更多研究者能够理解并应用这一技术路线。TinyWorlds的整体架构围绕将连续视频数据转化为一组离散令牌,利用强大的自回归Transformer进行序列建模,并通过推断动作令牌来实现对环境状态的动态预测。这种方法的关键优势在于,将近乎无限的图像像素空间转换为有限的离散符号集,极大简化了后续预测问题,把视频预测变成了序列符号的选择问题,从而提升了模型的表达效率和预测准确度。在具体实现上,TinyWorlds包含三个核心模块:视频令牌器、动作令牌器以及动力学模型。视频令牌器基于有限标量量化(Finite Scalar Quantization,FSQ)的变分自编码器(VAE),将视频帧压缩成离散的令牌表示。

它借助像素混合2D卷积和空间-时间Transformer架构提取丰富时空信息,捕捉各帧内及帧间的复杂空间关系,进而高效提取压缩表达。动作令牌器同样采用基于FSQ的VAE结构,突破传统监督限制,无需动作标签,能够自动学习两个连续帧之间代表"动作"的离散令牌。通过输入连续帧序列编码潜在动作,解码器则基于过去帧序列和动作令牌重建当前帧,实现动作的无监督推断。该模块设计中的关键是施加遮挡和方差正则化措施,避免解码器仅凭图像本身恢复结果,强制学习利用动作信息,从而保证推断出的动作令牌语义丰富且稳定。在动力学模型方面,TinyWorlds引入空间-时间Transformer(Space-Time Transformer,STT),结合空间自注意与时序自注意机制,模拟环境状态随时间推移的演化。针对动作条件的变异需求,模型采用特征线性调制(FiLM)对动作潜变量进行调节,改进时空特征的归一化过程,使模型对动作输入产生灵敏响应。

同时动态模型借鉴BERT和MaskGIT的掩码策略,通过随机掩码视频令牌训练模型在受限信息条件下精准恢复未来状态,提升对未来帧的预测能力。TinyWorlds系统的推理过程亦体现高效设计。初始状态视频经过令牌化后,用户可指定动作令牌影响后续预测,模型基于当前与历史帧和动作令牌预测未来视频令牌,最后将令牌解码成连续帧展示。该循环过程可实现多步并行预测,兼顾实时性和质量。其数据集涵盖多款经典游戏如Sonic、Zelda、Pong、PicoDoom等,通过下载整理成高效.h5格式,为训练提供多样化、可控的环境样本。训练过程支持PyTorch的多项高效加速特性,包括Torch Compile、分布式训练、自动混合精度和TensorFloat32优化,保证了训练的规模化与速度。

TinyWorlds不仅仅是对Genie的复刻,更是对世界模型设计理念的系统整理和技术细化。其开源代码结构清晰、模块简洁,极具学习价值;同时为社区贡献了容易上手的实验平台,促进更多创新研究。TinyWorlds所采用的有限标量量化技术有效解决了变分自编码器中连续潜变量离散化难题,使得学习得到的离散符号具有结构化的语义表示,增强了后续动作推断和动力学预测的准确性。此外,空间-时间Transformer的设计巧妙融合了空间内与时间上的注意力机制,既保证帧内空间特征的细腻捕获,也保证时序变化的连贯建模,对游戏中动态物理规律的模拟尤为关键。Hybrid尺度上的自回归建模思路则借鉴了自然语言处理领域的最新进展,推动了将大型语言模型技术应用于视频动态建模的边界。未来TinyWorlds项目仍有广阔提升空间。

诸如专家混合模型(MoE)、更多样化的位置信息编码、优化的MaskGIT调度策略及更强大的分布式训练机制都列入尝试规划,有望进一步提升模型性能与扩展性。丰富更多游戏环境的数据输入,也将增强模型泛化能力和实际应用潜力。TinyWorlds的远景意义在于推动AI理解和模拟复杂环境的能力,从而推动机器人自主决策、虚拟生成内容以及智能仿真研究的进步。其开源特性和极简设计降低了研究门槛,为学术界和工业界提供了优秀的实验平台。通过对Genie架构的再实现,TinyWorlds呈现了将深度学习、图像处理和序列模型融合的创新范式,为世界模型的普及和升级提供了鲜活案例。整体而言,TinyWorlds是人工智能领域中世界模型研究的重要里程碑。

它不仅复现了DeepMind Genie的核心技术,还以简洁、高效的代码实现促进了社区共享与协作。依托Transformer和变分自编码器的先进方法,结合有限标量量化带来的离散表达,TinyWorlds帮助科研人员更好地理解环境建模的本质,加速智能系统对未来状态的准确预测。伴随着训练加速和大规模训练框架的完善,TinyWorlds有望在开放世界游戏、机器人控制、智能仿真等多领域发挥巨大应用价值。对于致力于世界模型研发的科研人员与工程师,深入研究并参与TinyWorlds项目将收获丰富技术洞察和实践经验,助力突破当前AI智能建模的瓶颈,实现面向复杂动态环境的自主智能。。

下一步

2026年02月01号 19点17分16秒探索Steady.page:欧盟本土的Substack替代方案

在内容创作者日益增长的需求中,寻找一个安全、可信且合规的创作平台显得尤为重要。Steady.page作为欧洲本土的内容订阅和会员平台,为创作者提供了一个符合欧盟法规、尊重用户隐私并且功能强大的替代方案。本文深入剖析其特点、优势及未来发展潜力。

2026年02月01号 19点23分05秒广泛测序研究揭示癌症与微生物组关联有限的真相

通过最新的广泛测序研究,科学家们发现癌症与人体微生物组之间的相关性较少,这一发现为癌症病因学和治疗策略带来了新的视角。该研究不仅挑战了以往对微生物与癌症关系的认知,也为未来癌症研究指明了更精确的方向。

2026年02月01号 19点23分43秒 XYplorer 28.00:首个官方64位版本,采用twinBASIC取代VB6引擎重塑文件管理体验

深入解析XYplorer 28.00首次发布的64位版本,介绍其采用twinBASIC核心的技术创新、功能升级,以及对Windows文件管理带来的优化和影响。探讨新版在性能、安全性、兼容性和用户体验上的显著提升,助力用户高效掌控文件管理。

2026年02月01号 19点24分14秒 GraphMend:革新PyTorch 2图断裂修复的代码转换技术

GraphMend通过高层次的代码转换技术解决PyTorch 2中断裂图的问题,提升模型执行效率和开发体验,推动深度学习框架向更智能、更高效方向发展。深入探讨GraphMend的设计理念、技术实现及其在真实模型中的表现,揭示其带来的显著性能提升与优化潜力。

2026年02月01号 19点24分58秒深入解析Double Dabble算法:二进制转BCD的高效秘诀

本文深入探讨Double Dabble算法的原理和应用,揭示其如何高效实现二进制数转换为BCD(Binary Coded Decimal)表示,助力理解数字表示与进制转换的核心机制。

2026年02月01号 19点25分32秒 Cloudflare发布'NET Dollar'稳定币,推动AI智能经济新时代

Cloudflare推出名为'NET Dollar'的美元背书稳定币,旨在为AI智能代理和基于人工智能的交易提供安全便捷的支付手段,进一步推动互联网金融创新与AI经济的发展。

2026年02月01号 19点26分55秒 65岁退休:75万美元罗斯IRA与每月1800美元社保能否撑起安稳晚年生活?

探讨在拥有75万美元罗斯IRA账户与每月1800美元社会保障收入的情况下,65岁退休的可行性与挑战,分析如何规划资产投资、风险管理和收入安排以实现舒适且可持续的退休生活。