在人工智能和神经科学领域,自主行为的研究一直以来都是核心挑战之一。动物的自主性不仅体现了适应环境的智慧,还昭示了复杂大脑机制的奇妙运作。近期,研究团队提出了一种创新的方法,将自主行为与斑马鱼大脑的全动态联系起来,通过具身斑马鱼智能体推动了对动物智能本质的深刻理解。自主性,是动物智能的重要标志,能够使动物在复杂多变的环境中无需外部奖励或固定任务结构,自发展现出适应性行为。然而,在强化学习领域,尤其是在稀疏奖励和无奖励环境中,传统方法在探索行为的持续性和一致性方面表现不佳,远远不能重现动物所表现出的自然自主性。现有的内在动机(intrinsic motivation)方法通过各种策略激发智能体的探索欲望,但这些方法多半缺乏稳定性,导致智能体的探索模式混乱、不规则,难以形成有意义或自然的行为序列。
此外,在神经科学领域,对于自主性的关注度也相对不足。传统实验主要依赖外部奖励驱动动物行为,而对自然、无任务约束的自由行为的神经基础研究显得浅尝辄止。这种研究框架限制了我们理解大脑如何在真实环境下生成自主动作的重要视角。针对上述挑战,研究团队提出了一种名为3M-Progress的基于模型的内在驱动力。该方法的核心理念在于追踪智能体当前对世界的模型与一种先验的动物行为学模型之间的偏差,通过持续减少这种偏差,推动智能体展现出符合自然规律的探索和行为。3M-Progress不追求简单的奖励最大化,而是强调与生物行为学知识高度一致的探索过程,从而催生出更加真实和稳定的自主行为表征。
研究中,团队通过构建具身斑马鱼智能体,将3M-Progress应用于其决策过程和环境交互,成功再现了实验室中观察到的斑马鱼自主行为模式。更令人振奋的是,这些人工智能体的行为不仅仅停留在动作层面,他们在模拟中还捕捉到了斑马鱼脑神经和胶质细胞的群体动态,呈现出与真实生物大脑活动高度匹配的特征。这标志着首次实现了以目标驱动为核心的神经-胶质计算群体模型,连接了个体行为和大脑整体动力学。该研究的重要意义不仅在于复制动物行为,更在于提出了人工智能设计的新范式。传统强化学习强调外部奖励指导学习,而3M-Progress通过引入具有生物学基础的世界模型差异驱动力,引导智能体形成更加自然、连贯的行为发展轨迹,同时具备解释性强的神经层面对应。此发现为未来开发类动物自主智能体开辟了方向,使得人工系统能够更好地模拟和理解生物大脑的运行机制。
这种跨学科的融合创新,在人工智能、神经科学和机器人学等多个领域均有深远影响。除了基础科学价值外,应用层面潜力巨大。从自动导航无人机到柔性机器人助手,再到虚拟环境中的智能角色,实现类似斑马鱼那样的自然自主探索能力,有助于提高系统的适应性和鲁棒性,带来更优的用户体验和效率。总而言之,通过3M-Progress模型的引入与具身斑马鱼智能体的构建,研究开创了联结动物行为学、神经系统动态与人工智能自主性的颠覆性路径。这不仅深化了我们对动物智能本质的认知,也为未来设计具备内在驱动力的智能体提供了坚实理论基础。随着技术和理论进一步发展,具身智能体模拟真实生物大脑全流程的梦想正在逐步变为现实,推动科学和工程迎来全新的智能时代。
。