机器人技术正处于飞速发展的阶段,随着制造工艺的进步和材料科学的不断创新,越来越多灵活且多样化的机器人形态涌现。相比传统刚性机器人,软体机器人和生物启发式机器人以其独特的柔性结构和复杂的互联机制,展现出适应变化复杂环境的优势。然而,这类机器人由于材料的高非线性、不可预测的动态行为以及缺乏内置传感器,带来了建模和控制上的巨大挑战。传统机器人依赖精确的刚体模型及高精度传感器数据,而软体机器人模型的求解需面对高维非线性偏微分方程,这使得实时控制几乎不可能。面对这一制约,科学家们亟需一种通用且高效的控制策略,既能适配不同结构与材质的机器人,又能利用廉价且易部署的感知手段完成复杂操作。近期,马萨诸塞理工学院团队提出了一种基于深度神经网络的方法,利用视觉输入推断机器人在三维空间的雅可比场(Jacobian field),实现了多种异构机器人从单一视频摄像头数据中进行精准闭环控制的突破性进展。
雅可比矩阵作为描述机械臂等机器人系统关节变化与末端执行器运动关系的核心工具,传统方法多依赖于明确的刚体运动学和传感器反馈。该研究创新地提出将雅可比场视作一个空间上的函数场,深度网络能够从单张二维图像中直接推断每个空间点对各执行器信号的敏感度,实现密集而细粒度的机械运动预测。这种方法没有对机器人的材料、传动方式或内嵌传感传感器做出任何假设,且训练过程全自监督,仅需观测随机动作执行时的多视角视频,无需专家人工标注。通过融合神经辐射场(Neural Radiance Fields, NeRF)技术,该方法同时重建机器人的三维结构与动态运动学特征,极大提升了对复杂软体和混合刚柔材料机器人的识别与重构能力。训练阶段采用12台消费者级RGB-D摄像机收集机器人在不同随机动作下的多角度视频数据,利用光流和点追踪技术提取运动信息。深度学习模型在单视角输入条件下准确还原机器人三维空间结构,并预测机器人在给定执行器指令下复杂三维运动。
其核心优势是雅可比场的空间密集描述形式,天然体现机器人运动的线性、空间局部性与可组合性,令模型具备更强的泛化能力,可应对测试时未见过的机器人配置及执行器信号。该框架所推出的闭环控制模块,通过优化算法实时寻找最适合目标运动轨迹的执行器动作指令,整个控制周期约为十二帧每秒,满足互动式操作需求。系统不仅支持基于二维图像空间轨迹的模仿学习,还可将二维轨迹映射至三维世界,实现跨视角示范迁移,进一步扩展应用场景。在多样实验平台中均取得了令人瞩目的成果,包括耗材成本约300美元的3D打印混合软刚气动手、具有复杂张力机构的柔软辅助装置、16自由度的商业级Allegro机械手以及具有关节反向间隙问题的DIY低成本机械臂等。对Allegro机械手的控制误差低于每个关节3度,末端执行器定位误差低于4毫米,足以满足工业及研究级别的高精度操作需求。对于柔性辅助装置,系统能够在动态负载及视觉遮挡环境中保持鲁棒控制,有效响应370克外加重物带来的结构变形和动力学扰动。
对于低成本Poppy机械臂,系统成功完成字母空中绘制任务,尽管软材与机械公差带来的不确定性极高,依旧保持空间误差在6毫米以内。训练所需数据完全自监督生成,显著降低了机器人控制模型开发的人力与时间成本,为软体及混合型机器人实用化提供了技术可能。研究还揭示,该视觉推断方式对遮挡和场景变化展现出较强的适应力,结合基于神经网络的三维重建与优化控制算法,克服了传统视觉伺服系统对高精度环境控制和专用传感器的依赖。未来发展方向包括将触觉等多模态传感信息纳入模型,拓展对动态快速运动的建模能力,以及降低训练对多视角数据的需求,进一步提升系统的便捷部署性。整体来看,这项基于雅可比场推断的深度视觉控制框架极大地拓宽了机器人硬件设计的自由度,打破了对精密机械和高成本传感器的制约,推动了软体机器人及低成本机器人自动化水平的跨越式提升。对比使用传统的刚体模型与昂贵传感器的机器人控制方案,该方法展示出更好的泛化性和鲁棒性,同时具备更佳的成本效益。
随着未来该技术的成熟与普及,我们有望见证具备更灵活身体结构、丰富材料选择的生物启发机器人逐步走向工业及民用领域,助力智能制造、医疗康复、服务机器人等行业转型升级。总体而言,推断雅可比场的深度神经网络方法代表了一条创新而具有广泛应用前景的机器人感知控制路径,以单摄像头视觉为核心传感输入,结合神经隐式场的强大表达能力,实现了软体、混合刚柔及传统刚性机器人控制的统一框架,其深远的技术价值和产业潜力正在引领机器人学迈入一个多样化软硬件共融的新纪元。