长江证券:Figure AI发布Helix模型推动人形机器人智能化升级

Connor 币安Binance 2025-02-24 52 0

财中社2月24日电长江证券发布机械行业研报称,Helix模型实现了多项首次创新。它是第一款实现对整个人形上半身(包括手腕、躯干、头部和单个手指)进行高速率连续控制的VLA,能够以200Hz的频率协调35个自由度的动作空间,并实现了同时在两个机器人上运行,使它们能够解决共享的、远程操作任务。配备Helix的Figure机器人现在只需遵循自然语言提示,便可拿起几乎任何小型家用物品,包括它们以前从未遇到过的物品。在视频中,当被要求捡起“沙漠物品”时,Helix能够准确识别出仙人掌玩具,并精准完成指令任务。Helix使用一组神经网络权重来学习所有行为,包括挑选和放置物品、使用抽屉和冰箱、跨机器人交互,无需针对任何特定任务微调。而且Helix是首个完全在嵌入式低功耗GPU上运行的VLA,可立即用于商业部署。

Helix模型能够大幅提升机器人学习速度。家庭是机器人面临的重要挑战,与工业环境不同,家庭中通常物品较多,且每个物品的形状、大小、颜色难以预测,家庭机器人需要能够像人一样推理并处理家庭物品。目前教学机器人需要投入大量人力,传统方法需要数小时博士级专家手动编程,或者进行数千次演示,两种方法成本都过于昂贵。Helix模型能够将视觉语言模型(VLM)中捕获的丰富语义知识直接转化为机器人动作,这项新功能将从根本上改变机器人技术的扩展轨迹,曾经需要数百次演示的新技能,现在只需用自然语言与机器人交谈就可以立即获得。在系统测试中,Figure机器人成功地处理了数千件杂乱无章的新物品,从玻璃器皿和玩具到工具和衣服,而无需任何事先演示或定制编程。

Helix是首个由“系统1,系统2”组成的VLA,可以实现人形机器人上半身的高速精确控制。以前的VLM主干网络具有通用性但速度不快,机器人视觉运动策略速度快但缺乏通用性。而Helix通过两个系统解决了这个难题,两个系统经过端到端训练并可以相互通信。系统2(S2)是VLM主干网络,经过互联网数据预训练,以7-9Hz的频率运行,用于场景理解和语言理解,系统1(S1)是快速反应的视觉运动策略,将S2产生的潜在语义转化为连续精确机器人动作。这种解耦架构允许每个系统在其最佳时间尺度上运行,S2可以“慢慢思考”高层次目标,而S1可以“快速思考”来实时执行和调整行动。与现有方法相比,Helix具备多个优势:1)匹配专门的单任务行为克隆策略的速度,同时对数千个新测试对象实现零样本学习。2)可以直接输出高维动作空间的连续控制。3)使用标准架构,架构简单。4)分别迭代S1、S2系统,无需寻找统一的观察空间或动作。

Helix的发布反映出Figure在拓展家庭人形机器人行为能力方面取得了较快进展。当下海内外机器人主机厂持续进行研发工作,推进海内外共振,同时零部件企业也在持续推出性能更好的零部件,提升生产效率并推动降本,长江证券认为未来人形机器人的智能化发展有望提速,持续看好人形机器人产业发展大趋势。

评论