一、研究背景与核心挑战

人形机器人被视为实现通用人工智能(AGI)的关键载体,其核心目标是通过类人的形态完成复杂的长时程任务(如制作咖啡、整理物品)。然而,现有研究面临两大瓶颈:

  1. 高层认知与低层执行的割裂

    • 基础模型(FM)的局限性:GPT-4等模型虽能生成语言计划,但对物理环境的3D空间理解不足,且推理延迟高(秒级),难以实时调整机器人的动作。
    • 双足运动的动态不稳定性:人形机器人的步态控制易受地面摩擦、重心偏移等因素干扰,导致导航终止位姿偏离预期,影响后续操作。
  2. 技能协调的效率问题

    • 传统方法通过单一策略联合控制移动与操作(如全身控制),但需大量仿真训练且难以泛化到真实场景。
    • 模块化技能库虽能解耦移动与操作,但缺乏动态协调机制,导致任务成功率低。

二、Being-0框架设计

1. 层次化架构

Being-0架构图

(图示:Being-0由基础模型、Connector模块和技能库构成,分层部署于云端与本地设备。)

  • 顶层(云端)

    • 基础模型(GPT-4o):负责任务分解与语义推理。
      • 输入:自然语言指令(如“制作咖啡”)、双目RGB图像。
      • 输出:分步计划(如“找到杯子→移动到咖啡机→放置杯子”)。
    • 功能:通过多轮对话与自省(Self-Reflection)动态修正计划。
  • 中间层(本地)

    • Connector模块:轻量级视觉语言模型(VideoLLaMA2微调)。
      • 输入:FM生成的计划、实时图像、本体感知数据(关节角度、IMU信息)。
      • 功能
        1. 场景理解:检测目标物体(如杯子、咖啡机)的3D位置与姿态。
        2. 技能翻译:将FM的抽象指令转化为可执行技能(如move_towards(table))。
        3. 动态协调:在导航终止时调整机器人位姿(如绕弧形路径接近桌子),确保操作成功率。
  • 底层(本地)

    • 模块化技能库
      • 移动技能:基于强化学习的步态控制策略,支持9种动作(前进、侧移、转向等),控制频率50Hz。
      • 操作技能:通过VisionPro遥操作采集数据,训练ACT策略完成抓取、放置等任务,控制频率10Hz。

2. 关键技术突破
(1) Connector模块的视觉语言模型
  • 训练数据

    • 3,177张标注图像:覆盖室内场景的目标检测框(如桌子、咖啡机)、语言描述(如“杯子在桌子右侧”)、技能标签(如grasp_cup)。
    • 多任务学习:联合优化目标检测、图像描述、技能预测任务,提升模型对空间关系的理解。
  • 实时推理优化

    • 模型压缩:使用知识蒸馏技术,将VideoLLaMA2参数量从7B压缩至1B,在Jetson AGX上实现1秒内推理。
    • 主动视觉控制:通过颈部电机动态调整相机俯仰角,扩大视野范围(实验显示固定视角成功率仅50%,主动视觉达100%)。
(2) 技能库构建
  • 移动技能训练

    • 仿真环境:使用Isaac Gym模拟不平坦地面、外部扰动(如侧向推力)。
    • 奖励函数:平衡移动速度、能量消耗、姿态稳定性,通过PPO算法训练策略。
  • 操作技能采集

    • 遥操作数据:通过VisionPro头显采集人类操作轨迹,映射到机器人灵巧手(20自由度)。
    • 数据增强:加入随机裁剪、颜色扰动,提升策略对光照变化的鲁棒性。

三、实验与性能评估

1. 实验设置
  • 硬件平台:Unitree H1-2人形机器人(41自由度) + Inspire灵巧手 + ZED-mini双目相机。
  • 测试场景:20m×20m办公环境,包含走廊、会议室、咖啡机等复杂布局。
  • 任务类型
    • 短时程:单一技能测试(如抓取杯子)。
    • 长时程:多技能串联任务(如“制作咖啡”需导航、抓取、放置、按钮操作等)。
2. 核心结果
任务无Connector成功率Being-0成功率效率提升
抓取杯子(Fetch-bottle)0%90%4.2×
递送咖啡(Deliver-coffee)33%87%3.1×
制作咖啡(Make-coffee)90%90%-
  • 关键结论
    • Connector的位姿调整:在抓取任务中,通过绕弧形路径接近桌子,成功率从20%提升至80%。
    • 主动视觉的价值:在跨房间导航任务中,动态调整视角使目标发现速度提升2倍。
3. 消融实验
  • 导航终止位姿的影响

    • 未调整位姿时,抓取失败率高达60%(因机器人距离目标过远或角度偏差)。
    • Connector的位姿优化使抓取成功率稳定在80%以上。
  • FM与VLM的协同作用

    • 仅依赖FM的任务完成率低于40%,因空间推理错误频发。
    • Connector修正了FM 62%的错误指令(如将“向左转”改为“向右转30度”)。

四、创新点与行业影响

1. 核心创新
  • 分层决策框架:首次实现基础模型与嵌入式设备的协同,平衡认知能力与实时性。
  • 轻量化视觉语言模型:通过多任务训练与知识蒸馏,将VLM推理效率提升至实用水平。
  • 动态技能协调机制:解决双足机器人特有的导航-操作衔接问题。
2. 应用场景
  • 家庭服务:整理物品、递送饮料。
  • 工业巡检:在复杂工厂环境中操作设备。
  • 灾难救援:在非结构化地形中执行搜救任务。
3. 开源与可扩展性
  • 代码与数据集:计划开源Connector训练代码及1,000条遥操作轨迹。
  • 硬件兼容性:框架支持主流人形机器人平台(如Boston Dynamics Atlas、Tesla Optimus)。

五、局限与未来方向

  1. 当前限制

    • 未支持复杂地形运动(如上下楼梯)。
    • 依赖云端FM,网络延迟可能影响极端环境下的可靠性。
  2. 未来工作

    • 触觉反馈集成:在灵巧手中加入力传感器,提升精细操作能力。
    • 轻量化FM部署:探索微型语言模型(如Phi-3)的嵌入式适配。
    • 多机器人协作:扩展框架以支持群体任务(如联合搬运重物)。

六、总结

Being-0通过创新的分层架构与Connector模块,显著提升了人形机器人在长时程任务中的自主性与效率。其结合基础模型的语义理解与轻量化VLM的实时决策,为通用人形智能体的发展提供了重要技术路径。未来通过硬件升级与算法优化,有望推动人形机器人进入家庭与工业应用的实用化阶段。