跨数据集开发困难

在最近的大型基础模型的成功中，基于多样化、互联网规模的数据进行训练是一个关键因素。然而，在构建具身智能体（embodied agents）时采用相同的方法却遇到了明显的困难。尽管存在许多众包的具身数据集，但由于不同机器人具有不同的物理具身形态和控制接口，这些数据集的动作空间往往表现出显著的异质性，从而在利用跨域数据开发具身基础模型时带来了巨大挑战。我们这里介绍了UniAct，一个在tokenized的通用动作空间中运行的新型具身基础模型框架。学习的通用动作通过利用不同机器人共有的结构特征，捕捉了它们在不同情境下的通用基本行为，并通过消除臭名昭著的异质性，实现了增强的跨域数据利用和跨具身泛化。通过将特定于具身的细节简单添加进去，这些通用动作就可以高效地转换回异质的可执行指令，从而使得快速适应新机器人变得简单直接。在大量针对各种现实和模拟机器人的评估中，我们UniAct的0.5B实例化模型在性能上超过了比其大14倍的最先进的具身基础模型，展现了卓越的跨具身控制和适应能力，凸显了采用通用动作的关键优势。项目页面：https://github.com/2toinf/UniAct

一些介绍

在自然语言处理和计算机视觉等领域，基于庞大且多样化的数据源训练的基础模型已经取得了显著的成功，并展现出了强大的泛化能力，这凸显了学习通用模型相较于特定任务模型的优势。受这些成功案例的启发，开发能够处理跨任务、跨环境和跨具身泛化的多功能具身基础模型，为构建通用具身智能体提供了一条有前景的道路。然而，具身数据的巨大异质性带来了重大挑战。这种异质性不仅体现在由相机位置（如手腕视角或第三人称视角）和环境条件（如光照或背景变化）差异导致的视觉差异上，更关键的是体现在动作异质性上。1) 具有不同具身形态（如自由度不同或机械臂、四足机器人和汽车之间的区别）的机器人拥有完全不同的动作空间。2) 此外，控制接口（如机械臂的末端执行器（EEF）位置或速度控制器）的多样性导致动作命令具有截然不同的物理含义。3) 即使动作是从同一机器人平台上收集的，但由不同的人类操作者执行时，人类行为的多模态性也会加剧这种异质性。因此，从不同机器人和机构收集的具身动作数据往往在原始物理空间（如末端执行器的位置和旋转）内位于大致不相交的流形上，这极大地增加了跨不同数据源共享数据的复杂性。UniAct采用共享视觉语言模型（VLM）来构建通用行为空间，该空间被设计为一个向量量化codebook。类似于可学习的技能库，每个code封装了一种足够通用的原子行为，可以由不同的机器人执行。这种设置起到了关键的信息瓶颈作用，促使VLM能够识别和利用不同行为空间中共享的原始行为。这种提取方案实现了行为的有效泛化，用于跨具身控制，使得我们的0.5B参数实例化模型UniAct-0.5B在广泛的任务中超越了14倍于其大小的模型，如拥有7B参数的OpenVLA。通过简化的异质解码器，这些推导出的通用行为可以被转换为针对各种具身形式的精确、可执行的命令。这些解码器将通用行为作为条件输入，并根据其独特的观测数据为其增添具身特有的特征。这允许根据特定需求进行灵活定制，例如包含或排除本体感受特征，或改变摄像头视角的数量。通过简单地为新任务添加新的轻量级解码器作为新的头部，可以实现快速适应新领域或机器人平台。在具有挑战性的任务设置上进行了全面的评估，包括大视角变化和训练数据中未出现的机器人，这些评估证实了UniAct的卓越迁移能力，展示了在通用行为空间内开发具身基础模型相较于传统异质空间的巨大优势。

相关工作

多模态基础模型。大型语言模型（LLMs）在各种任务中展现出了卓越的能力，表现出了令人印象深刻的零样本学习和上下文学习能力。在此基础上，通过将视觉和语言整合到统一的标记化空间中，开发出了大型视觉语言模型（VLMs），这些模型展现出了出色的多模态指令遵循能力。它们的成功主要归功于大规模的互联网级预训练，这种训练利用了互联网上庞大且多样化的高质量数据集。具身基础模型。在开发具身基础模型时，训练过程中融入了另一种至关重要的模态——动作（机器人可以解释和执行的可部署控制信号，例如末端执行器（EEF）的位置/速度）。最先进的模型通常构建为视觉语言动作模型（VLA），将视觉和语言输入与可操作的输出相结合。然而，从不同机器人平台和实验室收集的动作标签存在显著的异质性，阻碍了不同来源之间的有效数据共享。为了规避这一挑战，许多工作首先使用大规模无动作信息的视觉语言数据来获得良好的具身VLMs，然后针对来自特定机器人平台的小规模动作标签集，对其进行微调，以生成专门的VLA。虽然这些方法可以提高特定机器人在狭窄任务集上的样本效率，但在构建通用具身智能体方面存在严重的性能瓶颈，因为从任何单一机器人平台收集的动作数据都远远不如全球范围内众包收集的数据全面。近期的一些工作利用丰富的异构动作标签来开发用于跨具身控制的通用机器人策略。RT-X系列、Octo和OpenVLA利用来自不同7自由度（DoF）机器人的数据，以增强相较于仅在单个机器人平台上训练的模型的泛化能力。更进一步，CrossFormer、RDT、π0以及Yang等人的工作探索了使用来自具有完全不同机械结构的机器人（如操作和导航机器人，以及单臂与双臂系统）的数据的潜力。然而，现有工作要么忽略了不同来源动作空间的异构性，粗略地将它们视为等同，而未考虑其固有的冲突；要么天真地将所有动作空间聚合在一起，未能挖掘出不同机器人之间潜在的共享共性。具有潜在动作空间的具身模型。我们的工作旨在提取一个通用的多功能动作空间，类似于潜在空间，但它编码了不同机器人平台上常见的原子控制行为和模式。一些工作在潜在空间中开发具身模型。其中，LAPA、IGOR和LAPO通过在无动作视频上对逆动力学和前向动力学模型进行联合自监督训练来开发潜在动作空间。然而，这样提取的潜在动作主要关注解释视频帧之间的变化，缺乏具身考虑或与实际控制信号的直接因果联系。为了理解为什么这是一个问题，假设我们在机器人前面添加一个新物体，视觉输入将会改变，但这与控制行为无关，一个理想的编码动作不应该捕获这种分散的信息。BeT、VQ-BeT和QueST也通过K均值聚类或向量量化建立了一个离散的动作codebook，其中codebook中的每个代码编码了不同动作标签的聚类中心。这些工作主要关注具有单一具身类型的更简单领域，这增强了用多种模式对复杂人类演示进行建模的能力，但难以解决不同具身之间的动作异质性。相比之下，我们的通用动作结合了来自与具身无关的语言模态的目标信息，并对实际动作信号进行监督，提供了一个多功能且抽象化的技能库，以促进跨具身共享。此外，我们的研究深入到了更复杂的异构环境，并开发了一个大型具身基础模型，超越了以往研究考虑的有限范围。

UniAct 框架

UniAct是一个旨在通用动作空间中运行的具身基础建模框架，它擅长弥合领域差距并促进在大规模异构数据上的训练。这里首先讨论了通用动作的理想特性，然后详细讨论了从异构跨具身数据中提取和解码通用动作的模型架构和学习方案。

3.1 通用动作空间

理想的通用动作空间是指，尽管各种具身形态的控制信号具有不同的物理意义，但由这些信号驱动的所有动作都可以提炼为共享的潜在原子行为。将这些抽象的行为表示称为通用动作，它们在所有物理具身形态之间是共享的。我们特别感兴趣于探索一个离散的通用动作空间，这是受到离散表示在复杂推理、规划和预测学习中的强大能力的启发，如大型语言模型（LLMs）和视觉语言模型（VLMs）以及向量量化变分自编码器（Vector Quantized Variational Autoencoders）的成功所示。这里我们将通用动作空间建模为，并使用vector quantized codebook来实现它，表示为：

其中，N是空间大小，每个是一个D维向量嵌入，代表一种通用的原子行为。一些先前的研究通过推断两个视觉状态之间观察到的动态变化来构建通用的潜在动作，追求类似的概念。然而，这种方案存在两个关键局限性，导致通用动作空间次优且嘈杂：观察到的变化不仅包括机器人的控制结果，还包括与外部因素（如环境变化、新物体的出现、人为干预等）相关的变化，而这些外部因素与实际控制没有因果关系。两个观察之间的时间间隔对提取的原子行为的语义解释至关重要，这使得在不同数据源之间标准化行为解释变得复杂。

3.2 通用动作提取

类似于在潜在空间中进行规划，提取器的目标是推断出在观察o下解决给定任务g时最相关的通用动作，从而创造出与任务进展直接相关的通用动作，而不仅仅是识别出嘈杂的观察变化。这里采用视觉语言模型（VLM）来实现这一目的，因为其具有强大的视觉-语言推理能力。此外，对预训练的视觉语言模型进行微调也大大提高了学习通用动作时的样本效率。然而，为了实现这一点，不可微的arg max操作阻碍了梯度的传播。在训练过程中使用了类别重参数化（categorical reparametrization），利用Gumbel-Softmax技术来促进梯度的估计，前向过程如下：

3.3 异质解码

3.4. Training Procedure

实验分析

这里首先详细描述UniAct框架的具体实现，然后介绍为回答以下问题而进行的评估实验：通用动作能否提升具有较大领域差异的各种实体的执行性能？通用动作能否无缝转移到新的、未见过的实体上？UniAct是否学习到了一个有意义的通用动作空间？

实验设置

基线设置。选择了两个最先进的开源视觉-语言-动作模型作为基线：Octo和OpenVLA。Octo是一个基于扩散的0.1B参数策略，而OpenVLA则采用了一个具有7B参数的自回归架构，处理离散动作。这两个模型都是在大约100万个经过精心挑选的机器人演示上进行训练的，这些演示没有动作异质性，例如将所有绝对末端执行器（End Effector Frame，EEF）位置预处理为相对EEF位置，并移除关节位置动作。相比之下，UniAct-0.5B是在来自相同数据源的类似规模的数据上进行训练的，但没有采用如此繁琐的数据清洗。我们将UniAct与基线模型进行比较，以证明其在从异构数据中提取通用动作方面的有效性。

主要结果分析

为了评估UniAct-0.5B的跨实体泛化能力，在真实世界的WidowX机器人和模拟Franka机器人上进行了“开箱即用”的评估。这两个平台在以往的工作中常被用来测试通用机器人策略的有效性，并且存在显著的领域差异。鉴于我们的训练数据集包含了这两个实体的数据，可以利用预训练的异质解码头将通用动作无缝转换回可部署的控制信号。真实世界机器人评估。为真实世界的机器人定义了一套全面的评估任务，涵盖了泛化的多个维度：视觉（未见过的背景/干扰物/物体外观）；运动（未见过的物体位置/方向）；物理（未见过的物体大小/形状）；语义（来自互联网的未见过的目标物体/指令/概念）；以及语言落地（操作语言中指定的物体）。每个模型都在19个任务中进行了评估，每个任务有10次试验，共190次试验。图3展示了具有代表性的任务和结果。在视觉、运动和物理泛化任务中，UniAct-0.5B的表现优于体积大14倍的OpenVLA-7B。这证明了从异构数据中提取通用动作在增强对视觉干扰的鲁棒性和低级控制泛化方面带来了巨大的好处。虽然OpenVLA利用了一个7B的视觉语言主干网络来获得卓越的语义理解和语言落地能力，但UniAct-0.5B在语义泛化和语言落地任务中实现了相当的性能，突显了其高效性和有效性。

模拟评估。利用LIBERO基准进行评估。值得注意的是，基线模型最初并未在模拟数据上进行训练，因此我们利用它们的官方代码库和训练指南在LIBERO平台上对它们进行了微调。用于训练UniAct和基线模型的模拟数据在任务类型、专家轨迹数量和图像质量方面完全一致。基准测试包括五个不同套件中的130个机器人模拟任务：LIBERO-Spatial、-Object、-Goal、-Long和-90。LIBERO-90套件包含90个任务，而其他四个套件每个包含10个任务。UniAct-0.5B的部署示例和性能可见于图4。UniAct-0.5B在所有任务套件中都超越了基线模型，整体平均准确率比7B的OpenVLA高出17.2%，比Octo高出33.6%。这一卓越性能归功于UniAct能够跨越领域差异并提取可泛化的原子行为。通过利用来自不同领域的演示来学习通用动作，UniAct显著提高了在LIBERO基准测试上的任务性能。

快速适应新实体

实验设置。为了评估快速适应能力，在一个新的真实世界机器人AIRBOT上进行了评估，该机器人具有四种截然不同的控制器接口：相对/绝对末端执行器（End Effector，EEF）位置和相对/绝对关节位置。UniAct和基线模型都没有在AIRBOT数据上进行预训练。在这个新的机器人平台上使用这四种不同类型的控制接口收集了100次演示。考虑到这些控制接口之间存在显著的异质性，我们投入了大量精力对基线模型进行微调，并确保模型收敛满足官方要求（例如，OpenVLA的预测准确率达到95%）。使用UniAct进行快速适应。与需要通过大量训练来弥补不同类型动作之间适应差距的基线模型不同，UniAct能够快速适应新的实体和控制接口。由于已经学习了跨实体行为，通过冻结codebook和通用动作提取器来促进快速适应。同时，从头开始为每种类型的动作训练四个异质解码头，使用收集到的演示数据。每个新引入的解码头都是一个简单的多层感知器（Multilayer Perceptron，MLP），它接受来自共享视觉主干的通用动作u*和视觉特征o作为输入。

评估。使用了“将一个立方体堆叠在另一个立方体上”这一任务的简单版本和困难版本进行评估。结果可见于图5。UniAct-0.5B在所有类型的控制信号上都表现出了一致的强大泛化能力，超越了两个基线模型。值得注意的是，UniAct-0.5B用于微调的参数数量与模型总大小之比是最小的（4M / 500M：0.8%）。相比之下，OpenVLA和Octo分别利用了其模型总大小的1.4%（97M / 7000M）和2%（2M / 100M）。这种高效的参数利用凸显了UniAct的有效性和适应性，展示了其在将学习到的通用动作应用于新任务和实体时，以最小的参数空间扩展实现卓越性能的能力。

通用动作的深入分析

从两个角度证明了UniAct构建了一个有意义的通用动作空间：1）在不同实体中，一致的语义行为被编码为相同的通用动作；2）通用动作提取器可以有效地利用不同机器人通用动作空间中的这种共享结构。通用动作解读。我们手动检查了不同机器人上所有256个通用动作的解码行为，并观察到至少40%的动作表现出完全的一致性。图6显示，即使存在巨大差异，相同的通用动作也可以解码为不同机器人的一致行为。例如，即使具有不同的视角，甚至存在巨大的模拟到现实的差距，不同的机器人在给定相同的通用动作时，也能执行相似的语义上有意义的行为。使用通用动作进行控制。可以通过选择一系列通用动作来直接与机器人交互，以实现所需的行为。图7清晰地展示了我们可以使用通用动作来控制机器人，而无需任何机器人知识，如学习复杂的正向/逆向运动学变换。这也强调了将通用动作提取器作为动作标记器使用的潜力，以便在这个离散的通用动作空间中进行规划，从而促进未来更先进的实体基础模型的部署。

通用动作利用率的统计分析。在此，我们总结了不同机器人在执行不同任务时的通用动作利用率分布。表1清晰地显示，对于相同任务但不同机器人，其利用率分布相似；而对于不同任务但相同机器人，其利用率分布则不同。这证明了通用动作提取器确实通过更多地关注任务进展而非实体细节，正确地利用了这些与实体无关的原子行为。

参考

[1] Universal Actions for Enhanced Embodied Foundation Models

文章转载自公众号：具身智能之心
作者： Jinliang Zheng等
原文链接：https://mp.weixin.qq.com/s/R66gcp9KxR3hY4KdYlpPvA

清华大学最新！UniAct：消除异质性，跨域跨具身泛化，性能超越14倍参数量的OpenVLA