《大模型驱动的具身智能：架构、设计与实现》+具身智能系统中三大规划类型及其内容

Lily李

《大模型驱动的具身智能：架构、设计与实现》+具身智能系统中三大规划类型及其内容 [复制链接]

具身智能系统中含有三大规划类型，即具身任务级规划、分层动作级规划及端到端动作级规划。

1.具身任务级规划

在现实世界的场景中，环境通常表现出的是其复杂性和不可预测性，这对于单步规划的方法来说是一个重大的挑战。与之相对的是，人类在处理复杂任务时，已展现出将问题分解为若干简单子任务的能力，该方法类似于众所周知的“分而治之”策略。

在具身智能中，要进行任务分解会涉及较高的抽象层级，其中大模型扮演着世界模型的角色，能够有效地对任务进行分解。在这一过程中，大模型主要依赖于常识和事先训练好的知识使其成为解决问题的理想选择。

在具身智能中，任务分解由大模型来实现，通常包括两个核心步骤：

首先是进行分解，即将复杂任务拆解为多个子任务。

其次是子任务规划，即根据每个子任务的目标进行具体的动作规划。

任务分解的方法主要分为两类，即广度分解和深度分解。

广度分解方法先将任务全面地分解为若干子任务，然后依次为每个子任务进行动作规划。其优点在于建立了子任务与原始任务之间的紧密关联，以减少出现任务遗忘或幻觉的风险。

相比之下，深度分解则涉及任务分解子任务规划的交替进行，每次只揭示当前状态下的一到两个子任务。该方法根据环境反馈动态调整分解策略，提高了系统的容错能力。然而，对于复杂任务，过长的动作规划有可能导致大模型在后续子任务和导致级分解中出现幻觉而偏离原始目标。

图1 广度分解与深度分解

在运动控制的层级结构中，任务级规划对应着任务分解步骤。以“擦拭桌子”的任务为例，任务级规划需要理解任务目标，并根据当前环境和自身状态将其分解为若干子任务，如找到抹布、拿起抹布、在桌面上移动抹布以及放回抹布。此层级的规划主要涉及任务的抽象定义及策略设定,相应的动作级规划对应子计划步骤，具体的动作执行则依赖于更低层级的基元级和伺服级的实现。这些低层级主要处理运动控制的技术细节，通常由控制算法和硬件直接管理。

2.分层动作级规划

在分层动作级规划中，感知信息被明确地设置为运动规划的输入条件，它是与动作规划过程是相互独立的。

在决策层（或规划层）通常是采用大语言模型或多模态大模型进行规划，虽然多模态大模型具备一定的感知能力，但在分层动作级规划的框架中，环境感知和动作规划仍是分开处理的。

分层架构有利于将人类的先验知识作为额外的约束或推理条件被嵌入到规划过程，以便更好地理解和处理复杂的环境感知数据。

通过引入先验知识，模型能够在复杂或未知的环境中做出更加合理的决策，进而来提升规划的准确性。

此外，分层运动规划通常无须对大模型进行专门的训练，故具有较低的实现成本。

在分层动作级规划中，涉及到动作原语的概念。

所谓“动作原语”(motion primitive或action primitive)是机器人学和自动化控制领域中的一个核心概念，指的是预定义的、可重复使用的基本动作或行为模块。

这些原语是构建复杂任务的基础元素，通常包括机器人的简单运动或行为序列，旨在简化动作规划和执行过程。

通过将复杂任务分解为一系列的动作原语，可以实现更高效、可控的机器人操作。

在机器人控制中，末端执行器的控制参数通常处于连续空间，这意味着理论上可以生成无限种可能的动作或路径。如在机器人的手臂控制中，每个关节都可在一个连续范围内运动。然而，在实际应用中，处理连续空间中的无限可能性既不现实又不经济。因此，从运动分级的角度来看，动作原语提供了一种基元级的离散化实现方式，即提供一组有限且实用的动作(离散的动作集)，使得复杂的运动规划可以通过组合这些基本动作来完成。

动作原语通常具有以下几个关键特点:

1）基础性

动作原语是构建复杂动作序列的基本构件，它通常表示为机器人能够直接执行的简单动作，如移动到特定位置、旋转一定角度、抓取或放置物体等。

2）模块化

通过将常用的动作封装为原语，可以在多种任务中复用这些动作，以提高规划和执行的效率。如“抓取”原语可以在不同的上下文中被调用，无论是在装配线上抓取零件，还是在仓库中拾取物品。

3）可编程性

动作原语可以在更高级别的任务规划中通过编程方式进行调用和组合，这种灵活性可根据特定应用的需求进行调整和优化动作序列，从而适应不同的任场景。

4）控制简化

使用动作原语可以简化控制算法的复杂度，通过执行预定义的动作，减少了实时计算的需求，这对于需要快速响应的实时应用至关重要。

5）执行可预测性

由于动作原语是预先定义和测试过的，其行为通常具有很高的可预测性和可靠性。

以下是一个以Python 伪代码所定义的Robotic Arm类，展示了动作原语实现机械臂的基本控制。

class Robotic Arm:
  def__init__(self):
self. position =Nome
self.gripper_open =Nome

#动作原语:移动到指定位置
def move_to_position( self, new_.position):
print ( f" Moving to|new__position " )
self.position = new_position

#动作原语:执行抓取动作
def grab( self):
if self.gripper_open :
print ( " Grabbing the object" )
self. gripper_open = False

#动作原语:执行释放动作
def release( self):
if not self. gripper_open :
print( " Releasing the object" )
self. gripper_open = True

#动作级规划:组合动作原语来执行复杂任务
def execute_task( self, start_pos, end_pos):
Self. move_to_position( start_pos )   #移动到初始位置
self. grab( )                      #抓取物体
Self.move_to_position( end_pos )    #移动到目标位置
self. release( )                    #放置物体

在这个类中，move_to_position()、grab()和release()方法都是动作原语的实现。它们代表机械臂的基础动作，每个方法执行一个具体的、独立的操作:
move_to_position()方法直接控制机械臂移动到一个新的指定位置。
grab()方法控制夹爪关闭，以抓取对象。
release()方法控制夹爪开启，以释放对象。

3.端到端动作级规划

动作级规划是具身智能系统中最复杂的部分，尤其是在分层规划中，时效性问题尤为突出。为应对这一挑战，端到端规划通过一个统一的模型，试图实现从原始感知数据到动作序列的直按映射。

相比于分层规划，端到端规划的优势在于能够减少各模块之间的接口依赖、降低信息损失、使系统能够直接从数据中学习最优的行动策略。

然面。在高自由度的人形具身条件下进行动作级规划时，端到端规划面临的复杂度问题仍需进一步解决、尤其是在训练具身大模型时，这一挑战尤为显著。

1）统一模型与多任务模型

统一模型（UniGedMadel）和多任务模型是端到端设计中的两种典型方法，统一模型将从传感器输入到最终输出的所有处理步骤整合在一个统一的网络框架中，消除了功能模块之间的明确划分，如感知、决策和规划。相比之下，多任务模型则侧重于多个任务的联合优化。

在自动驾驶领域，多任务模型通过多组查询向（例如跟踪查询和地图查询）串联不同任务，并在网络中传递信息，最终将融合后的信息输入到规划模块。

图2 自动驾驶领域中的统一模型和多任务模型对比

从架构上看，多任务模型的端到端架构与传统的分层架构有相似之处，但在网络结构的细节和训练方案上存在显著差异。在多任务模型中，不同模块之间的输出不再基于人类定义的传统层次（如从感知层到决策层），而是通过多组查询向量进行传递，规划模块则根据这些向量的输出进行动作规划。

与传统的模块化模型不同，多任务模型在训练过程中必须支持跨模块的梯度传导，即所有模块必须同时训练，确保全局优化。

这种设计方式能通过联合优化各个任务来提高模型的整体表现，特别是在处理多个复杂任务时，能够其享信息，提升效率和准确性。

相比之下，统一模型的端到端架构从原始信号的输入到规划轨迹的输出，所有的处理步骤均由一个统一的深度学习模型完成，消除了感知、决策和规划等功能的明确分工。

这类模型可基于多种学习框架进行构建，如强化学习、模仿学习或生成式模型（如世界模型）。统一模型的最大优势在于，它能够实现整个系统的全局优化不需要在模块之间进行信息传递，从而减少接口复杂性，并能够最大化利用从环境中获取的全面数据。这种设计使得模型能够获得对环境的深刻理解，并通过统一的训练框架，提升其对真实世界各种复杂场景的适应能力。

无论是多任务模型还是统一模型，它们的设计目标都是通过全局优化的视角，确保梯度反向传播能够覆盖整个网络，实现任务间或全系统的协同优化。与传统的模块化设计相比，端到端设计虽然在训练和调试的复杂性上有所增加，但理论上，端到设计具备更高的性能上限。这是因为端到端设计能够利用更多的综合数据源，涵盖感知、决策、规划等多项任务，从而实现更为准确的预测和决策。此外，端到端设计在理解环境和与其他物体交互方面展现出高度的通用性，具备很强的跨领域适应能力。如在机器人领域，端到端设计能够从感知到运动控制的各个环节提供统一的解决方案，从而为跨领域模型的应用和共享奠定基础。

尽管端到端设计具备理论上的优势，但在实际应用时，统一模型和多任务模型各有优缺点。统一模型简化了系统的设计，适合需要对全局任务进行深度学习和整体优化的场景，适合高数据要求的任务，但在训练难度和调试复杂性上存在挑战。多任务模型则通过将多个任务进行联合优化，使得复杂系统能够同时处理不同功能模块的任务，在多任务场景中表现更优，但在任务之间的协同训练时，可能面临冲突和权衡增加了训练难度。因此，选择哪种模型应根据实际应用的需求、任务复杂度和计算资源进行权衡。

2）视觉语言动作模型

视觉语言动作模型（Vision-Language-Action Model）是一种典型的端到端统一模型，它采用与其他基础模型类似的Transformer架构。该模型通过将机器人动作编码为类似语言的文本标记，并结合大规模的视觉语言数据集进行联合训练。这种设计使得动作的规划过程与大语言模型生成自然语言的方式相似，展现了具身智能领域中端到端动作规划的创新性。

3）多任务端到端

特斯拉的Optimus具身机器人采用了类似于特斯拉电动车的全自动驾驶系统FSD，其具身动作规划系统依托于一个标准的多任务端到端动作规划架构，在这一系统中自动驾驶的动作规划可以被看作相对简化的具身机器人动作规划。

几种自动驾驶系统所涉及的多任务端到端网络架构。

（1）端到端中的多任务

在端到端动作规划架构中，感知和动作规划不再被划分为独立的模块，而是通过统一的网络架构直接连接。这种设计使得感知信号可以直接转换为动作规划决策，大简化了处理流程。然而，从感知到动作规划的过程实际上涵盖了多种不同的任务这些任务反映了人类的先验知识，如从感知数据中提取物体轮廓、追踪物体动态或预测占用状态等，这些都能显著提高避障等动作规划任务的效率。尽管分层的运作规划可以利用这些信息以优化规划效果，但它也可能面临模块间信息丢失、错误累积以及由于优化目标不同导致的特征错位风险。相对而言，多任务的端到端网络结构通过特定的设计和训练方法，不仅能够整合这些先验知识，如对象的当前状态与未来状态预，而且能保持信息流的连续性，避免了信息在不同处理阶段的丢失。

例如，特斯拉FSD系统中的感知任务包括3D物体检测、多目标追踪和场景理解这些任务通过端到端网络整合成一个统一的动作规划系统。首先，车辆通过检测和追踪周围的动态物体，为每个物体赋予坐标、尺寸和持续的跟踪ID。然后，车载系统于多视角图像生成鸟瞰图(Brid’sEve View，BEV)，并进行语义分割，识别出道路行人、车道线和其他关键元素。这一过程中使用实时传感器数据代替传统的高清地图显著提升了环境感知的实时性和精度。

在生成场景理解之后，FSD系统通过动作预测任务，基于检测到的物体轨迹和场景信息，预测未来一段时间内物体的动态变化。这包括占用预测，即预测场景中每个网格单元未来是否会被占用，进而生成占用概率图。最后，动作规划模块结合这些信息生成未来的行驶轨迹，确保车辆在复杂的交通环境中安全行驶。

图3展示了FSD系统如何通过感知和三维几何占用信息来处理遮挡问题。上半部分显示了车辆在多个视角下捕获的街景图像，这些实景图像为自动驾驶系统提供了环境感知的基础。下半部分则展示了该场景的三维几何表示，深色块代表物体的占用区域。通过这种三维建模，系统不仅能识别可见物体，还能够预测那些由于遮挡而不可见的潜在障碍物，为安全导航提供了支持。

图3 FSD通过感知和三维几何占用信息来处理遮挡

（2）多任务端到端网络架构

多任务端到端架构通过特定设计的网络结构和训练方法，能够整合不同任务中蕴含的人类先验知识，同时保持信息流在网络中的连续性。虽然特斯拉的FSD系统尚未公开其具体的架构设计，但UniAD。提供了一个类似的端到端自动驾驶多任务网络架构。如图4所示，主要分为基础层、感知、预测和规划4个阶段，并通过基于变换器Transformer)的模块将感知中的检测、跟踪、地图构建，以及预测中的运动和占用等五大关键任务整合在一起，并通过优化目标直接对齐到运动规划任务，展示了一个全面的端到端解决方案。

图4 UniAD多任务端到端网络架构

在UniAD系统中，基础层的核心任务是从输入的多视角摄像头数据中提取深层次的特征信息。这一任务依赖于强大的特征编码器，即BEV Former。BEV Former通过结合Trans Former架构与时间结构，能够有效地聚合来自多视角摄像头的时空信息，并生成BEV特征，从而帮助系统理解复杂的3D场景。

图5 BEV Former架构

MotionFormer是专门处理运动预测任务的模块，它它通过分析多种代理的动态行为，预测这些独立未来的运动轨迹，从而为自动驾驶提供动态环境信息主持。MotionFormer通过分层结构解决了代理运动预测和占用预测问题。

图6 MotionFormer的网络结构

UniAD通过整合多个输入信息生成最终的驾驶决策，见图7所示。

图7 规划部分网络架构

在特斯拉的全自动驾驶（FSD）系统中，采用了类似UniAD的多任务端到端架构，但它更强调的是多视角集成和高级语义理解，尤其在时间维度的整合方面会更加接近多模态大模型的设计。这使FSD能够在复杂的交通场景中表现出更高的精度和适应性。

图8所示的是FSD系统中所占用的网络（0ccupaneyNetwork）在完成摄像头图像的特征提取后，使用Transformer模块对特征进行处理。在图像特征映射中，通过MLP生成Key和Value，同时通过BEV坐标系下的栅格坐标位置编码生成Query。

与传统的二维栅格不同，FSD系统增加了高度这个维度，以形成三维栅格，来生成更加精确的占用特征（0ccupancyFeature），其主要特点如下：

1）原始光子计数输人

FSD使用未经ISP（IntermetServiceProvider，互联网服务提供商）处理的光子计数图像，能够在低光照环境下提供更高的感知能力，超越人眼的视觉极限。

2）时序对齐

利用里程计信息对前一时刻的占用特征进行时序拼接，并通过透明度调整来反映不同时刻的特征权重，在通道维度上进行融合。

图8 FSD系统的多任务架构

3）亚像素几何输出

FSD的占用网络输出不仅包括三维栅格特征，见图9所示，系统通过整合低精度的地图数据和视觉感知信息，对车道线及其几何拓扑关系进行精准识别和处理。

图9 FSD的高级语义理解模块

在多任务端到端架构中，通过直接对输入到输出的整个过程进行处理，系统避免了模块化架构中常见的信息丢失和错误累积问题。这种架构通过整合多个任务，保持了高效和准确的信息流，从而提升了模型的整体性能。与传统的分层架构相比，

到端架构具备更快的响应速度和更高的实时处理能力，因为它减少了中间步骤的传和处理。此外，通过设计和训练方法的创新，端到端架构能够有效整合人类的先验知识，使模型在具体任务中能够更贴近实际的应用需求。

然而，端到端架构也具有一些局限性。首先，设计端到端架构时，需要同时考虑多个任务的特性和需求，这使网络结构的设计变得更加复杂。不同的任务可能需要不同的特征表示和优化策略，导致在进行系统设计时需要在多任务之间进行平衡和协调设计不当可能会导致某些任务表现不佳，甚至出现任务间的性能冲突，称为“任务干扰”，特别是在各任务的目标存在竞争或矛盾的情况下。

其次，多任务端到端架构的性能高度依赖于网络结构的设计。不同的网络结构在处理不同任务时可能表现出显著差异，因此需要精细的调整和优化，以确保每个任都能获得满意的性能。此外，处理多个任务通常需要更多的计算资源和数据存储空间尤其在资源受限的环境中，这可能成为应用端到端架构的一大限制因素。

端到端架构的演化趋势更多的是朝着构建能够处理多个任务、多个模态的统一模型方向发展，这类模型在共享相同的底层表示的基础上，能够执行不同类型的任务(如分类、检测、生成等)。这减少了为每个任务设计和维护独立模型的开销，并且提高了对各种任务的泛化能力。例如，像GPT-4、PaLM-E等大模型能够同时处理自然言理解、生成、图像识别、推理等任务。针对具身动作规划的特点，可以推测端到端具身大模型也必然朝着多任务统一模型的方向发展。