产品中心

产品中心

产品中心

你的位置：任丘市奥力斯涂料厂 > 产品中心 >

重庆防火门专用胶厂把VLM塞进隐式世界模型，小鹏机器人新框架让机器人长出物理直觉

机器人的大脑架构之争重庆防火门专用胶厂，正在从二选走向融。

VLM 路线擅长语义理，VAM 路线擅长预测物理世界，但两者各有短板。前者对物理规律缺乏直觉，后者训练和理成本居不下。

近的折中案，是给 VLM 外挂个生成模型来预测未来帧。但额外模块带来的计开销和工程复杂度依旧不小。

有没有可能，在个统的端到端框架里，既保留 VLM 的语义理能力，又让它拥有预测未来的物理直觉，还不用额外生成像素？

香港大学、小鹏机器人及北卡罗来纳大学教堂山分校的研究团队，刚刚给出了他们的答案 :

个名为DIAL （Decoupling Intent and Action via Latent World Modeling）的全新端到端 VLA 框架。

核心思路，是让 VLM 在自己原生的特征空间里做隐式世界建模，不外挂模型，不生成像素，直接在 RoboCasa 仿真基准和真实人形机器人部署中拿到优异能。

让 VLM 在决策中发挥大作用

在现有的端到端 VLA 架构中，个普遍存在的局限是：往往将 VLM 主要视作个大型的多模态特征提取器，直接将其输出的视觉 - 语言特征映射到底层的连续动作上。

这种范式带来了两个挑战 :

认知潜力利用不充分。未能充分发挥 VLM 在逻辑决策中的核心作用。

训练稳定不足。直接使用底层的频动作信号端到端地新庞大的 VLM 参数，容易致训练不稳定，甚至引发语义表征的退化。模型易于陷入视觉表象与动作之间的浅层统计关联，而未能真正建模交互背后的物理因果。

奥力斯泡沫板橡塑板专用胶报价联系人：王经理手机：18232851235（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

面对这困境，DIAL 框架提出了种为且优雅的解耦思路。

借鉴认知科学中的双系统理论，不仅让强大的 VLM 直接在其原生的 ViT 特征空间中进行轻量化的隐式世界建模（Latent World Modeling），关键的是，它将这种隐式视觉预见构建为个可微的结构化瓶颈。

通过这设计，DIAL 严格地将底层运动控制锚定在了 VLM 的意图之上。

这种架构有缓解了联优化过程中的表征崩溃重庆防火门专用胶厂，使得模型能够吸收跨具身的人类数据以实现强大的泛化，并在真实的物理世界中为稳健地驾驭复杂的多阶段协同任务。

双系统协同、可微意图与两阶段优化

DIAL 架构将复杂的具身控制任务理分解为两个协同工作的模块，并通过连续的特征空间将其连结 :

System-2（大脑）：原生特征空间中的意图预见

在接收到当前观测画面和语言指令后，基于 VLM 的 System-2 不再直接输出底层动作，而是去预测任务完成后的隐式视觉特征。

由于这种预测是在 VLM 原生的 ViT 空间中进行的，它适配 VLM 的语义表征，不仅降低了预测的难度，而且这些特征本身就保留了丰富的语义结构信息。这预测过程显式地编码了 VLM 的意图。

System-1（小脑）：基于隐式逆动力学的动作生成

System-1 是个轻量的动作策略网络。

目标非常明确：作为隐式逆动力学模型（Latent Inverse Dynamics Model），对比当前的视觉特征与大脑预测的未来特征，计出为了实现这状态转移所需的精确运动指令。

从解耦预热到端到端协同的两阶段训练

为了避直接联优化带来的梯度干扰，DIAL 采用了种稳定的两阶段训练策略 :

阶段，解耦预热。

System-2 和 System-1 分别立训练。

System-2 仅通过真实未来画面的特征作为监督，学习预测物理动态；System-1 则在真实未来特征的指下，心学习从感知到动作的映射。

二阶段，端到端协同。

通管线，System-1 开始使用 System-2 预测的隐式意图生成动作。

动作执行的误差梯度能够稳定地回传至 VLM，促使 VLM 预测的特征进步演变为真正服务于下游执行的面向动作感知（Action-aware）的隐式意图表征。

复杂任务的稳定执行与泛化适应重庆防火门专用胶厂

研究团队将 DIAL 部署至自由度的小鹏 IRON-R01-1.11 人形机器人上，验证了模型在两类任务中的表现 :

1、跨具身学习任务。

包含抓放（Pick & Place）与倒水（Pouring）两个基础操作任务，混利用人类演示及机器人本体数据进行训练。

2、多阶段协调任务。

包含双手交接与放置（Handover & Shelving）以及垃圾清扫与倾倒（Trash Collection & Emptying）两个长程任务，仅使用机器人本体轨迹进行训练。

在真机部署中，这种基于隐式视觉预见的结构化引机制展现出了强的鲁棒。

特别是在多阶段任务中，pvc管道管件胶隐式意图为模型提供了清晰的视觉路线图，引机器人顺畅完成子任务切换，有避了传统模型容易出现的动作死循环（例如在垃圾已扫入簸箕后仍重复清扫动作却不倒垃圾）。

此外，模型在抗背景干扰、组目标消歧等 OOD 场景下也表现出了良好的适应能力。

实验分析：数据率、规模扩展与可解释

为了度剖析 DIAL 架构为何能取得上述优异的部署果，研究团队进行了详尽的定量与定分析。

分为三个层面——

显著提升的数据利用率

在包含 24 个任务的 RoboCasa GR1 人形机器人桌面仿真基准测试中，DIAL 取得了平均70.2的任务成功率，越了该基准上公开的优基线模型。

为突出的是在严格的少样本设置下，DIAL 仅需 10 的训练数据量，即可达到58.3的成功率，击败了使用全量数据训练的优基线法，展现了结构化隐式意图瓶颈所带来的强归纳偏置，大提升了模型的数据学习率。

借助人类数据实现系统规模扩展重庆防火门专用胶厂

利用人类数据来扩展模型能力是当前具身智能域的热点向。得益于解耦的设计，DIAL 能够有跨越异构数据，实现强大的全系统规模扩展。

通过将人类的姿态对齐到机器人的动作空间，双系统能够共同从多样的人类动作数据（如 EgoDex）中汲取养分：System-2 负责从人类中提取通用的任务逻辑，而 System-1 则从人类动作标签中蒸馏通用的运动先验。

将这种操作知识从人类迁移到机器人身上后，DIAL 在分布外泛化能力上获得了巨大的提升 :

1、仿真环境增益。

引入多样的抓放（pick & place）任务人类数据后，模型应对未见过的物体类型成功率从 34.8 提升至 41.1；应对未见过的容器组成功率从 53.0 提升至 58.7。

2、真机环境增益。

在真实世界中，人类数据的价值加凸显。

消融实验显示，如果去除相关任务的人类数据，机器人在面临实例迁移（例如抓取倒水任务中未见过的异形瓶子）时，成功率会直接从 60 骤降至 10。

这对比充分证实：通过吸收跨具身的人类操作数据，是帮助模型建立稳健物理常识、提升泛化上限的有路径。

可解释：验证隐式预见的有

为了理解 System-2（大脑）与 System-1（小脑）之间究竟传递了怎样的信息，研究人员利用 PCA（主成分分析）降维，对隐式特征进行了可视化分析。

将维特征映射为 RGB 颜后可以发现，System-2 预测的特征图（Predicted Foresight）在任务相关区域（如目标物体和目标容器），与真实未来状态（Ground-Truth Future）展现出了度的结构致。

进步观察特征差异热力图（Predicted Change），预测特征与当前观测特征的差异区域，精确锁定了即将发生物理交互的部位。

这表明，DIAL 是真正在其原生语义空间中，生成了份具有实际物理向的连贯视觉路线图。

总结与展望

DIAL 框架通过可微隐式意图瓶颈，提出了种解耦认知决策与底层执行的 VLA 新范式。

长远来看，DIAL 揭示了构建通用底座模型的条具潜力的路径：

如果能将这种隐式世界建模机制直接融入 VLM 的原生预训练任务中，利用海量的互联网人类，我们将有望培育出天生具备物理动力学直觉的视觉语言大模型。

这不仅能从底层弥语义理与实体控制之间的鸿沟，为具身智能提供了个真正理解物理规律的认知底座。

以此为基础，DIAL 的解耦设计为这种演进提供了条度模块化的迭代路径。

在这种即插即用的范式下，旦底层动作训练成熟，未来就可以随着 VLM 能力的进化而缝升机器人的大脑，而需重训复杂的运动管线。

这种模块化的协同，将为构建新代通用、可扩展且持续进化的具身智能体铺平道路。

项目主页：https://xpeng-robotics.github.io/dial/

代码下载：https://github.com/xpeng-robotics/DIAL

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

相关词条:玻璃棉塑料挤出机厂家钢绞线管道保温 PVC管道管件粘结胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》重庆防火门专用胶厂，以此来变相勒索商家索要赔偿的违法恶意行为。

下一篇：五指山泡沫板胶费德勒创历史！德约3-1连21年进法网32强 120场里程碑上一篇：衡水橱柜台面胶特朗普：对目前同伊朗谈判进程“不满意”

重庆防火门专用胶厂 把VLM塞进隐式世界模型，小鹏机器人新框架让机器人长出物理直觉

重庆防火门专用胶厂把VLM塞进隐式世界模型，小鹏机器人新框架让机器人长出物理直觉