宇树最新模型架构：理解机器人与环境的交互规律-机器人产业网

导读： 9月15日，宇树宣布开源 UnifoLM-WMA-0，其为宇树科技跨多类机器人本体的开源世界模型-动作架构，专为通用机器人学习而设计，其核心理念在于设计一个可以理解机器人与环境交互物理规律的世界模型。该世界模型提供两项关键功能：模拟引擎——作为交互式模拟器运行，生成用于机器人学习的合成数据；策略...

9月15日，宇树宣布开源 UnifoLM-WMA-0，其为宇树科技跨多类机器人本体的开源世界模型-动作架构，专为通用机器人学习而设计，其核心理念在于设计一个可以理解机器人与环境交互物理规律的世界模型。

该世界模型提供两项关键功能：

模拟引擎——作为交互式模拟器运行，生成用于机器人学习的合成数据；

策略增强——连接动作头，通过预测未来与世界模型的交互过程，进一步优化决策性能。

团队展示了机器人的部署情况：

官方表示，UnifoLM-WMA-0属于Unitree机器人统一大模型系列成果，专为通用机器人学习量身打造，可以适配多种机器人本体。

目前，UnifoLM-WMA-0 开源了训练代码、推理代码、模型 Checkpoints。GitHub 已收获 100+ Star。

微调和训练

宇树团队也发表了 UnifoLM-WMA-0 的训练步骤。

首先，团队在 Open-X 数据集上微调视频生成模型，将其生成能力调节至与机器人作业场景适配。模型接收图像及文本指令，生成与文本指令对应的未来动作视频。

这是微调模型在测试集上的生成效果：

支持两种运行模式的策略架构

随后他们提出了一种基于世界模型的策略架构，同时支持两种运行模式:

决策模式: 提供机器人与环境进行物理交互的预测信息, 辅助策略生成动作；

仿真模式: 基于机器人动作生成高保真环境反馈。

这是训练后 UnifoLM-WMA 在下游任务数据集上的决策模式，团队在下游任务数据集上分别做了后训练优化:

团队还公开了五个模型训练的开源数据集。测试结果显示，模型作为仿真引擎，可根据"当前图像"及一定数量的“机器人未来动作”，实现交互可控生成。

生成结果与原视频对比如下所示:

实现通用机器人任重道远

宇树宣称“世界模型—动作”架构将完整开源并持续更新。此开源架构旨在推动具身智能发展，加快通用机器人实现的进程。

作为人形机器人领域以硬件实力著称的企业，宇树在软件层面的布局同样备受关注。创始人兼CEO王兴兴表示，公司在具身智能模型研发上依然保持谨慎投入。虽然企业规模已显著扩大，但与大型AI公司相比，宇树的投入仍有限。

王兴兴指出，目前机器人硬件总体“够用但不够好”，若要实现规模化应用、更低成本和更高可靠性，仍需不断完善。而在他看来，具身智能模型研发是当前的核心任务，现阶段模型远未成熟，无法满足行业需求。

在谈到训练数据时，他表示，与大语言模型依靠大规模高质量数据快速提升不同，机器人领域在模型与实体对齐上存在更大挑战，因此对AI模型能力的要求更高。

他强调，具身智能的突破并非资源和资金投入的单一比拼，过去的经验已证明，中小团队同样可能取得领先成果。

【免责声明】本站所刊内容仅代表作者本人观点，与机器人网站无关。机器人网站对文中陈述、观点判断保持中立。本网转载自其它媒体的信息，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权，请联系我们删除。
本文地址：http://www.jiqiren.org.cn/tt/1170.html

微调和训练

支持两种运行模式的策略架构

相关文章