Wall-OSS-0.5 – 自变量机器人开源的国产具身智能模型

智能 PRO 稿源：AI工具集 2026-05-29 01:43

Wall-OSS-0.5是什么

Wall-OSS-0.5是自变量机器人开源的国产具身智能模型，属于视觉-语言-动作(VLA)大模型，具备无需任务微调即可在真实机器人上部署的”零样本”能力。模型通过创新的Gradient-Bridge协同训练方法，将动作能力融入基础模型backbone，使机器人能直接执行搬运、分拣等17个真实任务，其中4个任务完成率超过80%。

Wall-OSS-0.5的主要功能

零样本真实机器人操作：预训练检查点可直接部署到物理硬件，无需针对特定任务微调即可执行抓取、排序、整理等操作，实现”预训练即可部署”。
多形态统一适配：单个预训练检查点即可适配桌面双臂、移动操作等 20 多种机器人形态，打破传统模型需为每种硬件单独训练的局限。
三目标协同训练：通过离散动作预测、多模态预测与连续流匹配三者互补优化，形成”梯度桥接”，让动作学习与视觉语言理解互不干扰、协同提升。
混合专家架构（MoT）：视觉-语言令牌由 VL Expert 路由处理，连续动作计算由 Action Expert 负责，联合注意力机制实现端到端梯度流动，兼顾语言理解与动作生成。
视觉语言能力保持：动作训练不会侵蚀基础 VLM 能力，实体 grounding 能力提升 21.8 个百分点，通用视觉-语言理解与推理能力完整保留。
高效微调适配：在 LeRobot 数据集上微调后，15 项真实机器人任务平均进度达 60.5%，领先同类模型 π0.5 达 17.5 个百分点。
强泛化与长程执行：在 3 项未见过的任务（如变形物体操作）上依然保持高进度，支持多阶段连续操作（如绳索收紧、抹布折叠、果篮整理等长程任务）。

Wall-OSS-0.5的技术原理

4B 参数 VLA 架构：基于 30 亿参数的 Qwen2.5-VL 视觉语言模型作为骨干，叠加动作生成组件，总参数量达 40 亿，实现视觉感知、语言理解与机器人动作生成的端到端统一。
混合专家路由（MoT）：采用 Mixture-of-Experts 架构，视觉-语言令牌通过 VL Expert 路由处理，连续动作计算通过独立的 Action Expert 处理，二者通过联合注意力机制实现端到端梯度流动，避免动作训练干扰语言理解。
梯度桥接协同训练：创新性地将离散动作预测、多模态预测与连续流匹配（Flow Matching）三者作为互补优化目标进行协同训练，形成”梯度桥接”，使动作策略学习与视觉语言预训练知识相互增强而非冲突。
连续流匹配动作生成：使用 Flow Matching 技术对连续动作空间进行建模，相比传统的离散化或回归方法，能够更精确地生成平滑、高维的机器人控制信号。
预训练即部署设计：通过大规模异构数据预训练，使模型在预训练阶段就习得通用的物理操作先验，检查点可直接在真实机器人硬件上执行零样本推理，无需任务特定的微调后处理。
大规模异构训练数据：覆盖 20 多种机器人形态，每轮训练包含超 100 万条真实机器人轨迹；同时融合 9000 万条多模态语料（含 1200 万实体桥接样本），实现约 60% 自采数据与 40% 开源数据的任务平衡采样。
联合注意力与端到端优化：VL Expert 与 Action Expert 共享注意力计算图，确保语言指令、视觉场景与动作输出在特征层面深度耦合，梯度可跨模态双向传播。
能力解耦保持机制：通过三目标协同与专家分离设计，动作训练不会侵蚀基础 VLM 能力，实体 grounding 能力提升 21.8 个百分点，同时完整保留通用视觉-语言理解与推理能力。

如何使用Wall-OSS-0.5

环境准备：创建 Python 3.10 的 conda 环境，安装 PyTorch 等基础依赖，并确保安装 Flash Attention 2.7.4 及以上版本以加速推理。
安装 LeRobot 库：克隆 Hugging Face 的 LeRobot 仓库，checkout 到指定兼容版本后执行 pip install -e . 完成安装。
安装 Wall-X 工具链：克隆 wall-x 开源仓库，运行 git submodule update --init --recursive 拉取子模块后，执行安装命令完成工具链部署。
下载预训练权重：从 Hugging Face（x-square-robot/wall-oss-0.5）下载官方发布的预训练模型检查点。
配置机器人参数：根据目标机器人类型（如桌面双臂、移动操作等）设置自由度（DOF）配置、模型路径、数据路径及训练超参数。
执行微调（可选）：如需针对特定任务优化，在 LeRobot 格式的数据集上运行微调脚本（如 bash ./workspace/lerobot_example/run.sh）以提升任务表现。
部署到真实硬件：加载预训练或微调后的检查点，在真实机器人硬件上执行零样本推理或微调后推理，直接输出可执行的机器人控制策略。

Wall-OSS-0.5的核心优势

部署即用：区别于传统 VLA 模型必须微调后才能使用，预训练检查点直接产生可执行的机器人策略。
高效适应：在 15 项真实机器人任务上微调后平均进度 60.5%，比 π0.5 的 43.0% 高出 17.5 个百分点。
强泛化能力：在 3 项未见过的任务（如变形物体操作）上依然保持高进度，绳索收紧任务达 82%。
视觉语言能力保持：动作训练不会侵蚀基础 VLM 能力，实体 grounding 能力提升 21.8 个百分点，通用 VL 能力完整保留。
数据规模领先：覆盖 20+ 种机器人形态，每轮 100 万+ 轨迹，9000 万多模态样本。

Wall-OSS-0.5的项目地址

项目地址：https://x2robot.com/oss#resources
Github仓库：https://github.com/X-Square-Robot/wall-x
论文地址：https://x2robot.com/api/files/file/wall_oss_05.pdf

Wall-OSS-0.5的同类竞品对比

对比维度	Wall-OSS-0.5	π0.5	OpenVLA
开发机构	自变量机器人（X Square Robot）	Physical Intelligence（PI）	Stanford 等学术机构
参数规模	40 亿（3B Qwen2.5-VL 骨干）	未公开（基于 π0 架构扩展）	70 亿（LLaMA 2-7B 骨干）
核心架构	MoT 混合专家 + 梯度桥接协同训练	Transformer 分层推理 + 动作专家	Prismatic VLM（SigLIP + DINOv2 + LLaMA 2）
动作生成方式	离散 token 与连续流匹配协同优化	高层离散 token 自回归 + 低层流匹配去噪	将动作视为语言模型词汇表中的离散 token 预测
训练数据规模	20+ 种机器人形态，每轮 100 万+ 轨迹，9000 万多模态样本	网络数据 + 跨机器人经验 + 口头指令多源协同	Open X-Embodiment 数据集 97 万条轨迹
零样本部署能力	预训练检查点直接部署，17 项任务中 4 项进度超 80%	预训练后需后训练/微调，不直接支持零样本硬件部署	预训练模型需任务特定微调，不支持直接零样本部署
微调后性能	15 项真实任务平均进度 60.5%，领先 π0.5 达 17.5 个百分点	真实家庭环境任务成功率 60%-88%，复杂指令遵循率高	WidowX / Google Robot 多任务成功率领先 RT-2-X 16.5%
开源程度	完全开源（权重、训练代码、配方、消融实验）	研究发布，部分技术细节公开	完全开源（模型权重、代码、LoRA/量化微调方案）
核心创新点	梯度桥接实现预训练即部署，动作与 VL 能力协同增强不互损	开放世界泛化与层次化推理（高层语义规划 + 低层动作执行）	首个全面开源的通用 VLA，验证 VLM 直接微调生成动作的可行性
VLM 能力保持	实体 grounding 提升 21.8%，通用 VL 理解与推理能力完整保留	依赖网络数据维持语义理解，动作训练后需专门保持	基于预训练 VLM 微调，语言能力基线较高