從"感知→規(guī)劃→控制"的傳統(tǒng)鏈路,到“視覺-語言-動作”一體化的端到端模型,VLA 正在重新定義機(jī)器人與物理世界的交互方式。捷勃特機(jī)器人以全棧開源能力,為 VLA 開發(fā)者提供從仿真數(shù)據(jù)采集到模型部署的完整鏈路。

捷勃特多型號機(jī)器人在 NVIDIA Isaac Sim 仿真環(huán)境中
01 什么是 VLA?
VLA(Vision-Language-Action),即視覺-語言-動作模型,是具身智能領(lǐng)域最具代表性的技術(shù)范式。該概念由 Google DeepMind 于2023年在 RT-2 論文(arXiv:2307.15818)中首次提出,成功將視覺-語言模型(VLM)直接擴(kuò)展至機(jī)器人動作領(lǐng)域。
相比傳統(tǒng)工業(yè)機(jī)器人依賴人工調(diào)參、易產(chǎn)生誤差累積的“感知→識別→規(guī)劃→控制”四階段流水線,VLA 采用端到端設(shè)計,它摒棄了顯式的中間表示,直接將傳感器輸入映射為動作輸出,通過海量數(shù)據(jù)訓(xùn)練讓模型學(xué)習(xí)“看什么→做什么”的映射關(guān)系。
其核心差異如下:
維度 | 傳統(tǒng)AI方案 | VLA具身智能 |
輸入模態(tài) | 圖像或點云 | 視覺+語言+狀態(tài) |
輸出形式 | 文本/分類 | 連續(xù)動作空間 |
閉環(huán)控制 | 否 | 強(qiáng)閉環(huán) |
任務(wù)語義理解 | 是 | 是 |
物理交互 | 否 | 學(xué)習(xí)驅(qū)動 |
標(biāo)定依賴 | 需要相機(jī)標(biāo)定 和手眼標(biāo)定 | 端到端學(xué)習(xí), 大幅降低標(biāo)定需求 |
架構(gòu)復(fù)雜度 | 多模塊拼接, 誤差累積 | 單一端到端模型 |
02 VLA的技術(shù)內(nèi)核
端到端映射
VLA 采用端到端設(shè)計理念:從傳感器輸入到動作輸出直接建模,不依賴人工設(shè)計的中間表示。將動作離散化為文本 token,直接利用預(yù)訓(xùn)練視覺-語言模型的生成能力;而 OpenVLA 等后續(xù)工作則探索了連續(xù)動作空間的建模方式。無論哪種方案,核心都是通過大規(guī)模數(shù)據(jù)訓(xùn)練,讓模型自己學(xué)習(xí)從視覺觀察和語言指令到機(jī)器人動作的映射。
動作空間設(shè)計
VLA 的動作輸出通常采用末端位姿(End-Effector Pose)表示,包含位置(x,y,z)、旋轉(zhuǎn)四元數(shù)(w,qx,qy,qz)和夾爪控制(gripper)。OpenVLA 采用 7-DoF 動作空間(6 自由度末端位姿 + 1 夾爪),通過 256-bin 離散化或 FAST action tokenizer 進(jìn)行編碼。選擇末端位姿而非關(guān)節(jié)角度的理由在于:機(jī)器人無關(guān)性——便于異構(gòu)采集(VR 手柄、陀螺儀設(shè)備均可采集);模型部署獨(dú)立性——不受特定機(jī)器人逆運(yùn)動學(xué)求解器的約束。
觀測空間與語言指令
主流 VLA 方案采用雙相機(jī)配置:固定相機(jī)用于全局場景感知,手腕相機(jī)用于精細(xì)操作感知。捷勃特在 Isaac Sim 中原生支持這一配置——固定相機(jī)捕獲全局場景,手腕相機(jī)提供末端執(zhí)行器的近距離視角,與 ALOHA、OpenVLA 等主流 VLA 方案的觀測配置完全一致。
VLA 的語言理解能力體現(xiàn)在多層級復(fù)雜度支持——從簡單的"拿起紅色杯子",到需要物理常識推理的"把能裝水的容器放到左邊"。通過 Chain-of-Thought 推理甚至能完成"哪個物體可以當(dāng)錘子用"這樣的常識推理任務(wù)。

捷勃特機(jī)器人采用手腕相機(jī)的抓取動作
03 VLA 開源項目和發(fā)展趨勢
截至 2026 年,VLA 領(lǐng)域已有多個開源項目,這些代表性項目分別從不同維度推動了 VLA 的發(fā)展。
項目 | 機(jī)構(gòu) | 核心貢獻(xiàn) |
ALOHA / Mobile ALOHA | Stanford / UC Berkeley | 開創(chuàng)性的雙臂遙操作系統(tǒng),VLA 數(shù)據(jù)采集的事實標(biāo)準(zhǔn) |
RT-2 | Google DeepMind | 首個 VLA 模型,將 VLM 微調(diào)為機(jī)器人動作模型(arXiv:2307.15818) |
OpenVLA | UC Berkeley | 7B 參數(shù)開源 VLA,支持 LoRA 微調(diào)和 RLDS 數(shù)據(jù)格式(arXiv:2406.09246) |
LeRobot | Hugging Face | 統(tǒng)一的機(jī)器人學(xué)習(xí)框架,提供數(shù)據(jù)集管理、模型訓(xùn)練和評估工具 |
Smol VLA | Hugging Face | 450M 參數(shù)輕量級 VLA,可在消費(fèi)級硬件上運(yùn)行 |
未來,VLA 呈現(xiàn)出五大發(fā)展趨勢:
單臂到雙臂——ALOHA 開創(chuàng)雙臂協(xié)作成為 VLA 標(biāo)配
從抓取到操作——從 Pick & Place 向精細(xì)操作演進(jìn)
從仿真到真機(jī)——Sim-to-Real 遷移技術(shù)日趨成熟
從研究到產(chǎn)業(yè)——VLA 正從實驗室走向工廠
從編程到對話——MCP + OpenClaw 等 AI Agent 框架讓自然語言控制機(jī)器人成為可能
04 捷勃特 × VLA
仿真到部署的完整鏈路VLA技術(shù)
捷勃特為 VLA 開發(fā)者提供了從數(shù)據(jù)采集到模型訓(xùn)練再到真機(jī)部署的完整開源工具鏈。
在 Isaac Sim 仿真環(huán)境中,捷勃特提供多型號機(jī)器人(GBT-C5A/C7A/C12A/C16A)的完整 USD 數(shù)字資產(chǎn),包含機(jī)器人幾何網(wǎng)格、材質(zhì)貼圖、關(guān)節(jié)運(yùn)動學(xué)參數(shù)和末端執(zhí)行器模型,開發(fā)者無需自行建模即可直接導(dǎo)入使用。
捷勃特在數(shù)據(jù)采集方面的優(yōu)勢體現(xiàn)在四個方面:
一、高保真仿真:基于 PhysX 物理引擎的精確碰撞檢測和力反饋,RTX 光線追蹤渲染生成接近真實相機(jī)的圖像數(shù)據(jù)
二、雙相機(jī)原生支持:仿真環(huán)境中原生支持固定相機(jī) + 手腕相機(jī)的雙視角數(shù)據(jù)采集,與主流 VLA 方案的觀測配置完全一致
三、大規(guī)模并行采集:支持多環(huán)境并行數(shù)據(jù)采集,通過隨機(jī)化物體位置、光照條件、相機(jī)角度等參數(shù)確保數(shù)據(jù)多樣性
四、精確運(yùn)動學(xué)參數(shù):提供完整的 USD 數(shù)字資產(chǎn),包含精確運(yùn)動學(xué)參數(shù),有效縮小 Sim-to-Real Gap
值得一提的是,捷勃特通過 OpenClaw + MCP 協(xié)議,讓開發(fā)者甚至可以用自然語言直接控制仿真機(jī)器人——這本身就是 VLA 理念的一次工程實踐。用戶只需描述任務(wù)意圖,AI Agent 即可通過 MCP 協(xié)議驅(qū)動機(jī)器人完成動作,無需編寫傳統(tǒng)控制代碼。
05 為何選擇捷勃特構(gòu)建VLA應(yīng)用?
硬件即平臺:從 5kg 到 16kg 負(fù)載的完整產(chǎn)品線,覆蓋從桌面級到工業(yè)級的 VLA 應(yīng)用場景
仿真優(yōu)先:完整的 USD 資產(chǎn) + Isaac Sim 原生集成,數(shù)據(jù)采集效率遠(yuǎn)超真機(jī)方案
開源透明:GitHub 全面開源,開發(fā)者可以自由審計、修改和貢獻(xiàn)
生態(tài)對齊:與 ROS2、Isaac Sim、LeRobot 等主流開源框架深度集成
AI-Native:支持 MCP + OpenClaw,讓 VLA 模型可以通過自然語言接口直接驅(qū)動機(jī)器人
低門檻入門:云端仿真 + AI Agent,無需硬件即可開始 VLA 開發(fā)

Isaac Sim 中的抓取放置演示 — VLA 訓(xùn)練數(shù)據(jù)的仿真來源
06 VLA 應(yīng)用新手村指南
Step 1:克隆捷勃特 Isaac Sim 集成倉庫和 USD 數(shù)字資產(chǎn)倉庫。
Step 2:安裝 NVIDIA Isaac Sim 和 LeRobot 數(shù)據(jù)管理框架。
Step 3:在仿真環(huán)境中配置雙相機(jī)觀測,定義任務(wù)和語言指令。
Step 4:執(zhí)行大規(guī)模并行數(shù)據(jù)采集,導(dǎo)出 LeRobot 格式數(shù)據(jù)集。
Step 5:使用 LeRobot 或 OpenVLA 訓(xùn)練 VLA 模型,支持多 GPU 分布式訓(xùn)練。
Step 6:在仿真環(huán)境中評估模型后,通過 ROS2 接口部署到真機(jī)。
沒有真機(jī)?沒有 GPU 服務(wù)器?開發(fā)者可以在 Airbot 控制臺申請云端仿真機(jī)器人,通過瀏覽器直接體驗機(jī)器人運(yùn)動控制、視覺感知和任務(wù)執(zhí)行。結(jié)合 OpenClaw AI Agent 框架,甚至可以用自然語言直接控制仿真機(jī)器人。
07 VLA 體驗傳送門
開發(fā)者文檔:
dev.sh-agilebot.com
云端仿真:
airbot.sh-agilebot.com/login
GitHub項目:
github.com/sh-agilebot/agilebot_isaac_sim
(Isaac Sim 集成,包括仿真環(huán)境、示例 Demo)
github.com/sh-agilebot/agilebot_isaac_usd_assets(USD 數(shù)字資產(chǎn),包括機(jī)器人模型、網(wǎng)格、貼圖)
github.com/sh-agilebot/agilebot_isaac_lab
(Isaac Lab訓(xùn)練環(huán)境配置)
微信公眾號
視頻號
抖音號
上海捷勃特機(jī)器人有限公司
滬ICP備2020034948號-2