欢乐颂第一季免费阅读,穿越小说完本,重生之毒妃梅果小说

從"感知→規(guī)劃→控制"的傳統(tǒng)鏈路，到“視覺-語言-動作”一體化的端到端模型，VLA 正在重新定義機(jī)器人與物理世界的交互方式。捷勃特機(jī)器人以全棧開源能力，為 VLA 開發(fā)者提供從仿真數(shù)據(jù)采集到模型部署的完整鏈路。

捷勃特多型號機(jī)器人在 NVIDIA Isaac Sim 仿真環(huán)境中

01 什么是 VLA？

VLA（Vision-Language-Action），即視覺-語言-動作模型，是具身智能領(lǐng)域最具代表性的技術(shù)范式。該概念由 Google DeepMind 于2023年在 RT-2 論文（arXiv:2307.15818）中首次提出，成功將視覺-語言模型（VLM）直接擴(kuò)展至機(jī)器人動作領(lǐng)域。

相比傳統(tǒng)工業(yè)機(jī)器人依賴人工調(diào)參、易產(chǎn)生誤差累積的“感知→識別→規(guī)劃→控制”四階段流水線，VLA 采用端到端設(shè)計，它摒棄了顯式的中間表示，直接將傳感器輸入映射為動作輸出，通過海量數(shù)據(jù)訓(xùn)練讓模型學(xué)習(xí)“看什么→做什么”的映射關(guān)系。

其核心差異如下：

維度	傳統(tǒng)AI方案	VLA具身智能
輸入模態(tài)	圖像或點云	視覺+語言+狀態(tài)
輸出形式	文本/分類	連續(xù)動作空間
閉環(huán)控制	否	強(qiáng)閉環(huán)
任務(wù)語義理解	是	是
物理交互	否	學(xué)習(xí)驅(qū)動

標(biāo)定依賴	需要相機(jī)標(biāo)定和手眼標(biāo)定	端到端學(xué)習(xí)，大幅降低標(biāo)定需求
架構(gòu)復(fù)雜度	多模塊拼接，誤差累積	單一端到端模型

02 VLA的技術(shù)內(nèi)核

端到端映射

VLA 采用端到端設(shè)計理念：從傳感器輸入到動作輸出直接建模，不依賴人工設(shè)計的中間表示。將動作離散化為文本 token，直接利用預(yù)訓(xùn)練視覺-語言模型的生成能力；而 OpenVLA 等后續(xù)工作則探索了連續(xù)動作空間的建模方式。無論哪種方案，核心都是通過大規(guī)模數(shù)據(jù)訓(xùn)練，讓模型自己學(xué)習(xí)從視覺觀察和語言指令到機(jī)器人動作的映射。

動作空間設(shè)計

VLA 的動作輸出通常采用末端位姿（End-Effector Pose）表示，包含位置(x,y,z)、旋轉(zhuǎn)四元數(shù)(w,qx,qy,qz)和夾爪控制(gripper)。OpenVLA 采用 7-DoF 動作空間（6 自由度末端位姿 + 1 夾爪），通過 256-bin 離散化或 FAST action tokenizer 進(jìn)行編碼。選擇末端位姿而非關(guān)節(jié)角度的理由在于：機(jī)器人無關(guān)性——便于異構(gòu)采集（VR 手柄、陀螺儀設(shè)備均可采集）；模型部署獨(dú)立性——不受特定機(jī)器人逆運(yùn)動學(xué)求解器的約束。

觀測空間與語言指令

主流 VLA 方案采用雙相機(jī)配置：固定相機(jī)用于全局場景感知，手腕相機(jī)用于精細(xì)操作感知。捷勃特在 Isaac Sim 中原生支持這一配置——固定相機(jī)捕獲全局場景，手腕相機(jī)提供末端執(zhí)行器的近距離視角，與 ALOHA、OpenVLA 等主流 VLA 方案的觀測配置完全一致。

VLA 的語言理解能力體現(xiàn)在多層級復(fù)雜度支持——從簡單的"拿起紅色杯子"，到需要物理常識推理的"把能裝水的容器放到左邊"。通過 Chain-of-Thought 推理甚至能完成"哪個物體可以當(dāng)錘子用"這樣的常識推理任務(wù)。

捷勃特機(jī)器人采用手腕相機(jī)的抓取動作

03 VLA 開源項目和發(fā)展趨勢

截至 2026 年，VLA 領(lǐng)域已有多個開源項目，這些代表性項目分別從不同維度推動了 VLA 的發(fā)展。

項目	機(jī)構(gòu)	核心貢獻(xiàn)
ALOHA / Mobile ALOHA	Stanford / UC Berkeley	開創(chuàng)性的雙臂遙操作系統(tǒng)，VLA 數(shù)據(jù)采集的事實標(biāo)準(zhǔn)
RT-2	Google DeepMind	首個 VLA 模型，將 VLM 微調(diào)為機(jī)器人動作模型（arXiv:2307.15818）
OpenVLA	UC Berkeley	7B 參數(shù)開源 VLA，支持 LoRA 微調(diào)和 RLDS 數(shù)據(jù)格式（arXiv:2406.09246）
LeRobot	Hugging Face	統(tǒng)一的機(jī)器人學(xué)習(xí)框架，提供數(shù)據(jù)集管理、模型訓(xùn)練和評估工具
Smol VLA	Hugging Face	450M 參數(shù)輕量級 VLA，可在消費(fèi)級硬件上運(yùn)行

未來，VLA 呈現(xiàn)出五大發(fā)展趨勢：

單臂到雙臂——ALOHA 開創(chuàng)雙臂協(xié)作成為 VLA 標(biāo)配

從抓取到操作——從 Pick & Place 向精細(xì)操作演進(jìn)

從仿真到真機(jī)——Sim-to-Real 遷移技術(shù)日趨成熟

從研究到產(chǎn)業(yè)——VLA 正從實驗室走向工廠

從編程到對話——MCP + OpenClaw 等 AI Agent 框架讓自然語言控制機(jī)器人成為可能

04 捷勃特 × VLA

仿真到部署的完整鏈路VLA技術(shù)

捷勃特為 VLA 開發(fā)者提供了從數(shù)據(jù)采集到模型訓(xùn)練再到真機(jī)部署的完整開源工具鏈。

在 Isaac Sim 仿真環(huán)境中，捷勃特提供多型號機(jī)器人（GBT-C5A/C7A/C12A/C16A）的完整 USD 數(shù)字資產(chǎn)，包含機(jī)器人幾何網(wǎng)格、材質(zhì)貼圖、關(guān)節(jié)運(yùn)動學(xué)參數(shù)和末端執(zhí)行器模型，開發(fā)者無需自行建模即可直接導(dǎo)入使用。

捷勃特在數(shù)據(jù)采集方面的優(yōu)勢體現(xiàn)在四個方面：

一、高保真仿真：基于 PhysX 物理引擎的精確碰撞檢測和力反饋，RTX 光線追蹤渲染生成接近真實相機(jī)的圖像數(shù)據(jù)

二、雙相機(jī)原生支持：仿真環(huán)境中原生支持固定相機(jī) + 手腕相機(jī)的雙視角數(shù)據(jù)采集，與主流 VLA 方案的觀測配置完全一致

三、大規(guī)模并行采集：支持多環(huán)境并行數(shù)據(jù)采集，通過隨機(jī)化物體位置、光照條件、相機(jī)角度等參數(shù)確保數(shù)據(jù)多樣性

四、精確運(yùn)動學(xué)參數(shù)：提供完整的 USD 數(shù)字資產(chǎn)，包含精確運(yùn)動學(xué)參數(shù)，有效縮小 Sim-to-Real Gap

值得一提的是，捷勃特通過 OpenClaw + MCP 協(xié)議，讓開發(fā)者甚至可以用自然語言直接控制仿真機(jī)器人——這本身就是 VLA 理念的一次工程實踐。用戶只需描述任務(wù)意圖，AI Agent 即可通過 MCP 協(xié)議驅(qū)動機(jī)器人完成動作，無需編寫傳統(tǒng)控制代碼。

05 為何選擇捷勃特構(gòu)建VLA應(yīng)用？

硬件即平臺：從 5kg 到 16kg 負(fù)載的完整產(chǎn)品線，覆蓋從桌面級到工業(yè)級的 VLA 應(yīng)用場景

仿真優(yōu)先：完整的 USD 資產(chǎn) + Isaac Sim 原生集成，數(shù)據(jù)采集效率遠(yuǎn)超真機(jī)方案

開源透明：GitHub 全面開源，開發(fā)者可以自由審計、修改和貢獻(xiàn)

生態(tài)對齊：與 ROS2、Isaac Sim、LeRobot 等主流開源框架深度集成

AI-Native：支持 MCP + OpenClaw，讓 VLA 模型可以通過自然語言接口直接驅(qū)動機(jī)器人

低門檻入門：云端仿真 + AI Agent，無需硬件即可開始 VLA 開發(fā)

Isaac Sim 中的抓取放置演示 — VLA 訓(xùn)練數(shù)據(jù)的仿真來源

06 VLA 應(yīng)用新手村指南

Step 1：克隆捷勃特 Isaac Sim 集成倉庫和 USD 數(shù)字資產(chǎn)倉庫。

Step 2：安裝 NVIDIA Isaac Sim 和 LeRobot 數(shù)據(jù)管理框架。

Step 3：在仿真環(huán)境中配置雙相機(jī)觀測，定義任務(wù)和語言指令。

Step 4：執(zhí)行大規(guī)模并行數(shù)據(jù)采集，導(dǎo)出 LeRobot 格式數(shù)據(jù)集。

Step 5：使用 LeRobot 或 OpenVLA 訓(xùn)練 VLA 模型，支持多 GPU 分布式訓(xùn)練。

Step 6：在仿真環(huán)境中評估模型后，通過 ROS2 接口部署到真機(jī)。

沒有真機(jī)？沒有 GPU 服務(wù)器？開發(fā)者可以在 Airbot 控制臺申請云端仿真機(jī)器人，通過瀏覽器直接體驗機(jī)器人運(yùn)動控制、視覺感知和任務(wù)執(zhí)行。結(jié)合 OpenClaw AI Agent 框架，甚至可以用自然語言直接控制仿真機(jī)器人。

07 VLA 體驗傳送門

開發(fā)者文檔：

dev.sh-agilebot.com

云端仿真：

airbot.sh-agilebot.com/login

GitHub項目：

github.com/sh-agilebot/agilebot_isaac_sim

（Isaac Sim 集成，包括仿真環(huán)境、示例 Demo）

github.com/sh-agilebot/agilebot_isaac_usd_assets（USD 數(shù)字資產(chǎn)，包括機(jī)器人模型、網(wǎng)格、貼圖）

github.com/sh-agilebot/agilebot_isaac_lab

(Isaac Lab訓(xùn)練環(huán)境配置)

搜索發(fā)現(xiàn)

產(chǎn)品中心

核心技術(shù)

應(yīng)用案例

服務(wù)中心

公司動態(tài)

關(guān)于捷勃特

捷勃特的VLA實踐：從“秒懂”到“秒動”的端到端攻略