开云体育(kaiyun)官方网站 ICRA 2026 | 首个 36 目田度双臂贤达操作 VLA 模子, 开源!


同期救济双臂协同、双贤达手高目田度密致操作
——端到端VLA模子
过往主流VLA系统,要么聚焦双臂低目田度夹爪松手,要么专攻单臂高目田度贤达手操作,历久无法兼顾双臂协同与密致手指动作的双重需求。
比如活塞插入需双臂精确合作,拧瓶盖、密致取物则依赖多指纯真调控,这类任务历久衰退长入的VLA处置决策。
近日,首个原生面向双臂双高目田度(36目田度)贤达操作的开源VLA模子:Dexora,冲破此前VLA的方法壁垒,为通用贤达机器东谈主的落地提供了全新范式。

硬件与遥操作:虚实协同的贤达数据底座
高目田度贤达操作的中枢前提,是精确、可鸿沟化的数据蚁集。Dexora放弃单一遥操作决策,打造“外骨骼+VR”夹杂遥操作系统,同期驱动物理机器东谈主与MuJoCo数字孪生,从根源处置数据蚁集的精度与鸿沟贫瘠。

▲Dex硬件与夹杂遥操作系统暗意图©[深蓝具身智能]编译
可结束扭转、捏取等类东谈主密致操作,整套系统统计36目田度,为复杂双手协同任务提供硬件基础。
定制外骨骼背包捕捉机械臂合座通顺(无漂移、低延伸),AppleVisionPro结束无符号手指跟踪,兼顾手臂大范围挪动的强健性与手指密致动作的纯真性。

▲仿真/真确数据集物体与任务漫步暗意图©[深蓝具身智能]编译
更舛错的是虚实同步诡计:
遥操作请示同期下发物理机器东谈主与数字孪生,两者传感器数据(4路RGB、36目田度要津景象)20Hz同步纪录。
既保险真确场景数据的真确性,又能在仿真中低资本彭胀任务场景,造成“真确+仿真”互补的数据集。
最终构建的数据集包含10万条仿真轨迹(650万帧)、1万条真确遥操作轨迹(292万帧),心事30类仿真物体、17类真确物体,兼顾基础抓取与密致贤达任务。

模子架构:扩散Transformer+质地判别器双中枢
Dexora基于数据质地感知的端到端VLA架构,通过扩散Transformer生成动作,搭配离线质地判别器过滤噪声数据,处置遥操作数据质地絮聒不都、高维动作检修不强健的行业痛点。

▲Dexora合座总览图(动机/数据/架构/性能/泛化)©[深蓝具身智能]编译
扩散Transformer战略网罗
接受解码器-only扩散Transformer当作战略中枢,输入多视角RGB图像、话语请示与现时要津景象,输出36目田度辘集动作序列。
模子接受T5编码话语请示、SigLip编码图像特征,轮流注入Transformer块,通以前噪权衡生成动作,兼顾多模态会通材干涉高维动作建模精度。
数据质地判别器
遥操作数据常因操作罪恶、传感器噪声存在低质地轨迹,平直检修会拉低模子性能。
Dexora诡计离线判别器,通过“通顺平滑度+任务得胜率”双重圭臬筛选数据:
判别器以冻结的预检修战略为基准,权衡轨迹质地得分(0-1),检修时将得分升沉为权重,高质地轨迹权重高、低质地轨迹权重低,米兰体育app2026世界杯(中国)官方下载公式简化为:
其中为质地权重,为权衡噪声,为真确噪声。这种诡计让模子聚焦灵验数据,大幅耕作高维贤达动作的检修强健性。

检修经由:三阶段渐进式优化
Dexora接受“仿真预检修+判别器检修+真确微调”三阶段检修,均衡基础材干涉贤达妙技,结束从仿真到真确的平滑转移。

▲Dex数据过滤、判别器检修、质地感知检修框架图©[深蓝具身智能]编译
第一阶段,开云体育(kaiyun)官方网站10万仿真轨迹预检修,让模子掌合手抓取、拼装等基础操作,造成开动动作生成材干;
第二阶段,用筛选后的高质地真确数据检修判别器,使其精确识别轨迹优劣;
第三阶段,用一起真确数据微调战略,通过质地权重换取,让模子从基础材干进阶到拧瓶盖、密致取物等贤达妙技。

性能与泛化
实验终端剖释,Dexora在基础任务、贤达任务、跨方法泛化三大维度均结束突破,考据了双臂双高目田度诡计与质地感知检修的灵验性。

▲基础任务示例图©[深蓝具身智能]编译

▲基础任务得胜率对比表©[深蓝具身智能]编译
平均得胜率达89.6%,12项任务中7项得胜率超90%,双臂协同任务(如双手递物、嵌套碗分别)上风显赫,远超GR00TN1(82.1%)、π0(50.4%)等基线。

▲贤达任务示例图©[深蓝具身智能]编译

▲贤达任务得胜率对比表©[深蓝具身智能]编译
尊龙凯时中国官网入口平均得胜率66.7%,较最优基线GR00TN1(51.7%)耕作15个百分点,尤其在拧瓶盖、密致面团操作等需要双手合作+多指调控的任务中,基线险些失效,Dexora仍能强健完成。

▲漫步外泛化性能图©[深蓝具身智能]编译
一是漫步外泛化,在未知配景、光照、物体、掩饰等场景下,得胜率仅小幅着落,鲁棒性强;
二是跨方法转移,36目田度模子可平直适配单臂夹爪、双臂夹爪、单臂低目田度手,无需从头检修,仅需适配动作维度,冲破VLA的方法依赖。

▲基础任务得胜率对比表©[深蓝具身智能]编译
消融实考据,质地判别器可镌汰动作抖动,耕作任务强健性,评释“真确数据+质地感知”是贤达VLA的中枢身分。

▲质地判别器后果对比轨迹图©[深蓝具身智能]编译

贤达VLA:价值与局限并存
Dexora是首个原生双臂双高目田度VLA,评释高目田度模子可向下兼容低目田度开拓,为通用机器东谈主提供“高维检修、低维部署”新想路。
虚实协同蚁集+质地感知检修,处置贤达数据稀缺、噪声大的贫瘠,为高维VLA数据建树提供参考。

▲Dexora与主流VLA的方法心事对比图©[深蓝具身智能]编译
同期,存在的局限在于:
硬件依赖:36目田度系统资本高,难以快速普及,且无触觉反映,拧瓶盖等战争敏锐任务得胜率仍低。
任务局限:复杂永劫序任务(如多法式安装)、动态环境相宜材干不及。
泛化范畴:跨材质、极点场景的强健性有待耕作。
过往VLA要么“能双手不密致”,要么“能密致不双手”。
Dexora初次将两者长入,用开源模式镌汰门槛,为管事机器东谈主、工业贤达操作等场景提供可行决策。
畴昔,若能会通触觉反映、强化永劫序推理,Dexora有望进一步放松与东谈主类操作的差距,鼓动通用贤达机器东谈主从实验室走向实验愚弄。
Ref
论文标题:Dexora:Open-sourceVLAforHigh-DoFBimanualDexterity
论文作家:ZongzhengZhang,JingruiPang,ZhuoYang,KunLi,MinwenLiao,SainingZhang,GuoxuanChi,JinbangGuo,Huan-angGao,ModiShi,DongyunGe,YaoMu开云体育(kaiyun)官方网站,JiayuanGu,RuiChen,HaoDong,HuazheXu,LiYi,YixinZhu,HangZhao,PengweiWang,ShanghangZhang,GuocaiYao,JianyuChen,HongyangLi,HaoZhao