开云体育app

开云体育APP

开云体育 0.9B跑出90%真机告捷率!上海交大为VLA补上空间感

发布日期:2026-05-27 00:05 来源:未知 作者:admin 浏览次数:

开云体育 0.9B跑出90%真机告捷率!上海交大为VLA补上空间感

机器东说念主看得见,但不一定看得准。

大都 VLA 模子仍然主要依赖二维视觉,一朝遭逢精定位、细摆放、隐敝判断这类需要空间感知的任务,告捷率就会显着下滑。

补空间信息的路有两条,但都有代价。

显式 3D 道路靠深度传感器和点云重建,硬件链路长、对标定差错敏锐;隐式 3D 道路从 RGB 学几何,省了硬件,但不少决策依赖较重的基础模子,检修和推理老本偏高。

咫尺,上海交大 MINT 团队提议了一条中间道路 :

Evo-Depth,约0.9B参数,不稀薄增多硬件职守,用紧凑的隐式深度编码把空间感写进 VLA 计策里,皇冠体育(CrownSports)官网仿真与真机同期兼顾性能与部署恶果。

仿真端,Meta-World 84.4%、LIBERO 95.4%;真机平均告捷率约 90%;部署侧约 3.2 GB 显存、约 12.3 Hz 推理频率。

代码、权重、检修剧本已全面开源。

轻量、可端到端检修

直入主题,Evo-Depth 的中枢想路是 :

从多视角 RGB 索紧要凑的隐式深度表征,再以轻量状貌融入视觉 - 谈话通路,终末通过 flow-matching 动作民众输出运动动作。

整个这个词系统主要由三部分构成 :

1、IDEM:Implicit Depth Encoding Module。

IDEM 融会从多视角图像中索要隐式深度特征,强调空间布局与相对几何关联,开云体育(kaiyun)官方网站而不是显式生成高老本的 3D 中间暗示。

论文中,IDEM 主干约 0.13B 参数,并吞并多视角深度预检修运调度,在轻量条款下引入与深度磋商的归纳偏置。

2、SEM:Spatial Enhancement Module。

SEM 将隐式深度行动一种调制信号,用于增强视觉 - 谈话表征。

比拟凯旋增多寂寞深度分支,这种交融状貌更克制 :

原有 VLM 不竭融会语义流露

深度特征主要融会空间增强

同期尽量收场延长与显存支出

3、Progressive Alignment Training。

多模块鸠合检修常常容易出现优化不雄厚的问题。

为此,作家礼聘 Progressive Alignment Training,通过分阶段检修状貌迟缓完成:深度表征对王人 - 多模态交融 - 动作学习。

动作头则礼聘了现时 VLA 中较常见的 flow-matching 道路。

在约 0.9B 总参数树立下,论文讨教的收尾如下。

仿真:Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。

真机:平均告捷率约 90%。

部署:约 3.2 GB GPU 显存、约 12.3 Hz 推理频率。

值得忽闪的是,比拟只温暖 benchmark 分数,论文也给出了部署侧支出与及时性野心。

关于需要确凿运行在机器东说念主收场回路中的 VLA 来说,这部分信息往往一样痛苦。

性能 - 老本 - 及时性的折中

归根结底,Evo-Depth 措置的问题其实即是一句话:

如安在不权贵增多系统职守的情况下,擢升 VLA 的空间才智。

收尾是——比拟纯二维 VLA,它补充了空间信息;比拟更重的 3D 道路,它又尽量保留了部署恶果。

关于正在作念机器东说念主操作、空间智能或 VLA 系统的团队来说,这类性能 - 老本 - 及时性之间的折中决策,可能会越来越痛苦。

开云体育中国官网在线入口

官方仓库:https://github.com/MINT-SJTU/Evo-Depth

模子权重:https://huggingface.co/MINT-SJTU/EVO-Depth-LIBERO

一键三连「点赞」「转发」「留心心」

接待在指摘区留住你的目标!

—  完  —

咱们正在招聘别称眼疾手快、温暖 AI 的学术裁剪实习生  � �

感兴趣的小伙伴接待温暖 � �  了解笃定

� � 点亮星标 � �

科技前沿进展逐日见开云体育