透明的物体感知对于许多机器人任务来说是不可或缺的。然而,由于复杂的光学特性,准确分割和估计透明物体的深度仍然具有挑战性。现有方法主要使用额外输入或专用传感器仅深入研究一项任务,忽略了任务之间有价值的交互以及随后的细化过程,导致预测不理想且模糊。为了解决这些问题,我们提出了一个单目框架,它是第一个在透明物体的分割和深度估计方面表现出色的框架,仅需要单个图像输入。具体来说,我们设计了一种新颖的语义和几何融合模块,有效地集成了任务之间的多尺度信息。此外,从人类对物体的感知中汲取灵感,我们进一步采用迭代策略,逐步完善初始特征以获得更清晰的结果。对两个具有挑战性的合成和现实数据集的实验表明,我们的模型仅使用单个 RGB 输入就超越了最先进的单目、立体和多视图方法,大幅提高了约 38.8%-46.2%。代码和模型可通过此 https URL 公开获取 ...

0 0 0 0 2025/12/22 arXiv:2502.14616v2 sunye

端到端自动驾驶系统(ADS)凭借其强大的环境感知和泛化驾驶决策能力,越来越受到学术界和工业界的关注。然而,一旦部署在公共道路上,ADS 就不可避免地会面临各种驾驶危险,这些危险可能会危及安全并降低系统性能。这对ADS的弹性提出了强烈的需求,特别是持续监控驾驶危险并自适应响应潜在安全违规的能力,这对于在复杂驾驶场景下保持稳健的驾驶行为至关重要。为了弥补这一差距,我们提出了一个面向运行时弹性的框架 Argus,以减轻驾驶危险,从而防止潜在的安全违规并提高 ADS 的驾驶性能。 Argus 持续监控 ADS 生成的轨迹是否存在潜在危险,并且每当 EGO 车辆被认为不安全时,就会通过危险缓解器无缝地进行控制。我们将 Argus 与三种最先进的端到端 ADS 集成,即 TCP、UniAD 和 VAD。我们的评估表明,Argus 有效且高效地增强了 ADS 的弹性,将 ADS 的驾驶分数平均提高了 150.30%,并阻止了高达 64.38% 的违规行为,而几乎没有额外的时间开销 ...

0 0 0 0 2025/12/17 arXiv:2511.09032v1 sunye

我们提出Dexumi-一个数据收集和政策学习框架,该框架将人的手作为自然界面,将灵活的操纵技能转移到各种机器人手中。 Dexumi包括硬件和软件改编,以最大程度地减少人手和各种机器人手之间的实施差距。硬件改编使用可穿戴的手部骨骼桥接运动学差距 ...

0 0 0 0 2025/11/21 arXiv:2505.21864v3 sunye