视觉语言动作(VLA)模型通过利用预验证的视觉和语言表示,具有先进的通用机器人操作。但是,他们在需要涉及力的细粒度控制的接触式任务上挣扎,尤其是在视觉阻塞或动态不确定性下。为了解决这些局限性,我们建议\ textbf {forcevla},这是一种新颖的端到端操纵框架,将外部力传感视为VLA系统中的一流模态 ...
0 0 0 2025/05/31 arXiv:2505.22159v1 蔡明方
视觉语言动作(VLA)模型已成为机器人技术中的下一代模型。但是,尽管利用强大的预训练的视觉模型(VLMS),但现有的端到端VLA系统在微调过程中通常会失去关键功能,因为该模型适应了特定的机器人任务。我们认为,可概括的VLA模型应保留并扩展VLM的核心能力:1)开放世界体现的推理 -  VLA应继承VLM的知识,i ...
0 0 0 2025/05/31 arXiv:2505.21906v1 蔡明方
随着体现人工智能的发展,诸如视觉语言行动(VLA)模型之类的端到端控制政策已成为主流。现有的VLA型号面临昂贵的计算/存储成本,需要优化。量化被认为是最有效的方法,它不仅可以降低记忆成本,还可以实现计算加速 ...
0 0 0 2025/05/31 arXiv:2505.21567v1 蔡明方
动态3D场景重建的最新进展显示出了令人鼓舞的结果,从而使高保真3D新型视图合成并具有改善的时间一致性。其中,由于其能够建模高保真空间和时间变化的能力,因此4D高斯(4DG)已成为一种吸引人的方法。但是,由于4D高斯对静态区域的分配冗余,现有方法具有大量的计算和内存开销,这也会降低图像质量 ...
0 0 0 2025/05/31 arXiv:2505.13215v1 Roa
扩散概率模型(DPM)在与gans的图像产生中达到了卓越的质量。但是与甘斯不同,DPM使用一组缺乏语义含义的潜在变量,并且不能用作其他任务的有用表示。本文探讨了使用DPM进行表示学习的可能性,并试图通过自动编码来提取输入图像的有意义且可解码的表示 ...
0 0 0 2025/05/30 arXiv:2111.15640v3 qiuyan
联合排名学习(FRL)是一个最先进的FL框架,其沟通效率和对中毒攻击的韧性而脱颖而出。它以两种方式与传统的FL框架分歧:1)它利用离散排名而不是梯度更新,大大降低了沟通成本并限制了恶意更新的潜在空间,以及2)它在服务器方面使用多数投票来建立全球排名,从而确保单个更新的影响很小,因为每个客户只会贡献一次投票。这些功能增强了系统的可扩展性和位置FRL,作为FL训练的有希望的范式 ...
0 0 0 2025/05/30 arXiv:2503.08976v3 xixiaixixi
我们提出了一种单发方法,用于同时检测RGB图像中的对象,并预测其6D姿势而无需多个阶段或必须检查多个假设。与最近提出的针对此任务的单发技术(KEHL等人,ICCV'17)不同,该技术仅预测了必须进行完善的大约6D姿势,因此我们的操作非常准确,不需要其他后处理 ...
0 0 0 2025/05/30 arXiv:1711.08848v5 hanzhuo
深度神经网络(DNN)在现实世界中的动态设置中通常表现不佳,其中数据分布会随着时间而变化。域增量学习(DIL)通过启用连续模型适应来提供解决方案,而参数 - 隔离DIL(PIDIL)作为减少知识冲突的有前途的范式出现。但是,现有的PIDIL方法与参数选择的精度相加困难,尤其是随着域和相应类的数量的增长 ...
0 0 0 2025/05/30 arXiv:2505.23744v1 19396386025

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)