一译 —— 文档和论文翻译、对照阅读、讨论和社区

Manual2Skill: Learning to Read Manuals and Acquire Robotic Skills for Furniture Assembly Using Vision-Language Models

人类具有通过解释抽象说明手册来理解和执行复杂操作任务的非凡能力。但是，对于机器人而言，这种功能仍然是一个重大的挑战，因为它们无法解释抽象说明并将其转化为可执行的动作。在本文中，我们提出了Manual2Skill，这是一个新颖的框架，使机器人能够执行以高级手动说明为指导的复杂的装配任务 ...

0 1 0 2025/03/25 arXiv:2502.10090v1 Curry123

Image-level Regression for Uncertainty-aware Retinal Image Segmentation

准确的视网膜血管（RV）分割是视网膜脉管系统定量评估的关键步骤，这是对视网膜疾病和其他疾病的早期发现所需的。已经进行了许多研究，以解决使用像素分类方法自动分割容器的问题。创建地面真相标签的常见做法是将像素分类为前景和背景 ...

0 0 0 2025/03/25 arXiv:2405.16815v2 Theo

Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment

人工智能的一致性追求模型响应与人类偏好和价值观之间的一致性。在实践中，人类偏好的多方面性质无意中引入了所谓的“一致性税”——一种妥协，其中增强了一个目标内的一致性（例如， ...

0 0 0 2025/03/25 arXiv:2402.19085v3 微生心月

Interaction-Guided Two-Branch Image Dehazing Network

Dimage Dehazing旨在从朦胧的图像恢复清洁图像。卷积神经网络（CNN）和变形金刚在局部和全局特征提取中表现出了出色的性能，目前代表了图像去险的两个主流框架。在本文中，我们提出了一个新型的双分支图像除尘框架，该框架可以互动地指导CNN和 Transformer 组件 ...

0 0 0 2025/03/25 arXiv:2410.10121v1 jiajia233

LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models

空间推理是人类认知的一个基本方面，可以在三维空间中直观地理解和操纵对象。尽管基础模型在某些基准上表现出了出色的性能，但他们仍然在3D推理任务上挣扎，例如根据开放式语言说明在太空中安排对象，尤其是在密集且身体受到限制的环境中。我们介绍了LayoutVLM，这是一个框架和场景布局表示，利用了视觉模型（VLM）的语义知识，并支持可区分的优化以确保物理上的合理性 ...

0 0 0 2025/03/25 arXiv:2412.02193v3 漏视野

Holistic Understanding of 3D Scenes as Universal Scene Description

3D场景理解是计算机视觉的长期挑战，也是实现混合现实，可穿戴计算和体现AI的关键组成部分。为这些应用程序提供解决方案，需要采用多方面的方法，涵盖以场景为中心，以对象为中心以及以互动为中心的功能。尽管存在许多数据集来解决前一个问题，但理解可相互作用和铰接的对象的任务不足，只有当前作品的部分涵盖 ...

0 0 0 2025/03/25 arXiv:2412.01398v1 漏视野

RecDCL: Dual Contrastive Learning for Recommendation

自我监督学习（SSL）最近在挖掘用户项目交互以进行协作过滤方面取得了巨大成功。作为主要范式，基于对比度学习（CL）的SSL通过对比原始数据和增强数据之间的嵌入来帮助解决Web平台中的数据稀疏性。但是，现有的基于CL的方法主要集中在批处理的方式上，因此未能利用特征维度的潜在规律性 ...

0 0 0 2025/03/25 arXiv:2401.15635v2 zxykbz

Interacted Object Grounding in Spatio-Temporal Human-Object Interactions

时空人机交互（ST-HOI）理解旨在从视频中检测 HOI，这对于活动理解至关重要。然而，现有的全身对象交互视频基准忽略了开放世界对象是多样化的事实，也就是说，它们通常提供有限的和预定义的对象类。因此，我们引入了一个新的开放世界基准：Grounding Interacted Objects (GIO)，包括 1,098 个交互对象类和 290K 个交互对象框注释 ...

0 0 0 2025/03/25 arXiv:2412.19542v2 yiyi07

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）