一译 —— 文档和论文翻译、对照阅读、讨论和社区

SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation

在本文中，我们为零击对象导航提出了一个新框架。现有的零击对象导航方法促使LLM带有空间封闭的对象的文本，该方法缺乏足够的场景上下文来进行深入推理。为了更好地保留环境信息并充分利用LLM的推理能力，我们建议用3D场景图表示观察到的场景 ...

0 0 0 2025/04/17 arXiv:2410.08189v1 19396386025

Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval

跨语言跨模式检索（CCR）旨在根据非英语查询来检索视觉相关的内容，而无需在训练过程中依靠人类标记的跨模式数据对。一种流行的方法涉及利用机器翻译（MT）创建伪并行数据对，并在视觉和非英语文本数据之间建立对应关系。但是，由于视觉和文本之间存在显着的语义差距，以及由预训练的编码器和数据噪声引起的非英语表示的质量较低，因此对它们的表示形式构成了挑战 ...

0 0 0 2025/04/17 arXiv:2409.19961v1 arthur

RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

在本报告中，我们提出了RT-DETRV2，这是改进的实时检测 Transformer （RT-DETR）。 RT-DETRV2建立在先前的最先进的实时检测器RT-Det上，并打开了一组释放宽比的弹性和实用性，并优化了培训策略以实现增强的性能。为了提高灵活性，我们建议在可变形注意的不同尺度上设置不同数量的采样点，以实现解码器的选择性多尺度特征提取 ...

0 0 0 2025/04/17 arXiv:2407.17140v1 per

Grasping Diverse Objects with Simulated Humanoids

我们提出了一种控制模拟的类人动物以抓住对象并将其移动以遵循对象轨迹的方法。由于在用灵巧的手控制类人动物方面面临的挑战，先前的方法通常使用无形的手，仅考虑垂直升降机或短轨迹。这种有限的范围妨碍了对动画和模拟所需的对象操纵的适用性 ...

0 0 0 2025/04/17 arXiv:2407.11385v1 陆三七

GeneOH Diffusion: Towards Generalizable Hand-Object Interaction Denoising via Denoising Diffusion

在这项工作中，我们解决了剥夺手动相互作用（HOI）的具有挑战性的问题。考虑到错误的相互作用序列，目的是完善不正确的手轨迹，以去除感知逼真的序列的相互作用伪像。这项挑战涉及复杂的相互作用噪声，包括不自然的手势和不正确的手动关系，以及对新的相互作用和多样化噪声模式的鲁棒性概括的必要性 ...

0 0 0 2025/04/17 arXiv:2402.14810v1 陆三七

AnomalyR1: A GRPO-based End-to-end MLLM for Industrial Anomaly Detection

工业异常检测（IAD）由于稀缺性样本而构成了巨大的挑战，因此必须必须部署能够鲁棒性概括以有效地检测出不见异常的模型。传统的方法通常受到手工制作的功能或特定领域的专家模型的约束，难以解决此限制，强调了对范式转变的需求。我们介绍了Anomalyr1，这是一个利用VLM-R1的开创性框架，该框架是一种以其出色的概括和可解释性为众所周知的多模式大型语言模型（MLLM），以彻底改变IAD ...

0 0 0 2025/04/17 arXiv:2504.11914v1 Ojuice

Diff-IP2D: Diffusion-Based Hand-Object Interaction Prediction on Egocentric Videos

了解人类在手动相互作用中的行为方式对于在服务机器人操纵和扩展现实中的应用至关重要。为了实现这一目标，已经提出了一些最近的作品，以同时预测以人类自我为中心视频的手动轨迹和对象。该联合预测是2D空间中未来手动相互作用的综合表示，表明了潜在的人类运动和动机 ...

0 0 0 2025/04/17 arXiv:2405.04370v4 陆三七

CooHOI: Learning Cooperative Human-Object Interaction with Manipulated Object Dynamics

长期以来，使人形机器人能够清洁房间一直是人类研究社区中的梦想。但是，许多任务都需要多类人类的合作，例如将大型和重型家具携带在一起。鉴于关于多人类协作的运动捕获数据的稀缺性以及与多机构学习相关的效率挑战，这些任务不能使用专为单人场景设计的培训范式直接解决 ...

0 0 0 2025/04/17 arXiv:2406.14558v3 陆三七

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）