一译 —— 文档和论文翻译、对照阅读、讨论和社区

Towards Scale Balanced 6-DoF Grasp Detection in Cluttered Scenes

在本文中，我们将重点放在特征学习的问题上，存在于6-DOF GRASP检测的规模不平衡的情况下，并提出了一种新颖的方法，特别是解决了处理小规模样本的困难。提出了多尺度的圆柱体组（MSCG）模块，以通过组合多尺度缸体和全局环境来增强本地几何表示。此外，设计了量表平衡学习（SBL）损失和对象平衡采样（OBS）策略，其中SBL扩大了样品的梯度，其样品的尺度在APRIORI权重较低的情况下，而OBS借助辅 ...

0 0 0 2025/05/22 arXiv:2212.05275v1 18801130956

DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

创建大型、多样化、高质量的机器人操作数据集是迈向更强大、更强大的机器人操作政策的重要基石。然而，创建此类数据集具有挑战性：在不同环境中收集机器人操作数据会带来后勤和安全挑战，并且需要在硬件和人力方面进行大量投资。因此，即使是当今最通用的机器人操纵策略，也大多是根据场景和任务多样性有限的少数环境中收集的数据进行训练的 ...

0 0 0 2025/05/22 arXiv:2403.12945v2 18801130956

Universal Features Guided Zero-Shot Category-Level Object Pose Estimation

物体构成估计，在计算机视觉和机器人技术应用中至关重要，面临着看不见类别的多样性的挑战。我们提出了一种零击方法，以实现类别级别的6-DOF对象姿势估计，该方法利用了输入RGB-D图像的2D和3D通用特征以建立基于语义相似性的对应关系，并且可以将其扩展到不看到的类别，而无需其他模型。我们的方法首先结合有效的2D通用特征，以找到类别内对象之间的稀疏对应关系，并获得初始的粗姿势 ...

0 0 0 2025/05/22 arXiv:2501.02831v1 18801130956

Omni6D: Large-Vocabulary 3D Object Dataset for Category-Level 6D Object Pose Estimation

6D对象姿势估计旨在从单个RGBD图像中确定对象的翻译，旋转和比例。最近的进步将这一估计从实例级扩展到类别级别，从而允许模型在同一类别中的看不见的实例中概括。但是，这种概括受到现有数据集涵盖的类别范围的限制，例如NOCS，这些类别也倾向于忽略诸如遮挡之类的常见现实世界中的挑战 ...

0 0 0 2025/05/22 arXiv:2409.18261v3 18801130956

Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

视力大型语言模型（LLM）的最新发展取得了显着的进步，但仍遇到对多模式通才的挑战，例如粗粒度的实例级别的理解，对图像和视频的统一支持缺乏统一的支持，以及在各种视觉任务中的覆盖范围不足。在本文中，我们介绍了Vivron，这是一种通用像素级视觉LLM，旨在全面理解，生成，分割和编辑静态图像和动态视频。 Votron在LLM主链的基础上建立在其前端模块内的图像，视频和像素级区域视觉效果的编码器，同时采用 ...

0 0 0 2025/05/22 arXiv:2412.19806v1 mjtree

PTrajM: Efficient and Semantic-rich Trajectory Learning with Pretrained Trajectory-Mamba

车辆轨迹为各种现实世界应用提供了至关重要的运动信息。为了更好地利用车辆轨迹，必须开发一种轨迹学习方法，该方法可以有效，有效地提取丰富的语义信息，包括运动行为和旅行目的，以支持准确的下游应用程序。但是，创建这种方法提出了两个重大挑战 ...

0 0 0 2025/05/22 arXiv:2408.04916v1 momo_curtain

TranSUN: A Preemptive Paradigm to Eradicate Retransformation Bias Intrinsically from Regression Models in Recommender Systems

回归模型对于推荐系统至关重要。但是，社区内已明显忽略了转化的偏见问题。尽管其他领域的许多作品都设计了有效的偏见校正方法，但所有这些方法都是在模型外部进行事后治疗的，当应用于现实世界中的推荐系统时，面临实际挑战 ...

0 0 0 2025/05/22 arXiv:2505.13881v1 jacky2025

Towards Suturing World Models: Learning Predictive Models for Robotic Surgical Tasks

我们介绍了基于专门的扩散生成模型，该模型通过在注释的腹腔镜手术镜头上进行监督学习，捕获细粒机器人手术子缝隙动作的时空动力学。提出的模型为数据驱动的世界模型构成了基础，该模型能够模拟具有高时间忠诚的手术缝合的生物力学相互作用和程序动力学。注释从模拟视频中提取的$ \ sim2k $剪辑的数据集，我们将手术动作分类为细粒的子缝线类，包括理想和非理想执行针头定位，靶向，驾驶，驾驶和撤回 ...

0 0 0 2025/05/22 arXiv:2503.12531v1 swang

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）