训练计算机理解、建模和合成人类抓取需要丰富的数据集,其中包含复杂的 3D 对象形状、详细的接触信息、手部姿势和形状以及随时间变化的 3D 身体运动。虽然“抓取”通常被认为是单手稳定地举起物体,但我们捕捉整个身体的运动并采用“全身抓取”的广义概念。因此,我们收集了一个新的全身抓取数据集,称为 GRAB(GRasping Actions with Bodies),其中包含 10 名受试者与 51 个不同形状和大小的日常物体互动的完整 3D 形状和姿势序列。给定 MoCap 标记,我们拟合完整的 3D 身体形状和姿势,包括铰接的面部和手部,以及 3D 对象姿势。这会随着时间的推移提供详细的 3D 网格,我们可以根据这些网格计算身体和物体之间的接触。这是一个独特的数据集,远远超出了现有的数据集,用于建模和理解人类如何抓取和操纵物体、他们的全身如何参与以及交互如何随任务变化。我们通过一个示例应用来说明 GRAB 的实用价值;我们训练 GrabNet(一种条件生成网络)来预测未见过的 3D 物体形状的 3D 手握持情况。数据集和代码可用于此 https URL 中的研究目的 ...

0 0 0 0 2026/01/12 arXiv:2008.11200v1 zhanghl1987

最近,数据集压缩在图像领域取得了重大进展。与图像不同,视频具有额外的时间维度,其中包含大量冗余信息,使得压缩变得更加重要。然而,视频数据集压缩仍然是一个尚未充分开发的领域。我们的目标是通过提供系统设计和公平比较的大规模研究来弥补这一差距。具体来说,我们的工作深入研究了三个关键方面,以提供有价值的经验见解:(1)视频数据的时间处理,(2)视频数据集压缩的评估协议,以及(3)压缩算法对时空域的适应。从这项研究中,我们得出了一些有趣的观察结果:(i)标记方法极大地影响了凝聚性能,(ii)简单的滑动窗口采样对于时间处理来说是有效的,(iii)数据集蒸馏方法在具有挑战性的场景中表现更好,而样本选择方法在更简单的场景中表现更好。此外,我们提出了一个统一的评估协议,用于公平比较不同的压缩算法,并在四个广泛使用的动作识别数据集:HMDB51、UCF101、SSv2 和 K400 上取得了最先进的结果。我们的代码可以在这个 https URL 上找到 ...

0 0 0 0 2026/01/12 arXiv:2412.21197v2 1939058274

快速学习是将预先训练的视觉语言模型(VLM)应用于少数镜头场景中的生物医学图像分类任务的最有效范例之一。然而,目前的提示学习方法大多仅使用文本提示,而忽略了生物医学图像中的特定结构(例如复杂的解剖结构和微妙的病理特征)。在这项工作中,我们提出了 Biomed-DPT,一种知识增强的双模态提示调整技术。在设计文本提示时,Biomed-DPT构建了包括模板驱动的临床提示和大语言模型(LLM)驱动的领域适应提示的双重提示,然后通过知识蒸馏技术从领域适应提示中提取临床知识。在设计视觉提示时,Biomed-DPT引入了零向量作为软提示,以利用注意力重新加权,从而避免对非诊断区域的关注和对非关键病理特征的识别。 Biomed-DPT 在涵盖 9 个模态和 10 个器官的 11 个生物医学图像数据集上实现了 66.14\% 的平均分类准确率,在基类中的性能达到 78.06\%,在新类中达到 75.97\%,分别超过上下文优化(CoOp)方法 6.20\%、3.78\% 和 8.04\%。我们的代码可在 \underline{此 https URL} 中找到 ...

0 0 0 0 2026/01/12 arXiv:2505.05189v1 Mai

Segment Anything Model 2 (SAM 2) 在对象分割任务中表现出强大的性能,但在视觉对象跟踪方面面临挑战,特别是在管理具有快速移动或自遮挡对象的拥挤场景时。此外,原始模型中的固定窗口内存方法没有考虑为调节下一帧的图像特征而选择的内存的质量,导致视频中的错误传播。本文介绍了 SAMURAI,它是 SAM 2 的增强版本,专为视觉对象跟踪而设计。通过将时间运动线索与所提出的运动感知内存选择机制相结合,SAMURAI 可以有效地预测对象运动并细化掩模选择,从而实现稳健、准确的跟踪,而无需重新训练或微调。 SAMURAI 实时运行,在不同的基准数据集上展示了强大的零样本性能,展示了其无需微调的泛化能力。在评估中,SAMURAI 比现有跟踪器在成功率和精度方面取得了显着提高,LaSOT$_{\text{ext}}$ 的 AUC 提高了 7.1%,GOT-10k 的 AO 提高了 3.5%。此外,与 LaSOT 上的完全监督方法相比,它取得了有竞争力的结果,强调了其在复杂跟踪场景中的鲁棒性及其在动态环境中实际应用的潜力 ...

0 0 0 0 2026/01/12 arXiv:2411.11922v2 gonghaibin

在严格的部分观察下,在开放世界物体的机器人操作中,面向任务的灵巧抓取仍然具有挑战性,其中大量丢失的数据使通用形状完成无效。在本文中,为了克服这一限制,我们研究了面向任务的形状完成,这是一项新任务,重点是完成潜在的接触区域而不是整个形状。我们认为,抓取的形状完成应该由下游操作任务明确指导。为了实现这一目标,我们首先利用来自多个预先训练的基础模型的对象功能理解的零样本功能,生成多个面向任务的形状完成候选者。然后提出一种 3D 判别式自动编码器来评估每个生成的候选者的合理性,并从全局角度优化最合理的候选者。开发了一种名为 FlowGrasp 的条件流匹配模型,用于从优化的形状生成面向任务的灵巧抓取。我们的方法在面向任务的灵巧抓取和面向任务的形状完成方面实现了最先进的性能,将抓取位移和倒角距离分别比最先进的方法提高了 16.17% 和 55.26%。特别是,它在抓取数据严重缺失的物体方面表现出了良好的能力。它还在处理开放集类别和任务方面表现出良好的通用性 ...

0 0 0 0 2026/01/12 arXiv:2601.05499v1 liushibo

思想链(CoT)提示显着增强了大型语言模型的数学推理能力。我们发现现有的微调数据集经常遇到“答案正确但推理错误”的问题,其中正确的最终答案来自于幻觉、冗余或逻辑上无效的中间步骤。本文提出了EntroCoT,一个用于自动识别和细化低质量CoT监督痕迹的统一框架。 EntroCoT 首先提出一种基于熵的机制,在不确定的时刻将推理轨迹分割为多个步骤,然后引入基于蒙特卡洛 rollout 的机制来评估每个步骤的边际贡献。通过准确过滤欺骗性推理样本,EntroCoT 构建了一个高质量的数据集,其中每个推理轨迹中的每个中间步骤都有助于最终答案。对数学基准的大量实验表明,对 EntroCoT 构建的子集进行微调始终优于全数据集监督的基准 ...

0 1 0 0 2026/01/12 arXiv:2601.03769v2 Qxxx2616

机器人灵巧抓取是实现类人灵巧物体操作的第一步,因此是一项至关重要的机器人技术。然而,与平行夹具的物体抓取相比,灵巧抓取的研究还不够充分,部分原因是缺乏大规模数据集。在这项工作中,我们提出了一个大规模机器人灵巧抓取数据集 DexGraspNet,它是由我们提出的高效合成方法生成的,可普遍应用于任何灵巧的手。我们的方法利用深度加速的可微分力闭合估计器,因此可以高效、鲁棒地大规模合成稳定且多样化的抓握。我们选择 ShadowHand 并为 5355 个对象生成 132 万个抓取,涵盖超过 133 个对象类别,并为每个对象实例包含 200 多个不同的抓取,所有抓取都经过 Isaac Gym 模拟器的验证。与之前由 GraspIt! 生成的 Liu 等人的数据集相比,我们的数据集不仅具有更多的对象和掌握,而且具有更高的多样性和质量。通过执行跨数据集实验,我们表明在我们的数据集上训练几种灵巧掌握综合算法的效果明显优于前一种算法的训练。要访问我们的数据和代码,包括人类和 Allegro 抓取合成的代码,请访问我们的项目页面:此 https URL ...

0 0 0 0 2026/01/12 arXiv:2210.02697v2 zhanghl1987

我们介绍 PartSTAD,一种专为 2D 到 3D 分割提升的任务适配而设计的方法。最近的研究强调了利用 2D 分割模型通过少样本自适应实现高质量 3D 分割的优势。然而,以前的方法侧重于调整 2D 分割模型以将域转移到渲染图像和合成文本描述,而不是专门针对 3D 分割优化模型。我们提出的任务适应方法使用 3D 分割的目标函数微调 2D 边界框预测模型。我们引入了用于自适应合并的 2D 边界框的权重,并使用小型附加神经网络来学习权重。此外,我们还结合了 SAM(边界框上的前景分割模型),以改善 2D 分割的边界,从而改善 3D 分割的边界。我们在 PartNet-Mobility 数据集上的实验表明,我们的任务适应方法取得了显着改进,与 SotA 少样本 3D 分割模型相比,语义和实例分割的 mIoU 提高了 7.0%p,mAP@50 提高了 5.2%p ...

0 0 0 0 2026/01/12 arXiv:2401.05906v3 liushibo

视觉 Transformer (ViT)已成为计算机视觉的基础模型,在泛化和适应下游任务方面表现出色。然而,部署 ViT 来支持不同的资源限制通常需要重新训练多个特定规模的 ViT,这既耗时又耗能。为了解决这个问题,我们提出了一种高效的 ViT 适配框架,该框架使单个适配过程能够生成不同大小的多个模型,以便部署在具有各种资源限制的平台上。我们的方法包括两个阶段。在第一阶段,我们通过嵌套弹性架构增强了预训练的 ViT,该架构在 MLP 扩展率、注意力头数量、嵌入维度和网络深度方面实现了结构灵活性。为了保留预先训练的知识并确保稳定的适应,我们采用基于课程的培训策略,逐步增加弹性。在第二阶段,我们设计一个轻量级路由器,根据计算预算和下游任务需求选择子模型。路由器使用通过定制 NSGA-II 算法导出的帕累托最优配置进行初始化,然后与主干网联合优化。对多个基准的大量实验证明了 EA-ViT 的有效性和多功能性。该代码可从此 https URL 获取 ...

0 0 0 0 2026/01/12 arXiv:2507.19360v1 15966829631

为物理模拟角色合成优雅且逼真的行为一直是计算机动画中的一个基本挑战。利用运动跟踪的数据驱动方法是为各种行为产生高保真度运动的一类突出技术。然而,这些基于跟踪的方法的有效性通常取决于精心设计的目标函数,并且当应用于大型且多样化的运动数据集时,这些方法需要大量额外的机制来为角色在给定场景中选择适当的运动来跟踪。在这项工作中,我们建议通过利用基于对抗性模仿学习的全自动方法来消除手动设计模仿目标和运动选择机制的需要。角色应该执行的高级任务目标可以通过相对简单的奖励函数来指定,而角色行为的低级风格可以通过非结构化运动剪辑的数据集来指定,而不需要任何显式的剪辑选择或排序。这些运动剪辑用于先训练对抗性运动,该运动先验指定通过强化学习 (RL) 训练角色的风格奖励。对抗性强化学习过程自动选择要执行的运动,从数据集中动态插值和概括。我们的系统产生的高质量运动可与最先进的基于跟踪的技术所实现的运动相媲美,同时还能够轻松容纳非结构化运动剪辑的大型数据集。不同技能的组合会从先前的动作中自动出现,无需高级动作规划器或动作剪辑的其他特定于任务的注释。我们在各种复杂的模拟角色和一系列具有挑战性的电机控制任务上展示了我们的框架的有效性 ...

0 1 0 0 2026/01/12 arXiv:2104.02180v2 mark