为了推动AI代理,大型基础模型显着改善了推理和指导执行,但是当前对视觉和语言的关注忽略了在开放世界环境中感知各种方式的潜力。但是,数据驱动的视觉和语言模型的成功是昂贵的甚至是不可行的,无法以极少数的方式复制。在本文中,我们提出VIT-LENS-2,通过以验证的VIT感知新颖的方式并将其与预定义的空间对齐,从而促进了有效的Omni-Modal表示学习 ...

0 0 0 0 2025/05/12 arXiv:2311.16081v2 smallz

Visuo-Tactile传感器旨在模仿人类的触觉感知,使机器人能够精确理解和操纵物体。随着时间的流逝,许多精心设计的Visuo-Tactile传感器已集成到机器人系统中,有助于完成各种任务。但是,这些低标准的视觉触诊传感器的独特数据特性阻碍了强大的触觉感知系统的建立 ...

0 0 0 0 2025/04/28 arXiv:2502.12191v3 smallz

近年来,多视图学习已成为一个流行的研究主题,但是关于经典多标签分类和多视图学习的跨应用的研究仍处于早期阶段。在本文中,我们专注于不完整的多视图多标签学习的复杂但高度现实的任务,并提出了一个基于深神经网络的掩盖的两通道解耦框架,以解决此问题。我们方法的核心创新在于将单渠道视图级表示(在深度多视图学习方法中很常见)分解为共享表示形式和视图专有表示形式 ...

0 0 0 0 2025/04/24 arXiv:2404.17340v1 smallz

众所周知,多视图数据比单视图数据更具表现力,而多标签注释比单标签享有更丰富的监督信息,这使得多视图多标签学习广泛适用于各种模式识别任务。在这个复杂的表示学习问题中,可以将三个主要挑战表征如下:i)如何在所有观点中学习一致的样本表示? ii)如何利用和利用多标签的类别相关性来指导推断? iii)如何避免因观点或标签的不完整而产生的负面影响?为了解决这些问题,我们提出了一个一般的多视图多标签学习框架,名为标签引导的蒙版视图和类别感知的 Transformer 。首先,我们设计了两个基于 Transformer 式的模块,分别用于跨视图特征聚合和多标签分类 ...

0 0 0 0 2025/04/24 arXiv:2303.07180v1 smallz

近年来,多视图多标签学习引起了广泛的研究热情。但是,由于数据收集和手动注释的不确定因素,现实世界中的多视标性数据通常是不完整的,这意味着不仅缺少多视图功能,而且标签完整性也很难得到满足。为了解决双重不完整的多视图多标签分类问题,我们提出了一个深层实例级的对比网络,即DICNET ...

0 0 0 0 2025/04/24 arXiv:2303.08358v2 smallz

作为多视图学习和多标签分类的跨主题,近年来,多视图多标签分类逐渐获得了吸引力。多视图对比学习的应用进一步促进了这一过程,但是,现有的多视图对比学习方法粗略地将所谓的负面对分开,这在很大程度上导致了属于同一类别或相似类别的样本的分离。此外,许多多视图的多标签学习方法忽略了可能缺少观点和标签的方法 ...

0 0 0 0 2025/04/22 arXiv:2303.17117v3 smallz

多视图数据包含来自多种模式的信息,并具有为各种机器学习任务提供更全面的功能的潜力。多视图分析中的一个基本问题是其他视图带来的其他信息是什么,可以定量地识别此其他信息。在这项工作中,我们试图通过将纠缠的多视图功能分解为共享的潜在表示来应对这一挑战,这些特征在每个视图的所有视图和私人表示中都是常见的 ...

0 0 0 0 2025/04/22 arXiv:2105.07599v1 smallz

在许多实际任务中,功能正在发展,某些功能消失了,其他功能增加了。例如,在环境中监视某些传感器已过期的,而某些新的传感器则部署;在手机游戏建议中,一些游戏下降了,而一些新游戏却添加了。以这种增量和降低特征学习至关重要,但很少研究,尤其是当数据像流一样出现时,因此将整个数据保留以进行优化是不可行的 ...

0 0 0 0 2025/04/19 arXiv:1605.09082v1 smallz

我们提出了Unibind,这是一种灵活而有效的方法,它为七种不同方式学习了统一的表示空间 - 图像,文本,音频,点云,热,视频和事件数据。现有作品,例如,图像界,将图像视为中心形态,并构建以图像为中心的表示空间;但是,该空间可能是次优的,因为它导致了所有模式之间的不平衡表示空间 ...

0 0 0 0 2025/04/16 arXiv:2403.12532v1 smallz

我们提出图像界,一种学习跨六个不同方式的关节嵌入的方法 - 图像,文本,音频,深度,热和IMU数据。我们表明,配对数据的所有组合对于训练这种联合嵌入并不是必需的,并且只有图像对数据足以将模态绑定在一起。 ImageBind可以通过使用与图像的自然配对来利用最近的大型视觉语言模型,并将其零击功能扩展到新的模式 ...

0 0 0 0 2025/04/16 arXiv:2305.05665v2 smallz

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)