smallz的文档

Harnessing Multimodal Large Language Models for Multimodal Sequential Recommendation

大型语言模型 (LLM) 的最新进展展示了推荐系统 (RS) 领域的巨大潜力。大多数现有研究都集中在将用户行为日志转换为文本提示，并利用提示调整等技术来使 LLM 能够执行推荐任务。与此同时，最近对多模态推荐系统的研究兴趣不断增长，该系统使用模态融合技术集成来自图像、文本和其他来源的数据 ...

0 0 0 0 2025/05/25 arXiv:2408.09698v5 smallz

ViT-Lens: Towards Omni-modal Representations

为了推动AI代理，大型基础模型显着改善了推理和指导执行，但是当前对视觉和语言的关注忽略了在开放世界环境中感知各种方式的潜力。但是，数据驱动的视觉和语言模型的成功是昂贵的甚至是不可行的，无法以极少数的方式复制。在本文中，我们提出VIT-LENS-2，通过以验证的VIT感知新颖的方式并将其与预定义的空间对齐，从而促进了有效的Omni-Modal表示学习 ...

0 0 0 0 2025/05/12 arXiv:2311.16081v2 smallz

AnyTouch: Learning Unified Static-Dynamic Representation across Multiple Visuo-tactile Sensors

Visuo-Tactile传感器旨在模仿人类的触觉感知，使机器人能够精确理解和操纵物体。随着时间的流逝，许多精心设计的Visuo-Tactile传感器已集成到机器人系统中，有助于完成各种任务。但是，这些低标准的视觉触诊传感器的独特数据特性阻碍了强大的触觉感知系统的建立 ...

0 0 0 0 2025/04/28 arXiv:2502.12191v3 smallz

Masked Two-channel Decoupling Framework for Incomplete Multi-view Weak Multi-label Learning

近年来，多视图学习已成为一个流行的研究主题，但是关于经典多标签分类和多视图学习的跨应用的研究仍处于早期阶段。在本文中，我们专注于不完整的多视图多标签学习的复杂但高度现实的任务，并提出了一个基于深神经网络的掩盖的两通道解耦框架，以解决此问题。我们方法的核心创新在于将单渠道视图级表示（在深度多视图学习方法中很常见）分解为共享表示形式和视图专有表示形式 ...

0 0 0 0 2025/04/24 arXiv:2404.17340v1 smallz

Incomplete Multi-View Multi-Label Learning via Label-Guided Masked View- and Category-Aware Transformers

众所周知，多视图数据比单视图数据更具表现力，而多标签注释比单标签享有更丰富的监督信息，这使得多视图多标签学习广泛适用于各种模式识别任务。在这个复杂的表示学习问题中，可以将三个主要挑战表征如下：i）如何在所有观点中学习一致的样本表示？ ii）如何利用和利用多标签的类别相关性来指导推断？ iii）如何避免因观点或标签的不完整而产生的负面影响？为了解决这些问题，我们提出了一个一般的多视图多标签学习框架，名为标签引导的蒙版视图和类别感知的 Transformer 。首先，我们设计了两个基于 Transformer 式的模块，分别用于跨视图特征聚合和多标签分类 ...

0 0 0 0 2025/04/24 arXiv:2303.07180v1 smallz

DICNet: Deep Instance-Level Contrastive Network for Double Incomplete Multi-View Multi-Label Classification

近年来，多视图多标签学习引起了广泛的研究热情。但是，由于数据收集和手动注释的不确定因素，现实世界中的多视标性数据通常是不完整的，这意味着不仅缺少多视图功能，而且标签完整性也很难得到满足。为了解决双重不完整的多视图多标签分类问题，我们提出了一个深层实例级的对比网络，即DICNET ...

0 0 0 0 2025/04/24 arXiv:2303.08358v2 smallz

Reliable Representation Learning for Incomplete Multi-View Missing Multi-Label Classification

作为多视图学习和多标签分类的跨主题，近年来，多视图多标签分类逐渐获得了吸引力。多视图对比学习的应用进一步促进了这一过程，但是，现有的多视图对比学习方法粗略地将所谓的负面对分开，这在很大程度上导致了属于同一类别或相似类别的样本的分离。此外，许多多视图的多标签学习方法忽略了可能缺少观点和标签的方法 ...

0 0 0 0 2025/04/22 arXiv:2303.17117v3 smallz

Disentangled Variational Information Bottleneck for Multiview Representation Learning

多视图数据包含来自多种模式的信息，并具有为各种机器学习任务提供更全面的功能的潜力。多视图分析中的一个基本问题是其他视图带来的其他信息是什么，可以定量地识别此其他信息。在这项工作中，我们试图通过将纠缠的多视图功能分解为共享的潜在表示来应对这一挑战，这些特征在每个视图的所有视图和私人表示中都是常见的 ...

0 0 0 0 2025/04/22 arXiv:2105.07599v1 smallz

One-Pass Learning with Incremental and Decremental Features

在许多实际任务中，功能正在发展，某些功能消失了，其他功能增加了。例如，在环境中监视某些传感器已过期的，而某些新的传感器则部署；在手机游戏建议中，一些游戏下降了，而一些新游戏却添加了。以这种增量和降低特征学习至关重要，但很少研究，尤其是当数据像流一样出现时，因此将整个数据保留以进行优化是不可行的 ...

0 0 0 0 2025/04/19 arXiv:1605.09082v1 smallz

UniBind: LLM-Augmented Unified and Balanced Representation Space to Bind Them All

我们提出了Unibind，这是一种灵活而有效的方法，它为七种不同方式学习了统一的表示空间 - 图像，文本，音频，点云，热，视频和事件数据。现有作品，例如，图像界，将图像视为中心形态，并构建以图像为中心的表示空间；但是，该空间可能是次优的，因为它导致了所有模式之间的不平衡表示空间 ...

0 0 0 0 2025/04/16 arXiv:2403.12532v1 smallz