顺序推荐 (SR) 系统在过去十年中取得了显着发展,从传统的协作过滤方法过渡到深度学习方法,最近又过渡到大型语言模型 (LLM)。虽然 LLM 的采用推动了实质性进步,但这些模型本质上缺乏协同过滤信息,主要依赖于文本内容数据而忽略了其他模式,因此无法实现最佳推荐性能。为了解决这个限制,我们提出了 Molar,一种多模态大语言顺序推荐框架,它将多种内容模态与 ID 信息集成在一起,以有效捕获协作信号 ...
0 0 0 2025/05/09 arXiv:2412.18176v2 Shylie
大型语言模型(LLMS)在利用全面的世界知识和复杂的推理机制来实现推荐任务方面表现出了显着的能力。但是,一个显着的限制在于它们无法有效地对稀疏标识符进行建模(例如 ...
0 0 0 2025/05/09 arXiv:2504.10107v1 Shylie
大型语言模型(LLMS)在Winograd Schema Challenge(WSC)等任务中表现出了很大的成功,展示了先进的文本常识性推理。但是,将这种推理应用于多模式域,在这种多模式领域中,理解文本和图像是必不可少的,这仍然是一个重大挑战。为了解决这个问题,我们介绍了Winovis,这是一个新颖的数据集,专为在多模式上下文中的代词歧义上探测文本对图像模型 ...
0 0 0 2025/05/09 arXiv:2405.16277v3 Abidalswark
具有不同尺寸和运动学配置的异质多晶型物之间的运动重新定位需要全面了解(反)运动学。此外,提供运动学独立的一般解决方案是非凡的。在这项研究中,我们开发了一种基于对人类机器人运动重新定位的深入强化学习的环状三相优化方法 ...
0 0 0 2025/05/09 arXiv:1909.11303v3 sfy666
视觉语言模型需要大量的计算资源来进行推断,这是由于表示视觉信息所需的其他输入 Token 。但是,这些视觉 Token 通常包含冗余和不重要的信息,从而导致不必要的 Token 数量。为了解决这个问题,我们介绍了PACT,该方法通过修剪无关的 Token 并在语言模型的早期层中进行视觉冗余,从而减少推理时间和内存使用情况 ...
0 0 0 2025/05/09 arXiv:2504.08966v1 lc
多模式大语言模型(MLLM)的最新进展通常会使用大图像 Token 来补偿MLLM的视觉缺陷,这不仅表现出明显的冗余,而且极大地加剧了已经很高的计算。 Token 修剪是加速MLLM的有效解决方案,但是何时以及如何放弃 Token 仍然是一个挑战。在本文中,我们提出了一种新颖且无训练的方法,用于将MLLM的有效视觉 Token 修剪(称为Fitprune),该方法可快速根据预定的预算来迅速为MLL ...
0 0 0 2025/05/09 arXiv:2409.10197v2 lc
视觉对象跟踪旨在根据第一个帧中的初始外观定位每个帧的目标对象。根据输入可调节率,可以将跟踪任务分为RGB跟踪和RGB+X(例如 ...
0 0 0 2025/05/08 arXiv:2403.09634v1 keqi
从不同的医疗中心获得的医疗图像中,分配转移存在广泛存在,并在现实世界应用中部署了预训练的语义细分模型是一个重要的障碍。测试时间适应已证明其在推理过程中解决跨域分布变化方面的有效性。但是,大多数现有方法通过更新预训练的模型来实现适应性,从而使它们容易遇到错误积累和灾难性遗忘,从而遇到一系列分布变化时(i ...
0 0 0 2025/05/08 arXiv:2311.18363v4 hesy77

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)