多媒体内容的激增导致了多模式推荐系统(MMREC)的开发,这些系统使用文本,图像,视频和音频等多种方式进行更多个性化的建议。然而,MMREC在模态含量之间的错位以及模态语义和建议语义之间的差距引起的嘈杂数据而苦苦挣扎。由于多模式数据的复杂性,传统的去核方法不足 ...
0 0 0 2025/04/28 arXiv:2504.14214v1 fc
尽管大型语言模型(LLMS)最近在各种复杂的推理基准上取得了出色的表现,但学术界仍然缺乏对基本模型培训过程和数据质量的深入了解。为了解决这个问题,我们构建了一个大规模的,难以分级的推理数据集,其中包含大约334亿个不同难度水平的独特查询以及多个通过多个通过的多个模型产生的大约4000万个蒸馏响应 ...
0 0 0 2025/04/28 arXiv:2504.17565v2 yiyili
在语言产生中长期占主导地位的自回旋(AR)模型越来越多地应用于图像合成,但通常被认为比基于扩散的模型不那么竞争。主要限制是AR模型所需的大量图像 Token ,这既约束训练和推理效率,又要限制图像分辨率。为了解决这个问题,我们提出了 Token Shuffle,这是一种新颖而简单的方法,可减少 Transformer 中图像 Token 的数量 ...
0 1 0 2025/04/28 arXiv:2504.17789v1 X.K
语言模型最近已进入推理领域,但是通过多模式推理,我们可以完全释放获得更全面,类似人类的认知能力的潜力。这项调查提供了最新的多模式推理方法的系统概述,将它们分为两个层面:以语言为中心的多模式推理和协作性多模式推理。前者涵盖了一通的视觉感知和主动的视觉感知,其中愿景主要在语言推理中发挥支持作用 ...
0 0 0 2025/04/28 arXiv:2503.18071v1 iris
我们发布了SVIRO,这是一种合成数据集,用于乘客隔间中十种不同车辆的乘客隔室,以分析基于机器学习的方法,以实现其概括能力和可靠性的培训,以有限的变化(例如,相同的背景和纹理和纹理,几乎没有实例) ...
0 0 0 2025/04/28 arXiv:2001.03483v1 13366395289
我们提出了一种全面的解决方案,可以从人类偏好反馈中学习和改善文本形象模型。首先,我们构建了ImageReard(第一个通用文本对图像人类偏好奖励模型),以有效地编码人类的偏好。它的培训基于我们的系统注释管道,包括评级和排名,该等级和排名迄今为止收集了137K专家的比较 ...
0 0 0 2025/04/28 arXiv:2304.05977v4 arraylilili
尽管基于块的标准检索增强生成(抹布),但GraphRag结构知识作为图形来利用实体之间的关系。但是,以前的GraphRag方法受二进制关系的限制:图中的一个边缘仅连接两个实体,两个实体无法很好地模拟现实中广泛存在的两个以上实体之间的n- ary关系。为了解决这一限制,我们提出了HyperGraphRag,这是一种基于超图的新型抹布方法,该方法代表N- Ary关系事实,通过超中心对现实世界中复杂的N ...
0 0 0 2025/04/28 arXiv:2503.21322v1 15942315998
奖励模型(RM)表现出了增强大型语言模型(LLM)的令人印象深刻的潜力,因为RM可以作为人类偏好的代理,提供信号来指导LLMS在各种任务中的行为。在本文中,我们提供了相关研究的全面概述,从偏好收集,奖励建模和用法的角度探索RMS。接下来,我们介绍RMS的应用,并讨论评估的基准 ...
0 0 0 2025/04/28 arXiv:2504.12328v1 chongxian

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)