跨模式的对比度学习预处理(VLP)面临着(部分)假否定的挑战。在本文中,我们从相互信息(MI)优化的角度研究了这个问题。常识是,在对比学习中使用的Infonce损失将最大程度地提高锚及其积极因素之间MI的下限,而理论上我们证明,当噪声通常存在时,涉及负面因素的MI也很重要 ...

0 0 0 0 2025/06/21 arXiv:2305.04474v3 LittleHenry

大型视觉模型(LVLM)中的幻觉极大地破坏了它们的可靠性,激发了研究人员探索幻觉的原因。但是,大多数研究主要集中于语言方面,而不是视觉方面。在本文中,我们解决了LVLMS如何处理视觉信息以及此过程是否引起幻觉 ...

0 0 0 0 2025/06/21 arXiv:2411.16724v3 18811558339

近期大型视觉语言模型(LVLM)提出了具有多模式查询的显着零拍对性和推理功能。然而,它们遭受了对象幻觉的困扰,这是一种现象,其中lvlms容易产生与图像输入不符的文本响应。我们的试点研究表明,物体幻觉与旋转位置编码(绳索)紧密相关,这是现有LVLM中广泛采用的位置依赖建模设计 ...

0 0 0 0 2025/06/21 arXiv:2410.15926v1 18811558339

大型视觉模型(LVLM)在多模式任务中取得了重大成功,多模式链(MCOT)进一步提高了性能和可解释性。最近的MCOT方法分为两类:(i)Textual-MCOT(T-MCOT),它采用多模式输入并产生文本输出; (ii)交织的mcot(i-mcot),生成交织的图像文本输出。尽管两种方法都取得了进步,但推动这些改进的机制尚未完全理解 ...

0 0 0 0 2025/06/21 arXiv:2505.15510v1 X.K

图形卷积网络(GCN)在培训推荐系统(RECSYS)中的效率和可扩展性一直是持续关注的问题,阻碍了其在现实世界中的部署。本文对训练阶段的图形卷积的必要性进行了批判性检查,并引入了创新的替代方案:光后训练图普通差异方程式(LightGode)。我们的调查表明,在测试过程中而不是培训期间,GCN的好处更为明显 ...

0 0 0 0 2025/06/21 arXiv:2407.18910v2 readpapers

在加强学习(RL)中,代理人不断与环境相互作用,并使用反馈来完善其行为。为了指导策略优化,将奖励模型作为所需目标的代理引入,以便当代理最大化累积的奖励时,它也满足了任务设计师的意图。最近,学术研究人员和工业研究人员的重大关注都集中在开发奖励模型上,这些奖励模型不仅与真正的目标紧密相符,而且还促进了政策优化 ...

0 0 0 0 2025/06/21 arXiv:2506.15421v1 sealaes

文本到语音和音频生成模型的进步需要强大的基准测试,以评估AI系统的情感理解能力。当前的语音情绪识别(SER)数据集经常在情感粒度,隐私问题或对行为刻画的依赖方面表现出局限性。本文介绍了Emonet-Voice,这是一种用于语音情感检测的新资源,其中包括Emonet-Voice Big,一个大规模的预训练数据集(在11个声音,40种情感和4种语言和4种语言的语言中具有超过4,500个小时的语音),以及Emonet-Voice Bench,一个新颖的Benchmark Bench,一个新颖的Benchmark Benchmark数据集,具有人为专家专家专家专家专家 ...

0 0 0 0 2025/06/21 arXiv:2506.09827v2 arxiv

生成模型生成照相图像的非凡能力引起了人们对虚假信息传播的关注,从而导致对能够区分AI生成的假图像和真实图像的探测器的需求。但是,缺乏包含来自最先进图像生成器的图像的大数据集为此类检测器的开发带来了障碍。在本文中,我们介绍了Genimage数据集,该数据集具有以下优点:1)大量图像,包括超过一百万对AI生成的假图像和收集的真实图像 ...

0 0 0 0 2025/06/21 arXiv:2306.08571v2 dropout

大型语言模型(LLMS)表现出了显着的能力,但是它们的推理能力和潜在的机制仍然知之甚少。我们提出了一种新的方法,可以通过注意机制优化增强LLMS的推理,而无需其他培训数据。我们确定了非语义 Token 引起的注意力分布的效率低下,并提出了一种算法来重新平衡偏斜的分布,从而使模型能够抽象更细微的知识 ...

0 0 0 0 2025/06/21 arXiv:2403.14932v3 jeremychou

基于深度学习的方法已显示出时间序列预测的重大进步。尽管有这些持续的发展,但时间序列的复杂动态使得建立设计金模型体系结构的经验法则具有挑战性。在这项研究中,我们认为,通过普遍校准策略来完善现有的高级模型可以通过最低的资源成本带来可观的收益,而不是从头开始详细阐述和培训新的模型 ...

0 0 0 0 2025/06/21 arXiv:2506.03176v1 jeremychou

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)