arxiv的文档

arxiv 南京

个性签名 ...

Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

跨模式的对比度学习预处理（VLP）面临着（部分）假否定的挑战。在本文中，我们从相互信息（MI）优化的角度研究了这个问题。常识是，在对比学习中使用的Infonce损失将最大程度地提高锚及其积极因素之间MI的下限，而理论上我们证明，当噪声通常存在时，涉及负面因素的MI也很重要 ...

0 0 0 0 2025/06/21 arXiv:2305.04474v3 LittleHenry

Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens

大型视觉模型（LVLM）中的幻觉极大地破坏了它们的可靠性，激发了研究人员探索幻觉的原因。但是，大多数研究主要集中于语言方面，而不是视觉方面。在本文中，我们解决了LVLMS如何处理视觉信息以及此过程是否引起幻觉 ...

0 0 0 0 2025/06/21 arXiv:2411.16724v3 18811558339

Mitigating Object Hallucination via Concentric Causal Attention

近期大型视觉语言模型（LVLM）提出了具有多模式查询的显着零拍对性和推理功能。然而，它们遭受了对象幻觉的困扰，这是一种现象，其中lvlms容易产生与图像输入不符的文本响应。我们的试点研究表明，物体幻觉与旋转位置编码（绳索）紧密相关，这是现有LVLM中广泛采用的位置依赖建模设计 ...

0 0 0 0 2025/06/21 arXiv:2410.15926v1 18811558339

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

大型视觉模型（LVLM）在多模式任务中取得了重大成功，多模式链（MCOT）进一步提高了性能和可解释性。最近的MCOT方法分为两类：（i）Textual-MCOT（T-MCOT），它采用多模式输入并产生文本输出；（ii）交织的mcot（i-mcot），生成交织的图像文本输出。尽管两种方法都取得了进步，但推动这些改进的机制尚未完全理解 ...

0 0 0 0 2025/06/21 arXiv:2505.15510v1 X.K

Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation

图形卷积网络（GCN）在培训推荐系统（RECSYS）中的效率和可扩展性一直是持续关注的问题，阻碍了其在现实世界中的部署。本文对训练阶段的图形卷积的必要性进行了批判性检查，并引入了创新的替代方案：光后训练图普通差异方程式（LightGode）。我们的调查表明，在测试过程中而不是培训期间，GCN的好处更为明显 ...

0 0 0 0 2025/06/21 arXiv:2407.18910v2 readpapers

Reward Models in Deep Reinforcement Learning: A Survey

在加强学习（RL）中，代理人不断与环境相互作用，并使用反馈来完善其行为。为了指导策略优化，将奖励模型作为所需目标的代理引入，以便当代理最大化累积的奖励时，它也满足了任务设计师的意图。最近，学术研究人员和工业研究人员的重大关注都集中在开发奖励模型上，这些奖励模型不仅与真正的目标紧密相符，而且还促进了政策优化 ...

0 0 0 0 2025/06/21 arXiv:2506.15421v1 sealaes

EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

文本到语音和音频生成模型的进步需要强大的基准测试，以评估AI系统的情感理解能力。当前的语音情绪识别（SER）数据集经常在情感粒度，隐私问题或对行为刻画的依赖方面表现出局限性。本文介绍了Emonet-Voice，这是一种用于语音情感检测的新资源，其中包括Emonet-Voice Big，一个大规模的预训练数据集（在11个声音，40种情感和4种语言和4种语言的语言中具有超过4,500个小时的语音），以及Emonet-Voice Bench，一个新颖的Benchmark Bench，一个新颖的Benchmark Benchmark数据集，具有人为专家专家专家专家专家 ...

0 0 0 0 2025/06/21 arXiv:2506.09827v2 arxiv

Vision Language Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation

Devils in Middle Layers of Large Vision-Language Models: Interpreting, Detecting and Mitigating Object Hallucinations via Attention Lens

Mitigating Object Hallucination via Concentric Causal Attention

Visual Thoughts: A Unified Perspective of Understanding Multimodal Chain-of-Thought

Do We Really Need Graph Convolution During Training? Light Post-Training Graph-ODE for Efficient Recommendation

Reward Models in Deep Reinforcement Learning: A Survey

EmoNet-Voice: A Fine-Grained, Expert-Verified Benchmark for Speech Emotion Detection

GenImage: A Million-Scale Benchmark for Detecting AI-Generated Image

Attention-Driven Reasoning: Unlocking the Potential of Large Language Models

Non-collective Calibrating Strategy for Time Series Forecasting

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）