大型语言模型(LLMS)在各种任务上实现了强大的绩效,但经常表现出认知惯性,努力遵循指示,即在监督微调(SFT)期间学到的标准化模式冲突。为了评估这一限制,我们提出了Inforve Ifeval,这是一种基准,该基准测量了模型的违反直觉能力的能力,可以超越训练引起的偏见并符合对抗性指令。 IFEVAL逆向IFEVAL引入了八种类型的挑战,包括问题纠正,有意的文本缺陷,无评论的代码以及反事实答案 . ...
0 0 0 2025/09/08 arXiv:2509.04292v1 lalaxiao
体现的视觉推理(EVR)试图根据以自我为中心的视频遵循复杂的,自由形式的指示,从而在动态环境中实现语义理解和时空推理。尽管具有有希望的潜力,但EVR还是遇到了复杂指令的多样性和复杂的长期以自我为中心视频中复杂的时空动态引起的重大挑战。先前的解决方案要么在静态视频字幕上采用大型语言模型(LLM),因此通常会省略关键的视觉细节,或者依靠端到端视觉模型(VLM)(VLM),而逐步构图作用推理 ...
0 0 0 2025/09/08 arXiv:2506.17629v1 algcd
与传统方法相比,深度学习技术在合成孔径雷达(SAR)图像目标识别领域的性能显着提高。但是,深度学习模型的固有``黑匣子''属性导致决策过程中缺乏透明度,这使得它们难以在实践中广泛应用。要解决此问题,这项研究提出了一个基于MicroWave传播的物理过程设计的复杂价值SAR识别的物理可解释的框架 ...
0 0 0 2025/09/08 arXiv:2410.09749v2 18455500520
大型语言模型(LLMS)在多种语言任务上实现了最新的表现,但是可以规避其安全护栏,从而导致有害的世代。鉴于此,对安全机制的最新研究已经出现,表明当安全表示或组件被抑制时,LLMS的安全能力就会受到损害。但是,现有的研究倾向于忽视多头注意机制的安全性影响,尽管它们在各种模型功能中都至关重要 ...
0 0 0 2025/09/08 arXiv:2410.13708v2 yanyu
当前的图像字幕工作通常集中于以自回归方式生成描述。但是,有限的作品专注于非压力的描述,这带来了更多的解码多样性。受扩散模型成功生成自然图像的成功的启发,我们提出了一种新颖的方法扩散,以在图像字幕上应用连续扩散 ...
0 0 0 2025/09/08 arXiv:2305.12144v1 kevinson
高性能实时立体声匹配方法总是依赖于成本量的3D正则化,这对移动设备不友好。基于2D正则化的方法在不属于地区的地区挣扎。在本文中,我们提出了一个适合部署的4D成本汇总网络DBSTEREO,该网络基于纯2D卷积 ...
0 0 0 2025/09/08 arXiv:2509.02415v1 KingXHJ
从单个图像或视频中估算场景照明仍然是计算机视觉和图形中的长期挑战。基于学习的方法受到基础真相HDR环境图的稀缺性的限制,这些环境图的捕获价格昂贵,并且多样性限制。尽管最近的生成模型为图像合成提供了强大的先验,但由于依赖间接视觉提示,推断全局(非本地)上下文以及恢复高动力范围输出的需要,照明估计仍然很困难 ...
0 0 0 2025/09/08 arXiv:2509.03680v1 KingXHJ
检索增强的生成(RAG)通过整合最新的外部知识来增强大型语言模型(LLM),但现实世界中的Web环境带来了独特的挑战。这些局限性表现为两个关键挑战:在网络环境中普遍存在的错误信息,它引入了不可靠或误导性的内容,可以降低检索准确性,而对网络工具的充分利用不足,如果有效地使用,这些工​​具可以增强查询精确度并有助于缓解这种噪音,最终改善RAG系统中的检索结果。为了解决这些问题,我们提出了WebFilt ...
0 0 0 2025/09/08 arXiv:2508.07956v1 KingXHJ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)