大多数最先进的跟踪器都采用一流的范式,使用单个视觉 Transformer 进行联合特征提取和模板和搜索区域图像的关系建模。但是,不同图像贴片之间的关系建模表现出显着的变化。例如,以目标 - 近距离信息为主的背景区域需要减少注意力分配,而前景,尤其是边界区域,需要强调 ...
0 0 0 2025/08/30 arXiv:2503.18338v1 bin
单程3D对象检测对于各种应用(例如机器人技术和AR/VR)很有价值。现有方法仅限于封闭设置的设置,其中训练和测试集由相同的场景和/或对象类别组成。但是,实际应用程序通常会引入新的环境和新颖的对象类别,从而对这些方法提出了挑战 ...
0 0 0 2025/08/30 arXiv:2507.23567v1 KingXHJ
tts系统的快速发展,文本转语音(tts)最近在合成高质量语音方面取得了巨大进步,但生成具有自然韵律变化、说话风格和情绪语气的语音仍然具有挑战性。此外,由于时长和语音是分别生成的,tts模型仍然存在寻找最佳单调对齐的问题,而这对于自然语音合成至关重要。在这里,我们提出了 ...
0 0 0 2025/08/30 arXiv:2205.15439v2 longhaonan
与自然图像相比,由于有限的注释和域间隙,医学图像中的异常检测具有挑战性。现有的重建方法通常依赖于冷冻的预训练的编码器,该编码器限制了适应特定于域特征并降低本地化精度。基于原型的学习提供了解释性和聚类的好处,但遭受了原型崩溃的影响,其中很少有原型主导训练,损害多样性和概括 ...
0 0 0 2025/08/30 arXiv:2508.19573v1 lzx
知识图(kgs)与大语言模型(LLMS)的集成为改善检索增强生成(RAG)系统的检索阶段提供了重要潜力。在这项研究中,我们提出了KG-CQR,这是一个新型的上下文查询检索框架(CQR),该框架通过使用以语料库为中心的kg丰富复杂输入查询的上下文表示来增强检索阶段。与主要解决语料库级上下文损失的现有方法不同,KG-CQR专注于通过结构化关系表示,提取和完成相关的KG子图以生成语义上丰富的查询环境 . ...
0 0 0 2025/08/30 arXiv:2508.20417v1 aulisa
大型语言模型(LLM)越来越多地用于自主决策,它们是从巨大的动作空间中进行选择的。但是,指导该抽样过程的启发式方法仍在探索中。我们研究了这种采样行为,并表明这种潜在的启发式方法类似于人类决策:包括描述性成分(反映统计规范)和一个概念的规范成分(在LLM中编码的隐含理想) ...
0 0 0 2025/08/30 arXiv:2402.11005v4 zhaochenglu
大型推理模型(LRMS)具有显着的推理能力,但主要依赖于参数知识,从而限制了事实准确性。尽管最近的作品配备了基于基于LRM的LRM的加强学习能力,但它们在推理方面遭受了过度思考和缺乏鲁棒性的困扰,从而降低了他们的有效性回答(QA)任务。为了解决这个问题,我们提出了Rearag,这是一种事实增强的推理模型,探讨了不同的查询而没有过多的迭代 ...
0 0 0 2025/08/30 arXiv:2503.21729v3 awaya
大型语言模型表现出了令人印象深刻的推理能力,但本质上受其知识库的限制。通过允许LLM查询外部资源来检索启动的推理可以减轻这种限制,但是现有方法通常会检索无关紧要或嘈杂的信息,从而阻碍了准确的推理。在本文中,我们提出了AutoreFine,这是一种增强培训后的培训后​​框架,采用了新的``搜索''d-Refine-distring-Inkink''范式 ...
0 0 0 2025/08/30 arXiv:2505.11277v3 awaya

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)