多模式文档检索系统启用跨文本,图像和布局的信息访问,从而使各个领域受益,例如基于文档的问题回答,报告分析和交互式内容摘要。 Rerankers通过重新排序检索候选人来提高检索精度。但是,当前的多模式重新骑行方法仍未得到充实,并在培训策略和整体有效性方面有很大的改善空间 ...

0 0 0 0 2025/09/17 arXiv:2506.12364v2 arthur

检索增强的生成(RAG)系统在很大程度上依赖有效的查询公式来解锁外部知识,但优化查询对多样化的,非结构化的现实世界文档仍然是一个挑战。我们介绍了\ textbf {rl-qr},这是一种用于检索器特定查询重写的强化学习框架,以消除对人类注销数据集的需求,并将适用性扩展到文本和多模式数据库。通过综合方案问题对并利用广义奖励策略优化(GRPO),RL-QR训练了针对特定猎犬量身定制的查询重写器,从而增强了各种域之间的检索性能 ...

0 0 0 0 2025/08/15 arXiv:2507.23242v1 arthur

尽管视觉语言模型(VLM)在医学成像中表现出强烈的概括,但由于超高分辨率,复杂的组织结构和细微的临床语义,病理学提出了独特的挑战。这些因素使病理学VLM容易幻觉,即 ...

0 0 0 0 2025/08/15 arXiv:2508.02258v2 arthur

检索演示的生成(RAG)是一种强大的方法,它使大型语言模型(LLMS)能够合并外部知识。但是,由于数据构建的高成本和缺乏合适的评估指标,评估抹布系统在专业场景中的有效性仍然具有挑战性。本文介绍了Rageval,这是一个框架,旨在通过基于模式的管道生成高质量的文档,问题,答案和参考来评估各种情况的破布系统 ...

0 0 0 0 2025/07/15 arXiv:2408.01262v5 arthur

尽管Colpali/colqwen2在可视化文档检索(VDR)中的性能很强,但它将每个页面编码为多个补丁级嵌入式,并导致过多的内存使用情况。这项实证研究研究了以最小的性能降解减少每页粘合嵌入的方法。我们评估了两种 Token 还原策略: Token 修剪和 Token 合并 ...

0 0 0 0 2025/06/30 arXiv:2506.04997v1 arthur

最近的多模式检索方法通过利用预训练策略进行视觉文本对齐,具有具有多模式能力的基于文本的检索器。他们经常将两种方式直接融合在一起,以便在对齐过程中了解多模式查询。但是,现有方法通常由于文本主导问题而忽略关键的视觉信息,这过于取决于文本驱动的信号 ...

0 0 0 0 2025/06/25 arXiv:2411.08334v3 arthur

我们提出了SEED1.5-VL,这是一种视觉基础模型,旨在提高通用多模式的理解和推理。种子1 ...

0 0 0 0 2025/06/08 arXiv:2505.07062v1 arthur

Rerankers通过完善初始检索文档的排名,在多模式检索仪(RAG)中发挥着关键作用。 Rerankers通常是使用硬采矿进行培训的,其目标是为每个排名较高但实际上无关紧要的查询选择页面。但是,此选择过程通常是被动的,并且仅限于猎犬在可用语料库中可以找到的,从而导致了几种固有的局限性 ...

0 0 0 0 2025/06/04 arXiv:2505.22584v1 arthur

通过将外部知识整合到生成模型中,在提高响应准确性和相关性方面表现出了出色的性能,在提高响应准确性和相关性方面表现出色。但是,现有的抹布方法主要集中于提供仅文本的答案,即使在多模式检索的生成场景中也是如此。在这项工作中,我们介绍了多模式检索仪的多模式生成(MRAMG)任务,该任务旨在生成结合文本和图像的答案,并完全利用语料库中的多模式数据 ...

0 0 0 0 2025/05/20 arXiv:2502.04176v2 arthur

信息检索方法通常依赖于在 MSMARCO 等大型通用领域数据集上训练的单个嵌入模型。虽然这种方法可以产生具有合理整体性能的检索器,但在特定领域数据上训练的模型通常会在各自的领域内产生更好的结果。虽然信息检索领域的先前工作已经通过多任务训练解决了这个问题,但组合多个特定领域专家检索器的主题仍然未被探索,尽管它在语言模型生成中很受欢迎 ...

0 0 0 0 2025/05/15 arXiv:2409.02685v2 arthur

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)