将空间布局与文本相结合的最新方法在大型语言模型(LLMS)中以文档理解(LLMS)显示出令人鼓舞的结果。一种常用的方法是将布局信息表示为文本 Token ,并将其与文本内容作为LLMS的输入交织在一起。但是,这种方法仍然显示出局限性,因为它需要用于代表布局信息的 Token 的其他位置ID ...
0 0 0 2025/05/21 arXiv:2503.18434v1 15501287966
检索增强的生成(RAG)系统赋予大型语言模型(LLMS)在推理过程中访问外部知识。最近的进步使LLM能够通过增强学习(RL)充当搜索剂,从而通过与检索引擎进行多转交互通过多转交流来改善信息的获取。但是,现有方法要么使用仅搜索指标来优化检索(e ...
0 0 0 2025/05/21 arXiv:2505.14146v1 Flyer-Jia
目前,几乎所有最先进的新型视图合成和重建模型都依赖于校准的相机或其他几何学先验进行训练。这些先决条件大大限制了其对大量未校准数据的适用性。为了减轻这一要求,并解锁了在大规模未校准视频上进行自我监督训练的潜力,我们提出了一种新颖的两阶段策略,可以从仅原始视频框架或多视频图像中训练视图合成模型,而无需提供摄像机参数或其他priors ...
0 0 0 2025/05/21 arXiv:2505.13440v1 小小卡拉米
检索是网络搜索中的关键阶段,它标识了十亿个语料库中的一小部分与查询相关的候选人。在检索阶段发现更多与语义相关的候选人非常有希望向最终用户展示更多的高质量结果。但是,在实际搜索引擎中建立和部署有效的语义匹配的有效检索模型仍然是非平凡的挑战 ...
0 0 0 2025/05/21 arXiv:2106.03373v4 snowpigppp
大语言模型(LLM)中的React(推理 +动作)功能已成为现代代理系统的基础。最近的LLM,例如DeepSeek-R1和OpenAI O1/O3,通过通过产生充足的中间 Token 来强调推理来体现这一点,这有助于在产生最终产出 Token 之前建立强大的前提。在本文中,我们介绍了一种新颖的方法,一种新颖的方法,通过创建多步执行计划以及给定用户输入的详细推理来增强代理商的性能 ...
0 0 0 2025/05/21 arXiv:2505.09970v2 Flyer-Jia
随着面部图像数据在各个领域的广泛应用,面部图像的有效存储和传输引起了人们的重大关注。但是,现有的学到的面部图像压缩方法通常以低比特率产生不满意的重建图像质量。只需将基于扩散的压缩方法调整到面部压缩任务中,由于高频信息的保存不足而导致在下游应用中性能较差的重建图像 ...
0 0 0 2025/05/21 arXiv:2505.05870v1 allen1000
人形全身控制需要适应不同的任务,例如导航、局部操纵和桌面操纵,每种任务都需要不同的控制模式。例如,导航依赖于根速度跟踪,而桌面操作则优先考虑上身关节角度跟踪。现有方法通常训练针对特定指挥空间的单独策略,限制了它们跨模式的可转移性 ...
0 0 0 2025/05/21 arXiv:2410.21229v2 yukun
Alayadb是一种尖端的矢量数据库系统,对Alayadb AI的大型语言模型(LLMS)的高效且有效的长篇文化推断进行了固定架构。具体而言,它将KV缓存和注意力计算与LLM推理系统分解,并将其封装到新颖的矢量数据库系统中。对于作为服务提供商(MAA)的模型,Alayadb消耗了更少的硬件资源,并在与现有的替代解决方案进行比较时(e ...
0 0 0 2025/05/21 arXiv:2504.10326v1 tea5

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)