guoxuter的文档

ARAG: Agentic Retrieval Augmented Generation for Personalized Recommendation

通过将外部环境纳入大型语言模型提示中，检索增强的生成（RAG）在增强推荐系统方面表现出了希望。但是，现有的基于抹布的方法通常依赖于静态检索启发式方法，并且在动态建议方案中未能捕获细微的用户偏好。在这项工作中，我们介绍了Arag，这是一个为个性化推荐的代理检索生成框架，该框架将多代理协作机制集成到RAG管道中 ...

0 0 0 0 2025/08/12 arXiv:2506.21931v2 guoxuter

Nemori: Self-Organizing Agent Memory Inspired by Cognitive Science

大型语言模型（LLMS）表现出了显着的功能，但是他们无法在长篇小说中保持持久记忆限制了它们作为长期互动中自主代理的有效性。尽管现有的记忆系统取得了进步，但它们依赖于定义基本记忆单元和基于规则的知识提取机制来限制其真正学习和进化的能力。为了解决这些基本局限性，我们提出了Nemori，这是一种受人类认知原理启发的新型自组织记忆结构 ...

0 1 0 0 2025/08/12 arXiv:2508.03341v2 guoxuter

BRIT: Bidirectional Retrieval over Unified Image-Text Graph

检索增强的一代（RAG）已成为一种有前途的技术，可以增强大语模型产生的响应的质量和相关性。尽管最近的进步主要集中在改善基于文本的查询的抹布上，但尚未完全探索包含文本和图像的多模式文档的抹布。特别是当微调不起作用时 ...

0 0 0 0 2025/08/05 arXiv:2505.18450v1 guoxuter

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

多模式嵌入模型对于实现各种下游任务，例如语义相似性，信息检索和聚类在不同方式上至关重要。但是，如VLM2VEC，E5-V，GME等现有的多模式嵌入量主要集中在自然图像上，并且对其他视觉形式（例如视频和视觉文档）的支持有限。这限制了它们在现实情况下的适用性，包括AI代理，多模式搜索和建议以及检索增强的一代（RAG） ...

0 0 0 0 2025/08/05 arXiv:2507.04590v1 guoxuter

Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization

多矢量文档检索系统，例如Colpali，在复杂查询中以细粒度匹配表现出色，但由于它们依赖于高维贴片嵌入和晚期交流评分而产生了大量的存储和计算成本。为了应对这些挑战，我们提出了HPC-Colpali，这是一个分层贴片压缩框架，可在保留其检索准确性的同时提高Colpali的效率。我们的方法集成了三种创新技术：（1）K-均值量化，该量化将嵌入贴片嵌入到1字节质心索引中，达到高达32 $ \ times $降低存储；（2）注意力引导的动态修剪，利用视觉语言模型的注意力重量仅保留最突出的贴剂，从而将后期交流计算减少高达60 \％，而小于％ndcg@10损失；（3）将质心索引的可选二进制编码（$ b $ bit字符串）（$ b = \ lceil \ log_2 k \ rceil $），从而使基于快速锤距离距离的相似性搜索了对资源受限的环境的搜索 ...

0 0 0 0 2025/07/21 arXiv:2506.21601v2 guoxuter

ARAG: Agentic Retrieval Augmented Generation for Personalized Recommendation

Nemori: Self-Organizing Agent Memory Inspired by Cognitive Science

BRIT: Bidirectional Retrieval over Unified Image-Text Graph

VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Hierarchical Patch Compression for ColPali: Efficient Multi-Vector Document Retrieval with Dynamic Pruning and Quantization

Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval

Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning