一译 —— 文档和论文翻译、对照阅读、讨论和社区

Retrieval Augmented Generation and Understanding in Vision: A Survey and New Outlook

检索增强的一代（RAG）已成为人工智能（AI）的关键技术，尤其是通过启用外部，可靠和最新知识来源来增强大语言模型（LLMS）的能力。在AI生成的内容（AIGC）的背景下，通过通过补充，相关信息增强模型输出，从而提高了它们的质量，这证明了RAG的宝贵价值。最近，抹布的潜力扩大了自然语言处理，新兴方法将检索策略整合到计算机视觉（CV）域中 ...

0 0 0 2025/04/05 arXiv:2503.18016v1 ShuoHanai

Theoretical and Empirical Analysis of Adaptive Entry Point Selection for Graph-based Approximate Nearest Neighbor Search

我们对基于图的近似邻居搜索（ANN）的自适应入口点选择进行了理论和经验分析。我们介绍了新颖的概念：$ b \ textIt { - 单调路径} $和$ b \ textit {-msnet} $，它比MSNET等现有概念更好地捕获实际算法中的实际图。我们证明，自适应入口点选择比以前的工作更一般条件下的固定中央入口点提供了更好的性能上限 ...

0 0 0 2025/04/05 arXiv:2402.04713v1 李大人

OGBench: Benchmarking Offline Goal-Conditioned RL

离线目标条件加强学习（GCRL）是强化学习（RL）的主要问题，因为它提供了一种简单，无监督和域名的方法，可以从没有奖励的情况下从未标记的数据中获取各种行为和表示。尽管这种设置非常重要，但我们缺乏标准的基准测试，可以系统地评估离线GCRL算法的功能。在这项工作中，我们提出了Ogbench，这是一个新的，高质量的基准，用于离线目标调节RL的算法研究 ...

0 0 0 2025/04/05 arXiv:2410.20092v2 kate2024

Modality Interactive Mixture-of-Experts for Fake News Detection

在社交媒体平台上的假新闻的扩散会影响脆弱的人群，侵蚀信任，加剧不平等和扩大有害叙事。在多模式上下文中检测假新闻（欺骗性内容都结合了文本和图像），由于模式之间的细微相互作用，尤其具有挑战性。现有的多模式假新闻检测方法通常强调跨模式的一致性，但忽略了文本和视觉元素之间的复杂相互作用，这些元素可能会补充，矛盾或独立影响帖子的预测真实性 ...

0 0 0 2025/04/05 arXiv:2501.12431v2 wuyi

Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

虽然雪貂（llm）中，以促进其参考和基础能力，但它也存在一定的局限性：受到预先训练的固定视觉编码器的限制，无法在更广泛的任务上表现良好。在这项工作中，无法在更广泛的任务上表现良好。在这项工作中 ...

0 0 0 2025/04/05 arXiv:2404.07973v1 bage

Baichuan-Omni Technical Report

GPT-4o 突出的多模态功能和交互体验凸显了其在实际应用中的关键作用，但缺乏高性能的开源对应产品。在本文中，我们介绍了百川-Omni，这是第一个开源的7B多模态大语言模型（MLLM），擅长同时处理和分析图像、视频、音频和文本的模态，同时提供先进的多模态交互体验和强大的性能。我们提出了一种有效的多模态训练方案，从 7B 模型开始，经过音频、图像、视频和文本模态的多模态对齐和多任务微调两个阶段 .. ...

0 0 0 2025/04/05 arXiv:2410.08565v4 hx5563

Pose-Oriented Transformer with Uncertainty-Guided Refinement for 2D-to-3D Human Pose Estimation

由于它们在长期依赖性建模方面的强大能力，因此最近引起了人们对将 Transformer 引入3D人姿势估计（HPE）的兴趣激增。但是，现有的基于 Transformer 的方法将身体关节视为同等重要的输入，而忽略了自我注意机制中人类骨架拓扑的先验知识。为了解决这个问题，在本文中，我们提出了一个面向姿势的 Transformer （POT），对3D HPE进行了不确定性的指导性 ...

0 0 0 2025/04/05 arXiv:2302.07408v1 yanyu

Diff-Control: A Stateful Diffusion-based Policy for Imitation Learning

虽然模仿学习为政策学习提供了一个简单有效的框架，但在机器人执行过程中采取一致的行动仍然是一项艰巨的任务。现有方法主要集中于在数据策展阶段修改动作表示形式，或者更改模型本身，这两者都无法完全解决一致的动作生成的可扩展性。为了克服这一限制，我们介绍了DIFF控制策略，该策略利用基于扩散的模型从状态空间建模的角度来学习动作表示 ...

0 0 0 2025/04/05 arXiv:2404.12539v3 zack_zhangzh

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）