一译 —— 文档和论文翻译、对照阅读、讨论和社区

Leveraging LLM-Assisted Query Understanding for Live Retrieval-Augmented Generation

当处理通常嘈杂，模棱两可且包含多种意图的用户查询时，现实世界中的实时检索生成（RAG）系统在处理用户查询时面临重大挑战。尽管抹布可以增强具有外部知识的大型语言模型（LLM），但当前系统通常会在这种复杂的输入方面挣扎，因为它们经常在清洁数据上接受培训或评估。本文介绍了Omni-Rag，这是一个新颖的框架，旨在提高现场开放域设置中抹布系统的鲁棒性和有效性 ...

0 2 1 2025/06/28 arXiv:2506.21384v1 hechenglo03

Prisma: An Open Source Toolkit for Mechanistic Interpretability in Vision and Video

强大的工具和公开可用的预培训模型有助于推动语言模型的机械解释性的最新进展。然而，由于缺乏可访问的框架和预训练的权重，视力机械性能的类似进展受到了阻碍。我们提出Prisma（在此处访问代码库：此HTTPS URL），这是一个开源框架，旨在加速视觉机械性研究，提供了一个统一的工具包，用于访问75+以上的视觉和视频 Transformer ；支持稀疏自动编码器（SAE），Transcoder和Cross ...

0 0 0 2025/06/28 arXiv:2504.19475v3 Goodhao

Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas

大型视觉语言模型（VLM）长期以来一直在空间推理任务上挣扎。令人惊讶的是，即使是简单的空间推理任务，例如识别仅两个对象之间的“下”或“背后”的关系，对当前VLM构成了重大挑战。在这项工作中，我们研究了机械性解释性镜头的空间推理挑战，并深入研究了模型的内部状态，以检查图像和文本 Token 之间的相互作用 ...

0 0 0 2025/06/28 arXiv:2503.01773v2 Goodhao

LaserHuman: Language-guided Scene-aware Human Motion Generation in Free Environment

语言指导的场景 - 意识到的人类运动生成对娱乐和机器人技术具有重要意义。为了应对现有数据集的局限性，我们引入了Laserhuman，这是一个开创性的数据集，该数据集设计为彻底改变场景 - 文本到动感研究。 Laserhuman在3D环境中包含真正的人类动作，无限制的自由语言描述，室内和室外场景的融合以及动态，不断变化的场景 ...

0 0 0 2025/06/28 arXiv:2403.13307v2 qinhui_cici

ProxyTransformation: Preshaping Point Cloud Manifold With Proxy Attention For 3D Visual Grounding

体现的智能要求代理根据语言说明实时与3D环境进行交互。该领域的基本任务是以自我为中心的3D视觉接地。但是，从RGB-D图像呈现的点云保留了大量的冗余背景数据和固有的噪声，这两者都可以干扰目标区域的歧管结构 ...

0 0 0 2025/06/28 arXiv:2502.19247v2 qinhui_cici

Reconstructing Humans with a Biomechanically Accurate Skeleton

在本文中，我们介绍了一种使用生物力学精确的骨骼模型从单个图像重建3D人类的方法。为了实现这一目标，我们训练将图像作为输入并估算模型参数的 Transformer 。由于缺乏此任务的培训数据，我们建立了一条管道来生成单个图像的伪地面真相模型参数，并实施训练程序，以迭代地完善这些伪标签 ...

0 0 0 2025/06/28 arXiv:2503.21751v1 qinhui_cici

FastRef:Fast Prototype Refinement for Few-Shot Industrial Anomaly Detection

很少有工业异常检测（FS-AIAD）对在数据筛选环境中运行的实际自动化检查系统提出了一个关键挑战。尽管现有方法主要集中于从有限的正常样本中得出原型，但它们通常会忽略系统地纳入查询图像统计信息以增强原型代表性。为了解决这个问题，我们提出了Fastref，这是FS-AIAD的一种新颖有效的原型改进框架 ...

0 0 0 2025/06/28 arXiv:2506.21398v1 lzx

Doc2EDAG: An End-to-End Document-level Framework for Chinese Financial Event Extraction

大多数现有事件提取（EE）方法只是在句子范围内提取事件参数。但是，这种句子级的EE方法难以处理新兴申请中的大量文件，例如财务，立法，健康等，其中事件论点总是散布在不同的句子中，甚至在同一文件中经常共存的多个此类事件 ...

0 0 0 2025/06/28 arXiv:1904.07535v2 wangluyi

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）