一译 —— 文档和论文翻译、对照阅读、讨论和社区

Unsupervised Query Routing for Retrieval Augmented Generation

检索型生成的查询路由旨在将输入查询分配给最合适的搜索引擎。现有作品在很大程度上依赖于需要大量手动注释的监督数据集，导致高成本和有限的可扩展性以及对分布外情景的不良概括。为了应对这些挑战，我们介绍了一种新颖的无监督方法，该方法构建了“上限”响应，以评估检索功能的响应的质量 ...

0 0 0 2025/04/08 arXiv:2501.07793v1 18636279200

AlignDet: Aligning Pre-training and Fine-tuning in Object Detection

大规模预训练的范式随后是下游微调的范式已广泛用于各种对象检测算法中。在本文中，我们揭示了现有实践中训练和微调程序之间的数据，模型和任务的差异，这些过程隐含地限制了检测器的性能，泛化能力和收敛速度。为此，我们提出了Aligndet，这是一个统一的训练前框架，可以适应各种现有检测器以减轻差异 ...

0 0 0 2025/04/08 arXiv:2307.11077v2 19396386025

StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

近年来，大型语言模型 (LLM) 取得了显着的进步，促进了工具学习的探索，它将 LLM 与外部工具相集成，以应对各种现实世界的挑战。评估 LLM 利用工具的能力需要大规模且稳定的基准。然而，之前的工作要么依赖于规模有限的手工制作的在线工具，要么依赖于API状态不稳定的大规模真实在线API ...

0 0 0 2025/04/08 arXiv:2403.07714v5 chrisxiong

AgentStudio: A Toolkit for Building General Virtual Agents

创建能够在任何数字设备上使用任意软件的自主虚拟代理仍然是人工智能的主要挑战。阻碍进展的两个关键障碍是：在现实环境中构建虚拟代理的基础设施不足，以及需要对基本代理能力进行野外评估。为了解决这个问题，我们推出了 AgentStudio，这是一个在线的、现实的、多模式的工具包，涵盖了代理开发的整个生命周期 ...

0 0 0 2025/04/08 arXiv:2403.17918v3 chrisxiong

Curse of Attention: A Kernel-Based Perspective for Why Transformers Fail to Generalize on Time Series Forecasting and Beyond

基于 Transformer 的模型在时间序列预测（TSF）任务上的应用长期以来一直很受欢迎。但是，其中许多作品未能击败简单的线性残差模型，并且对该问题的理论理解仍然受到限制。在这项工作中，我们提出了TSF任务上 Transformer 效率低下的第一个理论解释 ...

0 0 0 2025/04/08 arXiv:2412.06061v2 徐小五

MP-DPD: Low-Complexity Mixed-Precision Neural Networks for Energy-Efficient Digital Predistortion of Wideband Power Amplifiers

数字前（DPD）增强了宽带RF功率放大器（PAS）的信号质量。随着信号带宽在现代无线电系统中的扩展，DPD的能源消耗越来越多地影响整体系统效率。深度神经网络（DNNS）在DPD中提供了有希望的进步，但是它们的高复杂性阻碍了他们的实际部署 ...

0 0 0 2025/04/08 arXiv:2404.15364v1 aloha

Retrospective Reader for Machine Reading Comprehension

机器阅读理解（MRC）是一个AI挑战，需要机器根据给定段落确定问题的正确答案。 MRC系统不仅必须在必要时回答问题，而且还必须区分何时根据给定段落没有答案，然后巧妙地放弃回答。当MRC任务中涉及无法回答的问题时，除编码器外，特别需要一个称为验证者的基本验证模块，尽管关于MRC建模的最新实践仍然只能通过专注于“阅读”来采用预先培训的语言模型作为编码器块，但仍可获得最大的好处 ...

0 0 0 2025/04/08 arXiv:2001.09694v4 wangwang

GIT: A Generative Image-to-text Transformer for Vision and Language

在本文中，我们设计和培训生成的图像到文本 Transformer Git，以统一视觉语言任务，例如图像/视频字幕和问题答案。尽管生成模型在预训练和微调之间提供了一致的网络体系结构，但现有工作通常包含复杂的结构（uni/多模式编码器/解码器），并取决于外部模块，例如对象检测器/taggers和光学角色识别（OCR）。在git中，我们将体系结构简化为一个图像编码器，而在单语言建模任务下将架构简化为一个 ...

0 0 0 2025/04/08 arXiv:2205.14100v5 hynj

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）