一译 —— 文档和论文翻译、对照阅读、讨论和社区

CoSeR: Bridging Image and Language for Cognitive Super-Resolution

现有的超级分辨率（SR）模型主要集中在恢复本地纹理细节上，通常忽略场景中的全局语义信息。这种监督可能导致省略关键语义细节或在恢复过程中引入不准确的纹理。在我们的工作中，我们介绍了认知超分辨率（COSER）框架，从而赋予SR模型具有理解低分辨率图像的能力 ...

0 0 0 2025/03/20 arXiv:2311.16512v4 jiajia233

FactCheck Editor: Multilingual Text Editor with End-to-End fact-checking

我们介绍了“ Factcheck Editor”，这是一种高级文本编辑器，旨在自动化事实检查和正确的事实不准确。考虑到广泛的错误信息问题，通常是由于内容创建者无意错误的结果，我们的工具旨在应对这一挑战。它支持90多种语言，并利用 Transformer 模型来帮助人类进行劳动密集型的事实验证过程 ...

0 0 0 2025/03/20 arXiv:2404.19482v1 changer32

Query-dominant User Interest Network for Large-Scale Search Ranking

历史行为在各种预测任务中显示出很大的影响和潜力，包括建议和信息检索。总体历史行为是各种各样的，但嘈杂，而搜索行为总是很稀疏。个性化搜索排名中的大多数现有方法都采用稀疏的搜索行为，以瓶颈学习表示，这些行为无法充分利用关键的长期利益 ...

0 0 0 2025/03/20 arXiv:2310.06444v1 cidisk

PDX: A Data Layout for Vector Similarity Search

我们提出了跨（PDX）的分区尺寸，即对向量的数据布局（例如，嵌入），该数据与PAX [6]类似，使用垂直布局来将多个向量存储在一个块中（图1） ...

0 0 0 2025/03/20 arXiv:2503.04422v1 李大人

Multimodal Structured Generation: CVPR's 2nd MMFM Challenge Technical Report

多模式基础模型（MMFMS）在计算机视觉和自然语言处理任务中都表现出了强劲的性能。但是，它们的性能会降低在需要这些模式（例如文档理解）之间建立高度集成的任务中。此外，对这些模型和部署它们进行填充需要比单峰模型更大的计算和工程工作 ...

0 0 1 2025/03/20 arXiv:2406.11403v2 unicornnrocinu

Marconi: Prefix Caching for the Era of Hybrid LLMs

将注意力层的语言建模功能与循环层（例如状态空间模型）的效率相结合的混合模型在实际支持大型语言模型服务中的长上下文方面获得了关注 ...

0 0 0 2025/03/20 arXiv:2411.19379v2 Daenerays

Triple-domain Feature Learning with Frequency-aware Memory Enhancement for Moving Infrared Small Target Detection

作为对象检测的子场，移动红外的小目标检测提出了重大挑战，这是由于目标尺寸很小，对比度低。当前存在的方法主要依赖于仅从时空结构域提取的功能。频域几乎不关心，尽管已广泛应用于图像处理 ...

0 0 0 2025/03/20 arXiv:2406.06949v2 WHB

Referring to Any Person

人类无疑是计算机视觉中最重要的参与者，并且能够检测任何给定自然语言描述的人，我们将任务定义为任何人，具有实践价值。但是，我们发现现有模型通常无法实现现实世界的可用性，并且当前的基准测试受到其专注于一对一的推荐的限制，这阻碍了这一领域的进步。在这项工作中，我们从三个关键角度重新审视此任务：任务定义，数据集设计和模型体系结构 ...

0 0 0 2025/03/20 arXiv:2503.08507v1 liumingzhu

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）