一译 —— 文档和论文翻译、对照阅读、讨论和社区

Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems

检索增强的一代（RAG）已成为减轻大语言模型（LLMS）幻觉的有前途的框架，但其总体性能取决于基础检索系统。在金融领域中，由于特定于域特异性词汇和多等级表格数据，诸如10K报告诸如10-K报告构成了不同的挑战。在这项工作中，我们引入了一条高效的端到端破布管道，该管道通过三相方法来增强财务文件的检索：退回前，检索和退回后 ...

0 0 0 2025/06/15 arXiv:2503.15191v1 ZYF0219

DomCLP: Domain-wise Contrastive Learning with Prototype Mixup for Unsupervised Domain Generalization

基于实例歧视任务的自我监督学习（SSL）方法取得了巨大的成功。尽管他们成功了，但SSL模型通常很难为看不见的域数据生成有效的表示。为了解决这个问题，已经进行了无监督的域概括（UDG）的研究，该研究旨在开发可以生成域 -  iRrelevant特征的SSL模型 ...

0 0 0 2025/06/15 arXiv:2412.09074v1 15966829631

Learning Audio-Text Agreement for Open-vocabulary Keyword Spotting

在本文中，我们提出了一种新颖的端到端用户定义的关键字发现方法，该方法利用语音和文本序列之间的语言相应模式。与以前需要语音关键字注册的方法不同，我们的方法将输入查询与注册文本关键字序列进行比较。为了将音频和文本表示形式放置在一个共同的潜在空间中，我们采用了一种基于注意力的跨模式匹配方法，该方法以端到端的方式进行了训练，并具有单调匹配的损失和关键字分类损失 ...

0 0 0 2025/06/15 arXiv:2206.15400v2 wenwen

Open-vocabulary Keyword-spotting with Adaptive Instance Normalization

开放的词汇关键字发现是自动语音识别（ASR）的一项至关重要且具有挑战性的任务，该任务侧重于检测语音中的用户定义的关键字。关键字发现方法通常将音频话语和关键字映射到联合嵌入空间中，以获得一些亲和力得分。在这项工作中，我们提出了ADAKWS，这是一种用于关键字发现的新方法，其中对文本编码器进行了训练以输出关键字条件条件的标准化参数 ...

0 0 0 2025/06/15 arXiv:2309.08561v1 wenwen

UrbanMind: Urban Dynamics Prediction with Multifaceted Spatial-Temporal Large Language Models

理解和预测城市动态对于管理运输系统，优化城市规划和增强公共服务至关重要。尽管基于神经网络的方法取得了成功，但他们通常依靠特定于任务的架构和大量数据，从而限制了它们在各种城市场景中概括的能力。同时，大型语言模型（LLMS）提供了强大的推理和概括功能，但它们在时空的城市动态上的应用仍未得到充满激光 ...

0 0 0 2025/06/15 arXiv:2505.11654v3 DioInRuc

PhonMatchNet: Phoneme-Guided Zero-Shot Keyword Spotting for User-Defined Keywords

这项研究提出了一种新颖的零击用户定义的关键字点斑点模型，该模型利用关键字的音频 - 音频关系来提高性能。与先前在话语级别估计的方法不同，我们同时使用语音和音素级别的信息。我们提出的方法包括在各种发音环境中高性能的两流语音编码器结构，基于自我注意的模式提取器以及高性能的音素级检测损失 ...

0 0 0 2025/06/15 arXiv:2308.16511v1 wenwen

Gold-medalist Performance in Solving Olympiad Geometry with AlphaGeometry2

我们介绍了Alphageometry2，这是Trinh等人（2024）中引入的字母计量法的显着改进版本，现在已经超过了解决奥林匹克几何学问题的平均金牌得主。为了实现这一目标，我们首先将原始的字母计量学语言扩展到解决涉及对象运动的更严重问题，以及包含角度，比率和距离的线性方程的问题 ...

0 0 0 2025/06/15 arXiv:2502.03544v2 Dreamer

Vision as LoRA

我们介绍了视觉为洛拉（Vora），这是一种将LLM转化为MLLM的新型范式。与依靠外部视觉模块进行视觉编码的普遍的MLLM体系结构不同，Vora通过将特定于视觉的Lora层直接集成到LLM中，从而内在视觉能力。该设计使添加的参数在推断过程中可以无缝合并到LLM中，从而消除了结构复杂性并最大程度地减少了计算开销 ...

0 0 0 2025/06/15 arXiv:2503.20680v1 wenwen

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）