检索增强的一代(RAG)已成为减轻大语言模型(LLMS)幻觉的有前途的框架,但其总体性能取决于基础检索系统。在金融领域中,由于特定于域特异性词汇和多等级表格数据,诸如10K报告诸如10-K报告构成了不同的挑战。在这项工作中,我们引入了一条高效的端到端破布管道,该管道通过三相方法来增强财务文件的检索:退回前,检索和退回后 ...
DomCLP: Domain-wise Contrastive Learning with Prototype Mixup for Unsupervised Domain Generalization
基于实例歧视任务的自我监督学习(SSL)方法取得了巨大的成功。尽管他们成功了,但SSL模型通常很难为看不见的域数据生成有效的表示。为了解决这个问题,已经进行了无监督的域概括(UDG)的研究,该研究旨在开发可以生成域 - iRrelevant特征的SSL模型 ...
在本文中,我们提出了一种新颖的端到端用户定义的关键字发现方法,该方法利用语音和文本序列之间的语言相应模式。与以前需要语音关键字注册的方法不同,我们的方法将输入查询与注册文本关键字序列进行比较。为了将音频和文本表示形式放置在一个共同的潜在空间中,我们采用了一种基于注意力的跨模式匹配方法,该方法以端到端的方式进行了训练,并具有单调匹配的损失和关键字分类损失 ...
开放的词汇关键字发现是自动语音识别(ASR)的一项至关重要且具有挑战性的任务,该任务侧重于检测语音中的用户定义的关键字。关键字发现方法通常将音频话语和关键字映射到联合嵌入空间中,以获得一些亲和力得分。在这项工作中,我们提出了ADAKWS,这是一种用于关键字发现的新方法,其中对文本编码器进行了训练以输出关键字条件条件的标准化参数 ...
理解和预测城市动态对于管理运输系统,优化城市规划和增强公共服务至关重要。尽管基于神经网络的方法取得了成功,但他们通常依靠特定于任务的架构和大量数据,从而限制了它们在各种城市场景中概括的能力。同时,大型语言模型(LLMS)提供了强大的推理和概括功能,但它们在时空的城市动态上的应用仍未得到充满激光 ...
这项研究提出了一种新颖的零击用户定义的关键字点斑点模型,该模型利用关键字的音频 - 音频关系来提高性能。与先前在话语级别估计的方法不同,我们同时使用语音和音素级别的信息。我们提出的方法包括在各种发音环境中高性能的两流语音编码器结构,基于自我注意的模式提取器以及高性能的音素级检测损失 ...
我们介绍了Alphageometry2,这是Trinh等人(2024)中引入的字母计量法的显着改进版本,现在已经超过了解决奥林匹克几何学问题的平均金牌得主。为了实现这一目标,我们首先将原始的字母计量学语言扩展到解决涉及对象运动的更严重问题,以及包含角度,比率和距离的线性方程的问题 ...
我们介绍了视觉为洛拉(Vora),这是一种将LLM转化为MLLM的新型范式。与依靠外部视觉模块进行视觉编码的普遍的MLLM体系结构不同,Vora通过将特定于视觉的Lora层直接集成到LLM中,从而内在视觉能力。该设计使添加的参数在推断过程中可以无缝合并到LLM中,从而消除了结构复杂性并最大程度地减少了计算开销 ...