多矢量文档检索系统,例如Colpali,在复杂查询中以细粒度匹配表现出色,但由于它们依赖于高维贴片嵌入和晚期交流评分而产生了大量的存储和计算成本。为了应对这些挑战,我们提出了HPC-Colpali,这是一个分层贴片压缩框架,可在保留其检索准确性的同时提高Colpali的效率。我们的方法集成了三种创新技术:(1)K-均值量化,该量化将嵌入贴片嵌入到1字节质心索引中,达到高达32 $ \ times ...
Cross-Dialect Text-To-Speech in Pitch-Accent Language Incorporating Multi-Dialect Phoneme-Level BERT
我们探索跨二元文本对语音(CD-TTS),这是在非本地方言中综合扬声器的声音的任务,尤其是在倾斜的语言中。 CD-TTS对于开发自然与各个地区的人进行沟通的语音代理很重要。我们提出了一个新颖的TTS模型,其中包括三个子模型,可以在此任务中竞争性能 ...
深度神经网络通过改善其亮度和消除噪音来增强低光图像,取得了显着的进步。但是,大多数现有的方法以端到端的映射网络启发,忽略了图像增强任务的固有先验,并且缺乏透明度和解释性。尽管已经提出了一些不断发展的解决方案来缓解这些问题,但它们依赖于提供模棱两可和隐性先验的近端运营商网络 ...
本文提出了一个自动韵律标签注释的模型,其中预测的标签可用于训练可控制的文本到语音模型。所提出的模型不仅利用了由基于自我监督的学习(SSL)模型或耳语编码器提取的丰富声学特征,而且还利用了从音素输入预告片的语言基础模型(例如PNG Bert bert and Pl-bert)获得的语言特征。声学和语言特征的串联用于预测音素级别的韵律标签 ...
这项研究调查了使用大语言模型(LLM)在日常情况下自动注释人类情绪的可行性和性能。我们采用了GPT-4O-MINI模型,对从视频段中提取的关键帧进行快速,零拍标记,对公开可用的Ferv39K数据集进行了实验。在七级情感分类法(“愤怒”,“厌恶”,“恐惧”,“快乐”,“中立”,“悲伤”,“惊喜”)下,LLM的平均精度约为50% ...
本文探讨了如何通过随机删除时间序列的子序列级贴片来增强现有的蒙版时间序列建模。在此基础上,提出了一种名为Lotpatch的简单而有效的方法,该方法具有两个显着的优势:1)它通过平方级优势提高了训练效率; 2)在诸如内域,跨域,几乎没有学习和冷启动之类的方案中,它为建模提供了其他优势。本文进行了全面的实验,以验证该方法的有效性并分析其内部机制 ...
在多元时间序列分析的领域中,通道独立性的概念越来越多地采用,由于其消除噪声的能力和无关变量的影响,表现出了出色的性能。但是,这样的概念通常简化了通道之间的复杂相互作用,可能导致信息丢失。为了应对这一挑战,我们提出了一种渠道独立性的策略,然后提出混合 ...
本文介绍了Scope-RL,这是一种全面的开源Python软件,旨在脱机增强学习(离线RL),非政策评估(OPE)和选择(OPS)。与仅关注政策学习或评估的大多数现有库不同,Spope-RL无缝地集成了这两个关键方面,从而促进了离线RL和OPE流程的灵活和完整实现。 Scope-RL特别强调其OPE模块,提供了一系列OPE估计器和强大的对管道协议 ...