RPG、Stable Diffusion 3 和 FLUX 等高级扩散模型在合成文本到图像的生成方面取得了显着的进步。然而,这些方法通常在组合生成方面表现出独特的优势,其中一些方法擅长处理属性绑定,另一些方法擅长处理空间关系。这种差异凸显了需要一种能够利用各种模型的优势互补来全面提高组合能力的方法 ...
迅速学习是通过使用很少的样本调整可学习的及时向量来调整强大的视觉语言基础模型(例如剪辑)的最有效和热门方式之一。但是,尽管及时的学习在内域数据上取得了出色的表现,但它仍然面临着概括不见的类和领域的主要挑战。一些现有的及时学习方法通过适应为不同的 Token 或域的不同提示来解决这个问题,但忽略了学到的提示能力概括到看不见的域 ...
通才的网络代理商在自主完成实际网站上的各种任务方面具有巨大的潜力,从而显着提高了人类生产力。但是,网络任务(例如预订航班)通常涉及用户的PII,如果Web代理商意外与折磨的网站互动,则可能会面临潜在的隐私风险,这种情况在文献中基本上尚未探索。在这项工作中,我们通过对对抗环境中通才的网络代理的隐私风险进行首次研究来缩小这一差距 ...
自动睡眠分期对于睡眠评估和疾病诊断至关重要。大多数现有方法取决于一个特定的数据集,并且仅限于将培训数据和测试数据来自同一数据集的其他看不见的数据集。在本文中,我们将域的概括引入自动睡眠阶段,并提出了可推广睡眠阶段的任务,该任务旨在提高模型的概括能力,使其无法看到数据集 ...
检索增强的一代(RAG)已成为减轻大语言模型(LLMS)幻觉的有前途的框架,但其总体性能取决于基础检索系统。在金融领域中,由于特定于域特异性词汇和多等级表格数据,诸如10K报告诸如10-K报告构成了不同的挑战。在这项工作中,我们引入了一条高效的端到端破布管道,该管道通过三相方法来增强财务文件的检索:退回前,检索和退回后 ...
DomCLP: Domain-wise Contrastive Learning with Prototype Mixup for Unsupervised Domain Generalization
基于实例歧视任务的自我监督学习(SSL)方法取得了巨大的成功。尽管他们成功了,但SSL模型通常很难为看不见的域数据生成有效的表示。为了解决这个问题,已经进行了无监督的域概括(UDG)的研究,该研究旨在开发可以生成域 - iRrelevant特征的SSL模型 ...
在本文中,我们提出了一种新颖的端到端用户定义的关键字发现方法,该方法利用语音和文本序列之间的语言相应模式。与以前需要语音关键字注册的方法不同,我们的方法将输入查询与注册文本关键字序列进行比较。为了将音频和文本表示形式放置在一个共同的潜在空间中,我们采用了一种基于注意力的跨模式匹配方法,该方法以端到端的方式进行了训练,并具有单调匹配的损失和关键字分类损失 ...
开放的词汇关键字发现是自动语音识别(ASR)的一项至关重要且具有挑战性的任务,该任务侧重于检测语音中的用户定义的关键字。关键字发现方法通常将音频话语和关键字映射到联合嵌入空间中,以获得一些亲和力得分。在这项工作中,我们提出了ADAKWS,这是一种用于关键字发现的新方法,其中对文本编码器进行了训练以输出关键字条件条件的标准化参数 ...