扩散概率模型(DPM)是强大的生成模型,在许多生成任务中取得了无与伦比的成功。在这项工作中,我们旨在在扩散模型的训练和采样中建立归纳偏见,以更好地适应数据的目标分布。对于拓扑结构化的数据,我们设计了一个基于频率的no级操作员,以故意操纵和设置这些感应性偏见 ...
生成忠实捕获现实世界分布的统计结构的合成数据是数据建模的基本挑战。经典方法通常取决于强有力的参数假设或手动结构设计以及高维或异质域中的斗争。大型语言模型(LLMS)的最新进展揭示了其对现实世界分布的灵活,高维的先验的潜力 ...
迄今为止,将大型语言模型与Point swielt with Oblesute Rewards保持一致,在网上需要在线算法(例如PPO和GRPO)。相反,可以利用离线或非政策数据(例如DPO和Rebel)的更简单的方法仅限于从偏好对或相对信号中学习。为了弥合这一差距,我们介绍\ emph {分数奖励策略优化}(QRPO),该杂物从刻度的绝对奖励中学习,同时保留了类似DPO的方法的简单性和离线适用性 ...
我们提出了一种线性化框架Lizard,该框架将基于 Transformer 的大型语言模型(LLMS)转换为无限 - 封闭式生成的灵活的次级架构。由于软件注意力的二次复杂性和增长的密钥值(KV)高速缓存,基于 Transformer 的LLM面临着重要的内存和计算瓶颈。蜥蜴通过引入次级注意机制来解决这些局限性,该机制在保留输出质量的同时紧密近似于SoftMax的注意力 ...
本文介绍了多种语言(MLS)数据集,这是一种适合语音研究的大型多语言语料库。该数据集源自Librivox的读取有声读物,由8种语言组成,包括约44.5万小时的英语和其他语言的总计约6K小时 ...
Graph-based Approaches and Functionalities in Retrieval-Augmented Generation: A Comprehensive Survey
大型语言模型(LLM)由于缺乏足够的培训数据和最新知识而与推断期间的事实错误斗争,导致幻觉问题。通过从外部来源检索相关信息以为问题产生更准确的答案,检索授权的生成(RAG)已成为解决LLM的限制的有前途解决方案。鉴于外部来源中存在结构化知识的普遍存在,已经在抹布中取得了相当大的进步来采用与图形相关的技术,并根据知识实体之间的拓扑信息实现了更复杂的推理 ...
基于扩散的文本到语音(TTS)系统在零弹性语音综合中取得了显着进步,但是优化对感知指标的所有组件仍然具有挑战性。与Dmospeech的先前工作证明了对语音产生组件的直接度量优化,但持续时间预测仍然不在比。本文介绍了Dmospeech 2,该2通过增强学习方法将指标优化扩展到了持续时间预测指标 ...
有效地获取现实世界中的数据越来越关键。但是,远程操作捕获的大规模演示往往会占用很高的成本,并且无法以有效的方式扩大数据大小。在模拟环境下对情节进行采样是大规模收集的一种有希望的方法,而现有的模拟器未能对纹理和物理学进行高保真建模 ...