大型语言模型(LLM)已彻底改变了自然语言处理(NLP),尤其是通过检索型发电(RAG),通过整合外部知识来增强LLM功能。但是,传统的抹布系统面临着关键的局限性,包括由于文本块而导致的上下文完整性中断,以及对检索的语义相似性的过度依赖。为了解决这些问题,我们提出了Causalrag,这是一个新颖的框架,将因果图纳入检索过程中 ...
随着大型语言模型(LMS)的发展,越来越需要控制其输出以与人类价值(例如排毒)或所需属性保持一致(e ...
近年来,已经提出了包括封闭和开源的各种大型语言模型(LLMS),并不断在多个基准测试上创造新的记录。但是,LLM的发展仍然面临几个问题,例如从头开始培训模型的高成本,以及持续的预训练导致灾难性遗忘等等。 LLM在具有成本效益的设置下 ...
我们提出了Audiogen-Omni-一种基于多模式扩散 Transformer (MMDIT)的统一方法,能够生成与输入视频相干同步的高保真音频,语音和歌曲。 Audiogen-Omni引入了一种新型的联合训练范式,该范式无缝整合了大规模的视频文本Audio Corpora,从而使能够生成语义上富含声学的音频的模型,该模型以多模式输入为条件,并适应了广泛的音频生成任务。 Audiogen-Omni采用了统一的歌词转录编码器,该编码器将歌曲和口语输入中的素描和音素编码为密集的框架级表示 ...
本调查文章着重于机器学习和数据压缩领域之间的新兴联系。虽然使用速率延伸理论建立了经典(有损)数据压缩的基本限制,但与机器学习的联系导致了新的理论分析和应用领域。我们调查了有关基于任务和目标压缩的最新著作,估计和推理的速率 - 缺陷感知理论和压缩 ...
基于 Transformer 的模型已在顺序推荐系统(SRSS)中获得了显着的牵引力,以有效地捕获用户项目相互作用。但是,这些模型通常会遭受高计算成本和缓慢的推理。同时,现有的有效SRS方法难以将高质量的语义和位置信息嵌入潜在的表示中 ...
这项工作介绍了一个无模型的增强学习框架,该框架可以实现各种运动模式(四足动物,三脚架或小脚架),以及用于腿部机器人运动的各种任务。我们采用基于轻松的对数屏障功能作为软限制的运动式奖励,以使学习过程偏向于所需的运动样式,例如步态,脚部间隙,关节位置或身体高度。预定义的步态周期以灵活的方式编码,从而促进整个学习过程中的步态调整 ...
具有文本查询的语义检索是检索语义匹配的项目,它是提高电子商务搜索系统有效性的重要组成部分。在本文中,我们研究了多模式检索问题,其中将项目的视觉信息(例如,图像)作为文本信息的补充,以丰富项目表示并进一步提高检索性能 ...
视频字幕旨在根据内容来生成自然语言描述,在该内容中,表示学习起着至关重要的作用。现有方法主要是在监督的学习框架内开发的,该方法通过在不完全利用语言语义的情况下逐字比较与地面真相文本相比。在这项工作中,我们提出了一个层次模块化网络,以在生成字幕之前从三个级别启动视频表示和语言语义 ...
为了解决当前视频生成社区中准确的用户意图解释的瓶颈,我们提出了任何2caption,这是在任何情况下可控视频生成的新型框架。关键思想是将视频综合步骤中的各种条件解释步骤分解。通过利用现代多模式大型语言模型(MLLM),任何2caption解释了各种输入 - 文本,图像,视频和专业提示,例如区域,运动和相机姿势 - into密集的结构化字幕,可为骨干视频发电机提供更好的指导 ...