最近的语言模型产生了带有惊人频率的虚假但合理的文本。这种“幻觉”是基于语言的AI系统可用性的障碍,并可能损害依靠其产出的人。这项工作表明,鉴于验证的语言模型会幻觉某些类型的事实,与 Transformer LM架构或数据质量无关 ...
去噪扩散概率模型(DDPM)正在成为生成模型的领先范例。它最近在音频合成、时间序列插补和预测方面取得了突破。在本文中,我们提出了 Diffusion-TS,一种基于扩散的新型框架,它通过使用具有解纠缠时间表示的编码器-解码器变换器来生成高质量的多元时间序列样本,其中分解技术指导 Diffusion-TS 捕获语义时间序列的含义,而 Transformer 从噪声模型输入中挖掘详细的序列信息 ...
Converting Anyone's Voice: End-to-End Expressive Voice Conversion with a Conditional Diffusion Model
富有表现力的语音转换(VC)通过共同转换扬声器的身份和情感风格来为情感演讲者进行扬声器身份转换。尚未广泛探索表达VC中任意说话者的情感风格建模。先前的方法依赖于语音重建的辅助作品,这使语音质量在很大程度上取决于声码器的性能 ...
在利用大型语言模型(LLMS)的成功范式中出现了文化学习(ICL)。但是,它常常努力概括提供的示范的分布。通过解释(X-ICL),ICL的最新进步是通过指导LLM来理解和表达正确标签背后的推理来提高预测可靠性 ...
具有可验证奖励(RLVR)的增强学习已成为增强LLMS推理能力的强大范式。现有的研究主要集中在孤立的推理领域,例如数学解决问题,编码任务或逻辑推理。但是,现实世界的推理情景固有地要求多种认知技能的综合应用 ...
传统的视频到原告的生成技术主要集中于视频和非空间音频,通常会缺少准确代表3D环境中声源所需的空间提示。为了解决这一限制,我们介绍了一个新颖的任务360V2SA,以从360度视频中生成空间音频,专门生产一阶Ambisonics(FOA)音频 - 一种标准格式,用于代表3D空间音频,可捕获音方向性并启用现实主义3D Audio Recrodigation。我们首先创建Sphere360,这是一种针对此 ...
视觉语言模型(VLM)越来越多地在广泛的应用中使用,将其安全性和行为控制置于最前沿。尽管现有的行为控制或输出重定向(例如在VLMS中的系统提示)易于检测且通常是无效的基于激活的转向向量的方法,需要对模型内部设备的侵入性运行时访问,这与基于API的服务和封闭式服务部署不复存在。我们介绍了遮阳板(基于视觉输入的转向输出重定向),这是一种新型方法,可通过仅通过优化的视觉输入来实现复杂的行为控制 ...
大型视觉模型(LVLM)在多模式的理解和产生中表现出显着的能力,但是它们对对抗性攻击的脆弱性引起了重大的鲁棒性关注。尽管现有的有效攻击始终集中在特定于任务的白色盒子设置上,但这些方法在LVLM的背景下受到限制,该方法是针对各种下游任务而设计的,需要昂贵的全模型梯度计算。由LVLM中的视觉编码器的关键作用和广泛采用的动机,我们提出了一种简单而有效的视觉编码器攻击(VEATTACK),该攻击仅针对LV ...