理想的多模式代理应了解其输入方式的质量。最近的进步使大型语言模型(LLMS)能够合并用于处理各种语音相关任务的听觉系统。但是,大多数音频LLM仍未意识到它们正在处理的演讲的质量 ...
模型蒸馏是一种有效且广泛使用的技术,可以将知识从教师转移到学生网络。典型的应用程序是从强大的大型网络或合奏转移到小型网络,这更适合低内存或快速执行要求。在本文中,我们提出了一种深入的相互学习(DML)策略,其中,一个学生合作地学习了静态的预定老师和学生之间的转移,而是在整个培训过程中互相教学 ...
我们介绍了Randar,这是一种仅解码器的视觉自回归(AR)模型,该模型能够以任意 Token 订单生成图像。与以前仅依赖于预定义的生成顺序的仅解码器的AR模型不同,Randar消除了这种诱导偏见,从而在仅解码器的一代中解锁了新功能。我们的基本设计可以通过在预测每个图像 Token 之前插入“位置指令 Token ”来实现随机顺序,代表下一个图像 Token 的空间位置 ...
深度强化学习(RL)在解决复杂的机器人任务(例如四倍的运动)方面表现出了令人印象深刻的结果。然而,当前的求解器无法制定尊重硬约束的有效政策。在这项工作中,我们主张将约束纳入机器人学习,并将约束作为终止(CAT),这是一种新颖的约束RL算法 ...
社会搜索研究涉及研究方法论,利用社交信息,以更好地满足在线社交媒体中的用户信息需求,同时简化搜索工作,从而减少所花费的时间和所使用的计算资源。从以前的研究开始,在这项工作中,我们分析了社会搜索领域的当前艺术状况,提出了新的分类法并突出了当前的局限性和开放研究方向。我们将社会搜索领域分为三个子类别,在这里,社会方面起着关键作用:社会问题与回答,社交内容搜索和社交协作搜索 ...
已知许多文本分类任务是高度依赖域的。不幸的是,培训数据的可用性在范围内可能会大不相同。更糟糕的是,对于某些域而言,可能根本没有任何带注释的数据 ...
人类的言论超出了信息的传递。这是一种深刻的情感交流和个人之间的联系。尽管文本到语音(TTS)模型取得了长足的进步,但它们仍然面临着控制发言中情感表达的挑战。在这项工作中,我们提出了一种新型的情感控制TTS模型,该模型可利用大型语言模型(LLMS),以实现精细的自由式自由式自然语言情感控制,以及音素增强的变化设计,使模型输出 Token 和音频 Token 并行,以增强内容的链接(Chaine of ...
在本文中,我们专注于无监督的机器阅读理解域(MRC),其中源域具有大量的标记数据,而目标域中仅可用无标记的段落。为此,我们提出了一个对抗性域适应框架(ADAMRC),其中($ i $)伪问题首先是针对目标域中未标记的段落生成的,然后($ ii $)将域分类器纳入MRC模型,以预测哪个域是一个给定的通道Questage-Quemestage-Quemestage-Quemestage-Quemest ...