知识追踪(KT)是一种至关重要的技术,可以通过观察他们的历史学习过程来预测学生的未来表现。由于深层神经网络具有强大的表示能力,通过使用深度学习技术解决KT问题,已经取得了显着的进步。大多数现有方法都依赖于\ emph {同质问题}假设,即如果问题共享相同的知识组成部分,则它们具有等效的贡献 ...
以 GPT-4V 为代表的多模态基础模型为低级视觉感知和理解任务带来了新的范式,可以响应模型中广泛的自然人类指令。虽然现有的基础模型在低级视觉任务上显示出了令人兴奋的潜力,但它们的相关能力仍处于初步阶段,需要改进。为了增强这些模型,我们进行了大规模的主观实验,收集了大量真实的人类对低级视觉的反馈 ...
语音质量评估通常需要评估来自多个方面的音频,例如平均意见评分(MOS)和说话者的相似性(SIM)\等,这对于使用一个为单个任务设计的小型模型覆盖可能具有挑战性。在本文中,我们建议利用最近引入听觉大语言模型(LLMS)进行自动语音质量评估 ...
文本文档通常在层次图结构中连接,其中中央文档链接到具有指数增长的连接性的其他文档。尽管双曲线图神经网络(HGNN)在捕获此类层次结构方面表现出色,但它们无法在文档中建模丰富的文本语义。此外,文档中的文本内容通常讨论不同特异性的主题 ...
理想的多模式代理应了解其输入方式的质量。最近的进步使大型语言模型(LLMS)能够合并用于处理各种语音相关任务的听觉系统。但是,大多数音频LLM仍未意识到它们正在处理的演讲的质量 ...
模型蒸馏是一种有效且广泛使用的技术,可以将知识从教师转移到学生网络。典型的应用程序是从强大的大型网络或合奏转移到小型网络,这更适合低内存或快速执行要求。在本文中,我们提出了一种深入的相互学习(DML)策略,其中,一个学生合作地学习了静态的预定老师和学生之间的转移,而是在整个培训过程中互相教学 ...
我们介绍了Randar,这是一种仅解码器的视觉自回归(AR)模型,该模型能够以任意 Token 订单生成图像。与以前仅依赖于预定义的生成顺序的仅解码器的AR模型不同,Randar消除了这种诱导偏见,从而在仅解码器的一代中解锁了新功能。我们的基本设计可以通过在预测每个图像 Token 之前插入“位置指令 Token ”来实现随机顺序,代表下一个图像 Token 的空间位置 ...
深度强化学习(RL)在解决复杂的机器人任务(例如四倍的运动)方面表现出了令人印象深刻的结果。然而,当前的求解器无法制定尊重硬约束的有效政策。在这项工作中,我们主张将约束纳入机器人学习,并将约束作为终止(CAT),这是一种新颖的约束RL算法 ...