如何评估大语言模型(LLM)的编码能力仍然是一个悬而未决的问题。我们发现,现有的基准测试与现实世界代码存储库的一致性很差,并且不足以评估LLMS的编码能力。为了解决知识差距,我们提出了一个名为DeVeval的新基准,该基准有3个进步 ...
端到端的自主驾驶已通过直接预测原始感知输入的未来轨迹来取得了很大的进步,后者绕过传统的模块化管道。但是,通过模仿学习训练的主流方法遭受了关键的安全性限制,因为它们无法区分看起来像人类的轨迹但潜在不安全。最近的一些方法试图通过回归多个规则驱动的分数来解决这一问题,但将监督与策略优化相解耦,从而导致次优绩效 ...
尽管最近进步,由于商业文本到语音(TTS)系统中的韵律控制有限,综合声音通常缺乏表现力。我们介绍了第一个将语音合成标记语言(SSML)标签插入法语文本的端到端管道,以控制音调,口语率,音量和暂停持续时间。我们使用两个Qlora-Fine-Fun-tun Qwen 2的级联建筑 ...
副语言的声音,例如笑声和叹息,对于综合更现实和引人入胜的演讲至关重要。但是,现有方法通常取决于专有数据集,而公开可用的资源通常会遭受不完整的语音,不准确或缺少时间戳以及有限的现实世界中的相关性。为了解决这些问题,我们提出了一个自动化框架,用于生成大规模的副语言数据,并将其应用于构造Shinparaspeech数据集 ...
本文提出了一种通过文化学习(ICL)的语音情感识别(SER)的个性化方法。由于情绪的表达因人而异,因此特定于说话者的适应对于改善SER表现至关重要。常规的SER方法是使用目标扬声器的情感发言人个性化的,但是通常很难准备与所有情感标签相对应的话语 ...
在非结构化环境中的类人机器人操作需要紧密整合以自我为中心的感知和全身控制。但是,现有方法要么取决于外部运动捕获系统,要么无法跨越各种任务。我们介绍了VisualMimic,这是一个视觉模拟到现实的框架,该框架将以人形机器人的分层全身控制统一以自我为中心的视觉 ...
通过跟踪各种人类运动,学习多功能全身技能是迈向通用人形机器人的基本步骤。这项任务尤其具有挑战性,因为单个政策必须掌握整个运动技能的曲目,同时确保长期序列的稳定性。为此,我们提出了VM,这是一个统一的全身控制器,使人类机器人能够在单个政策中学习多种多样的动态行为 ...
检索包含必要信息以准确回答给定问题的相关表对于开放域问答(QA)系统至关重要。以前的方法假设可以在单个表中找到这样的问题的答案,也可以通过问题分解或重写确定的多个表中找到。但是,这些方法都不足够,因为许多问题都需要检索多个表,并通过连接计划加入它们,该计划无法从用户查询本身中辨别出来 ...