全双工自发对话数据对于增强会话TTS系统中合成语音的自然性和互动性至关重要。我们提出了两个开源双轨对话说话数据集,一个用中文和英语为英文,旨在通过提供更现实的对话数据来增强合成语音的自然性。这两个数据集包含在孤立的房间中记录的总共15小时的自然自发对话,该对话为每个扬声器提供了独立的高质量音轨 ...
我们提出了一个自动音频字幕的新型框架。封装采用了两个声学表示模型,即Encodec和Clap,以及验证的语言模型BART。我们还引入了一个名为“蒙版编解码器”建模的新培训目标,该目标提高了审前语言模型的声学意识 ...
时间序列异常检测(TSAD)在医疗保健,网络和行业等各个领域中起着至关重要的作用。考虑标签对于检测至关重要,但难以获得,我们将使用不精确的监督转向TSAD:在训练阶段仅提供串联级标签,而在测试阶段预测点级异常。以前的作品遵循传统的多企业学习方法(MIL)方法,该方法着重于鼓励在单个时间步骤中提高高异常分数 ...
Automl在为特定数据集和评估指标定义的给定机器学习任务找到有效的神经架构方面表现出了显着的成功。但是,大多数当前的汽车技术都将每个任务独立于从头开始,这需要探索许多架构,从而导致高计算成本。在这里,我们提出了AutoTransfer,这是一种汽车解决方案,通过将先前的建筑设计知识转移到新颖的感兴趣任务中,从而提高了搜索效率 ...
我们使用由合成和现实世界中的朦胧图像组成的新的大规模基准,对现有的单图算法进行了全面研究和评估,称为逼真的单图像脱掩和。居住在突出显示各种数据源和图像内容,并分为五个子集,每个子集都提供不同的培训或评估目的。我们进一步提供了多种标准,用于除去算法评估,从全参考指标到无参考指标,再到主观评估以及新的任务驱动评估 ...
大型语言模型(LLM)具有强大的功能,但静态;他们缺乏针对新任务,知识或示例来调整其权重的机制。我们介绍了自我适应LLM(密封),该框架使LLMS能够通过生成自己的固定数据和更新指令来自适应。给定新的输入,该模型会产生一个自我编辑的一代,该生成可能以不同的方式重组信息,指定优化超参数或调用用于数据增强和基于梯度的更新的工具 ...
现代AI工作负载严重依赖于优化培训和推理的计算内核。这些AI内核遵循定义明确的数据流模式,例如在DRAM和SRAM之间移动瓷砖,并在这些图块上执行一系列计算。但是,尽管这些模式清晰,但编写高性能内核仍然很复杂 ...
大型语言模型(LLMS)用于理解人类语言,推动人工智能(AI)网络搜索剂的发展。与传统的搜索引擎相比,LLM驱动的AI搜索剂能够理解和响应更深入的复杂查询,从而实现了更准确的操作和更好的上下文识别。但是,对中国网络搜索的关注和努力很少,这导致开源模型的功能尚未得到统一和公平评估 ...