Openai Whisper是一个在680,000小时的音频训练的良好自动语音识别(ASR)模型的家族。但是,它的编码器架构进行了序列到序列目标训练,因此缺乏对流媒体流的本地支持。在本文中,我们通过采用统一的两通道(U2)结构来微调用于使用WENET工具包流式ASR的耳语 ...
语音情感识别(SER)是预测语音数据情绪标签的基本任务。最近的作品主要集中于使用卷积神经网络〜(CNN)通过将时间变化的光谱特征视为图像来了解固定尺度特征表示的本地注意力图。但是,由于现有CNN的限制,在不同尺度上的丰富情感特征和重要的全球信息无法得到很好的捕获 ...
同时的语音翻译(Simulst)在处理部分语音输入时会逐步产生翻译。尽管大型语言模型(LLMS)在离线翻译任务中展示了强大的功能,但将其应用于模拟构成显着的挑战。现有的基于LLM的Simulst方法由于反复编码双向语音编码而产生了大量的计算开销,或者它们取决于固定的读/写策略,从而限制了效率和性能 ...
同时生成模型写入生成结果,同时阅读流输入输入,这是决策者确定适当的输出时间。现有的同时发电方法通常采用传统的编码器架构,并通过复杂的动态编程技术学习生成和决策能力。尽管LLM在文本生成方面表现出色,但他们在通过传统培训方法中扮演决策者的角色面临挑战,从而限制了他们同时发电的探索 ...
对空间音频和房间声学的研究旨在通过对声音在太空中的表现进行建模,从而创造沉浸式音频体验。在该研究领域的悠久历史中,已经基于理论进步和实际创新而开发了各种关键技术。我们重点介绍了空间音频记录和复制研究领域的历史成就,倡议活动,最新进步以及未来的前景,以及房间声学模拟,建模,分析和控制 ...