副语言的声音,例如笑声和叹息,对于综合更现实和引人入胜的演讲至关重要。但是,现有方法通常取决于专有数据集,而公开可用的资源通常会遭受不完整的语音,不准确或缺少时间戳以及有限的现实世界中的相关性。为了解决这些问题,我们提出了一个自动化框架,用于生成大规模的副语言数据,并将其应用于构造Shinparaspeech数据集 ...
在这份简短的报告中,我们引入了联合多语预测(JTP),这是对旨在通过共同预测多个将来的 Token 来丰富隐藏状态表示的标准下一步预测的轻巧修改。与以前的多言预测方法不同,JTP通过精心设计的表示瓶颈策略性地采用了教师的强迫,从而使模型可以在培训期间用最小的计算开销来编码丰富的预测信息。我们表明,JTP方法实现了短暂的信念状态表示,而多token预测的流行替代方案未能做到这一点 ...
大型语言模型(LLMS)已经精通解决各种任务,包括涉及多模式输入的任务。特别是,用语音编码器实例化LLM(例如Llama)并在配对数据上训练它,将语音识别(ASR)能力赋予了仅解码器模型,因此称为Speech-Lallama。然而,由于自动回归推理的顺序性质和相对较大的解码器,语音式模型需要相对较高的推理时间 ...
多元时间序列数据中有效的异常检测和诊断对于现代工业应用非常重要。但是,构建能够快速准确地确定异常观察的系统是一个具有挑战性的问题。这是由于缺乏异常标签,高数据波动率以及对现代应用中超低推理时间的需求 ...
深度学习在许多领域取得了显着的成功,包括计算机视觉、自然语言处理和强化学习。这些领域的代表性人工神经网络包括形态神经网络、变形金刚和深度Q网络。基于单模态神经网络,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别...... ...
本文报告了第一个受脑启发的大语言模型(Brillm)。这是一个非转变器,非GPT,非传统机器学习输入输出控制的生成语言模型。该模型基于在神经网络方面的信号完全连接的流动(SIFU)定义,并且具有整个模型图上所有节点的解释性,而不是传统的机器学习模型,而传统的机器学习模型仅在输入和输出端具有有限的可解释性 ...
音频驱动的阿凡达视频的最新进展显着增强了视听现实主义。但是,现有方法仅将指导条件视为由声学或视觉提示驱动的低级跟踪,而无需对指令传达的沟通目的进行建模。这种限制损害了他们的叙事连贯性和性格表现力 ...
我们研究视觉嵌入模型是否沿线性方向捕获连续的序数属性,我们将其称为_rank axes_。如果将嵌入在此类轴上保留属性的顺序,我们将模型定义为_rankable_,对于属性。在7个受欢迎的编码器和9个具有年龄,人群计数,头姿势,美学和新近度等属性的数据集中,我们发现许多嵌入在本质上是可以固有的 ...