演讲者的情绪状态可能会受到对话中许多不同因素的影响,例如对话场景,对话主题和对话者刺激。但是,目前可用的数据资源以支持对话中这种多模式情感分析的规模和多样性有限。在这项工作中,我们提出了一个多模式的多景观多标签情感对话数据集M3ED,其中包含来自56个不同电视连续剧的990个二元性情感对话,总共9,082个转弯和24,449个话语 ...
自我监督编码器的进步提高了视觉语音识别(VSR)。将这些编码器与LLM解码器集成的最新方法提高了转录精度。但是,尚不清楚这些收益是源于视觉理解还是更强大的语言建模。在这项工作中,我们通过冻结或选择性地更新视觉编码器,缩放解码器的大小,比较适应策略和体系结构以及在LRS2,LRS3及其组合中进行不同的培训数据来系统地评估LLM解码器 ...
自动视频评论系统被广泛用于多媒体社交媒体平台,以提取有关视频内容的事实信息。但是,当前的系统可能会忽略基本的para语言提示,包括情感和态度,这对于充分传达视觉内容的含义至关重要。这些提示的缺乏会限制用户的理解,或者在某些情况下会扭曲视频的原始意图 ...
经过大规模数据集训练的通才机器人策略(例如开放X型)(OXE)在各种任务中都表现出强大的性能。但是,他们经常努力超越培训数据的分布。在本文中,我们研究了这种有限的概括能力的根本原因 ...
我们通过将全面的视觉提示整合到预训练的表达语音模型中,提出了一个视听语言模型(AVLM),用于表达语音生成。我们在预训练期间探索多个视觉编码器和多模式融合策略,以确定最有效的整合方法。随后对情绪识别和表达对话任务进行微调会带来仅对语音基线的大幅收益(e ...
长期以来,GPU内核优化一直是高性能计算和机器学习的交集的核心挑战。有效的内核对于加速大型语言模型(LLM)培训和服务至关重要,但获得高性能通常需要大量的手动调整。基于编译器的系统减轻了一些负担,但仍需要大量的手动设计和工程工作 ...
多模式大型语言模型(MLLM)通过合并功能提取器和投影模块来扩展LLMS以处理图像,视频和音频。但是,这些其他组件(与复杂的推理管道和异质工作负载相结合)引入了明显的推理开销。因此,有效服务MLLM仍然是一个重大挑战 ...
本文介绍了一种新模型,以生成短视频推荐的浏览过程,并通过用户参与反馈(SCAM)提出了一种新颖的细分内容知识模型,以在视频推荐中观看时间预测。与依靠多模式特征以了解视频内容理解的现有方法不同,骗局通过用户的历史观看行为隐式地对视频内容进行建模,从而在没有复杂的多模态数据的情况下实现了细分级别的理解。通过根据持续时间将视频分为段并采用类似 Transformer 的结构,骗局捕获了段之间的顺序依赖性 ...