虽然主观评估一直是评估语音生成的黄金标准,但由于其成本效率,对与人类主观判断高度相关的客观指标的需求日益增长。本文受到自然语言处理中评估指标的启发,提出了用于语音生成的参考感知自动评估方法。所提出的 SpeechBERTScore 计算生成语音和参考语音的自监督密集语音特征的 BERTScore,这些特征可以具有不同的序列长度 ...
大规模预训练和指令调整已经成功地训练了具有广泛能力的通用语言模型。然而,由于视觉输入的分布多样性,扩展到通用视觉语言模型具有挑战性。最近的一项工作探索了视觉语言指令调整,其灵感来自于 BLIP-2 模型中提出的用于桥接冻结模态的查询转换器 (QFormer) 方法 ...
基于 Transformer 的模型已成为多元时间序列预测 (MTSF) 的强大工具。然而,现有的 Transformer 模型通常无法捕获 MTS 数据中跨变量和时间维度的复杂依赖关系。最近提出了一些模型,通过两个顺序或并行注意机制分别捕获变量和时间依赖性 ...
GPT系列和BERT等大型序列模型(SM)在视觉、语言以及最近的强化学习任务上表现出了出色的性能和泛化能力。一个自然的后续问题是如何将多智能体决策抽象为SM问题并从SM的繁荣发展中受益。在本文中,我们介绍了一种名为多智能体 Transformer (MAT)的新颖架构,该架构有效地将协作多智能体强化学习(MARL)转化为 SM 问题,其中任务是将智能体的观察序列映射到智能体的最佳动作序列 ...
仅使用少量带注释的示例来构建可以快速适应新任务的模型对于多模态机器学习研究来说是一个公开的挑战。我们介绍火烈鸟,它具有这种功能的视觉语言模型(VLM)系列。提出了关键的架构创新:(i)视觉桥连接建立的预训练纯和纯语言模型,(ii)处理任意交错的视觉和文本数据序列,以及(iii)内置食物图像或视频作为输入... ...
多模态大语言模型 (MLLM) 的出现和日益普及具有增强日常生活各个方面的巨大潜力,从改善沟通到促进学习和解决问题。手机作为日常必不可少的伴侣,代表了 MLLM 最有效且易于访问的部署平台,可以无缝集成到日常任务中。然而,由于内存大小和计算能力的限制,在手机上部署 MLLM 面临着挑战,如果不进行广泛的优化,很难实现平滑和实时的处理 ...
在资源受限的平台上高效部署大型语言模型,特别是专家混合模型 (MoE),提出了重大挑战,特别是在计算效率和内存利用率方面。 MoE 架构以其在不成比例增加推理成本的情况下增加模型容量的能力而闻名,与密集模型相比,大大减少了 Token 生成延迟。然而,较大的模型尺寸使得没有高端 GPU 的个人无法访问 MoE 模型 ...
图像修复的目的是使用剩余部分的上下文信息来恢复划痕和损坏区域。近年来,得益于卷积神经网络(CNN)的复兴,图像修复任务取得了巨大突破。然而,大多数工作都考虑了掩模类型不足,当遇到看不见的掩模时,它们的性能会急剧下降 ...