我们提出了 LongLoRA,这是一种有效的微调方法,可以扩展预训练大型语言模型 (LLM) 的上下文大小,且计算成本有限。通常,训练具有长上下文大小的 LLM 的计算成本很高,需要大量的训练时间和 GPU 资源。例如,在 8192 的上下文长度上进行训练,自注意力层的计算成本是 2048 的 16 倍。在本文中,我们从两个方面加速了 LLM 的上下文扩展。一方面,虽然推理过程中需要密集的全局注意力,但通过稀疏的局部注意力可以有效且高效地对模型进行微调。所提出的转移稀疏注意力有效地实现了上下文扩展,从而节省了不平凡的计算量,并且具有与普通注意力微调相似的性能。特别是,它在训练中只需两行代码即可实现,而在推理中是可选的。另一方面,我们重新审视上下文扩展的参数高效微调机制。值得注意的是,我们发现用于上下文扩展的 LoRA 在可训练嵌入和标准化的前提下效果很好。 LongLoRA 将这种改进的 LoRA 与 S^2-Attn 结合起来。 LongLoRA 在 Llama2 模型上从 7B/13B 到 70B 的各种任务上展示了强有力的实证结果。 LongLoRA 在单个 8x A100 机器上将 Llama2 7B 从 4k 上下文扩展到 100k,或将 Llama2 70B 扩展到 32k。 LongLoRA 扩展了模型的上下文,同时保留了其原始架构,并且与大多数现有技术兼容,例如 Flash-Attention2。此外,我们进一步使用 LongLoRA 和我们的长指令跟踪 LongAlpaca 数据集进行监督微调 ...
由于捕捉条件、面部形状和表情各异,在野外进行单眼面部表情捕捉具有挑战性。目前大多数方法都依赖于线性 3D 可变形模型,该模型在顶点位移级别上独立于身份来表示面部表情。我们提出了 SEREP(语义表达表示),这是一种在语义层面将表达与身份分离的模型。我们首先从不配对面部表情的高质量 3D 数据中学习表情表示。然后,我们训练一个模型,依靠使用低质量合成数据的新颖半监督方案来预测单眼图像的表达。此外,我们还引入了 MultiREX,这是一个解决表达式捕获任务评估资源缺乏问题的基准测试。我们的实验表明,SEREP 的性能优于最先进的方法,可以捕获具有挑战性的表达并将其转移到新的身份 ...
前馈单目面部捕捉方法试图从单个人图像中重建姿势面部。当前最先进的方法能够利用大型人脸图像数据集,在各种身份、光照条件和姿势下实时回归参数化 3D 人脸模型。然而,这些方法存在明显的局限性,因为底层参数化面部模型仅提供面部形状的粗略估计,从而限制了它们在需要精确 3D 重建的任务(老化、面部交换、数字化妆等)中的实际适用性。在本文中,我们提出了一种利用对象的无约束视频集合作为先验信息来进行高精度 3D 人脸捕捉的方法。我们的建议建立在两阶段方法的基础上。我们从重建人物的详细 3D 脸部头像开始,从视频集合中捕获精确的几何形状和外观。然后,我们使用预先训练的单眼面部重建方法中的编码器,用我们的个性化模型替换其解码器,并对视频集合进行迁移学习。使用我们预先估计的图像形成模型,我们获得了更精确的自我监督目标,从而改进了表达和姿势对齐。这使得训练有素的编码器能够从以前未见过的图像中实时高效地回归姿势和表情参数,与我们的个性化几何模型相结合,产生更准确和高保真度的网格推断。通过广泛的定性和定量评估,我们展示了最终模型与最先进的基线相比的优越性,并展示了其对看不见的姿势、表情和光照的泛化能力 ...
方言语音体现了丰富的文化和语言多样性,但由于数据稀缺、拼写不一致和复杂的语音变化,为方言构建文本到语音 (TTS) 系统仍然具有挑战性。为了解决这些问题,我们提出了 DiaMoE-TTS,这是一个基于 IPA 的统一框架,可标准化语音表示并解决字素到音素的歧义。该系统基于 F5-TTS 架构构建,引入了方言感知专家混合 (MoE) 来对语音差异进行建模,并采用低阶适配器 (LoRA) 和条件适配器的参数高效自适应来快速转换到新方言。与依赖大规模或专有资源的方法不同,DiaMoE-TTS 支持可扩展、开放数据驱动的合成。实验证明了自然且富有表现力的语音生成,仅用几个小时的数据就可以在未见过的方言和京剧等专业领域实现零样本性能 ...
大规模机器人学习最近显示出通过集成感知、控制和语言理解使机器人能够执行复杂任务的希望。然而,它在长视距、接触丰富的操作(例如可变形物体处理)方面遇到了困难,其中演示质量不一致。奖励建模提供了一种自然的解决方案:通过提供接地的进度信号,它将嘈杂的演示转化为稳定的监督,可以概括不同的轨迹。我们引入了一种阶段感知、基于视频的奖励建模框架,该框架可以联合预测高级任务阶段和细粒度的进度。奖励标签是从自然语言子任务注释自动派生的,确保跨可变长度演示的进度估计一致。这种设计克服了帧索引标签的问题,该标签在折叠 T 恤等可变持续时间任务中失败。我们的奖励模型展示了对可变性的鲁棒性、对分布外设置的泛化性以及对政策培训的强大实用性。在此基础上,我们提出了奖励对齐行为克隆(RA-BC),它可以过滤高质量数据并按奖励重新加权样本。实验表明,仅奖励模型就优于验证和真实机器人部署的基线。集成到 RA-BC 中,我们的方法在折叠 T 恤时从展平状态获得了 83% 的成功率,在折叠状态下获得了 67% 的成功率,远远超过了普通行为克隆,后者仅获得了 8% 和 0% 的成功率。总的来说,我们的结果强调奖励建模是长视野操作中可扩展、注释高效和强大的模仿学习的关键推动者 ...
我们提出了一种用于外汇统计套利(FXSA)的两步图学习方法,解决了先前研究中的两个关键差距:缺乏利用多货币和货币利率关系的外汇汇率预测(FXRP)图学习方法,以及忽视价格观察和交易执行之间的时间滞后。第一步,为了捕获复杂的多货币和货币利率关系,我们将 FXRP 表述为离散时间时空图上的边缘级回归问题。该图由作为节点的货币和作为边的交易所组成,利率和外汇汇率分别作为节点和边特征。然后,我们介绍一种利用时空图来解决 FXRP 问题的图学习方法。在第二步中,我们提出了一个随机优化问题来利用 FXSA,同时考虑观察执行时间滞后。为了解决这个问题,我们提出了一种图学习方法,通过投影和 ReLU 强制约束,利用以交易所为节点、影响关系为边的图来最大化风险调整回报,并利用 FXRP 方法对约束参数和节点特征的预测。此外,我们证明我们的 FXSA 方法满足经验套利约束。实验结果表明,我们的 FXRP 方法在均方误差方面产生了统计上显着的改进,并且 FXSA 方法实现了比基准高 61.89% 的信息比和高 45.51% 的 Sortino 比率。我们的方法在图学习的背景下提供了关于 FXRP 和 FXSA 的新颖视角 ...
尽管基于生成对抗网络 (GAN) 的声码器最近取得了进展,该模型根据声学特征生成原始波形,但为各种录音环境中的众多扬声器合成高保真音频仍然具有挑战性。在这项工作中,我们提出了 BigVGAN,这是一种通用声码器,可以很好地概括各种分布外场景,无需微调。我们在 GAN 生成器中引入了周期性激活函数和抗锯齿表示,这为音频合成带来了所需的感应偏置,并显着提高了音频质量。此外,我们以高达 112M 参数的最大规模训练 GAN 声码器,这在文献中是前所未有的。我们识别并解决大规模 GAN 音频训练中的故障模式,同时保持高保真输出而不会过度正则化。我们的 BigVGAN 仅接受干净语音 (LibriTTS) 训练,可在各种零样本(分布外)条件下实现最先进的性能,包括看不见的说话者、语言、录音环境、歌声、音乐和乐器音频。我们在以下位置发布我们的代码和模型:此 https URL ...
开放世界对象检测 (OWOD) 需要逐步检测已知类别,同时可靠地识别未知对象。现有的方法主要侧重于提高未知的召回率,但却忽视了可解释性,常常导致已知与未知的混淆并降低预测的可靠性。本文旨在让整个 OWOD 框架变得可解释,使检测器能够真正“知未知”。为此,我们通过引入 OWOD 的概念分解模型(CDM),提出了概念驱动的 InterPretable OWOD 框架(IPOW),该模型将 Faster R-CNN 中的耦合 RoI 特征显式分解为判别性、共享性和背景概念。判别性概念识别最具判别性的特征,以扩大已知类别之间的距离,而共享概念和背景概念由于其强大的泛化能力,可以很容易地转移到检测未知类别。利用可解释的框架,我们发现当未知对象落入已知类的判别空间时,就会出现已知与未知的混淆。为了解决这个问题,我们提出概念引导纠正(CGR)来进一步解决这种混乱。大量实验表明,IPOW 显着提高了未知的召回率,同时减少了混乱,并为已知和未知的预测提供了概念级的可解释性 ...
弱监督视频异常检测(WSVAD)具有挑战性,因为二进制异常标签仅在视频级别给出,但输出需要片段级别预测。因此,多实例学习(MIL)在 WSVAD 中盛行。然而,众所周知,MIL 会遭受许多误报,因为片段级检测器很容易偏向于具有简单上下文的异常片段,被具有相同偏差的正态片段所迷惑,并错过具有不同模式的异常。为此,我们提出了一个新的 MIL 框架:Unbiased MIL (UMIL),以学习改善 WSVAD 的无偏异常特征。在每次 MIL 训练迭代中,我们使用当前检测器将样本分为具有不同上下文偏差的两组:最置信的异常/正常片段和其余不明确的片段。然后,通过寻找两个样本组之间的不变特征,我们可以消除变量上下文偏差。对基准 UCF-Crime 和 TAD 进行的广泛实验证明了我们的 UMIL 的有效性。我们的代码在此 https URL 中提供 ...
虽然检索增强生成 (RAG) 可以减轻大型语言模型 (LLM) 中的幻觉和知识陈旧性,但现有框架在需要合成来自不同来源的信息的复杂、多跳查询时通常会出现问题。当前先进的 RAG 方法采用迭代或自适应策略,缺乏强大的机制来系统地识别和填补证据空白,经常传播噪音或无法收集全面的背景信息。我们引入了 FAIR-RAG,这是一种新颖的代理框架,它将标准 RAG 管道转变为动态的、证据驱动的推理过程。其核心是迭代细化周期,由我们称之为结构化证据评估(SEA)的模块控制。 SEA 充当分析门控机制:它将最初的查询解构为所需调查结果的清单,并审核汇总的证据以识别已确认的事实,以及至关重要的明确的信息差距。这些间隙向自适应查询细化代理提供精确的信号,该代理生成新的、有针对性的子查询来检索丢失的信息。这个循环不断重复,直到证据被证实足够,从而确保为最终的、严格忠实的一代提供全面的背景。我们对具有挑战性的多跳 QA 基准进行了实验,包括 HotpotQA、2WikiMultiHopQA 和 MusiQue。在统一的实验设置中,FAIR-RAG 的性能显着优于强基线。在 HotpotQA 上,它的 F1 分数为 0.453——比最强的迭代基线绝对提高了 8.3 分——在这些基准上为此类方法建立了新的最先进水平。我们的工作表明,具有明确差距分析的结构化、证据驱动的细化过程对于在高级 RAG 系统中针对复杂的知识密集型任务解锁可靠和准确的推理至关重要 ...