异常检测通常被视为一类分类问题,其中模型只能从正常训练样本中学习,同时在正常和异常测试样本上进行评估。在成功的异常检测方法中,一类独特的方法依赖于预测屏蔽信息(例如补丁、未来帧等)并利用相对于屏蔽信息的重建误差作为异常分数。与相关方法不同,我们建议将基于重建的功能集成到一种新颖的自监督预测架构构建块中。所提出的自监督块是通用的,可以很容易地合并到各种最先进的异常检测方法中。我们的块从带有扩张滤波器的卷积层开始,其中感受野的中心区域被屏蔽。生成的激活图通过通道注意模块传递。我们的块配备了一个损失,可以最小化相对于感受野中的掩模区域的重建误差。我们通过将我们的模块集成到几个最先进的图像和视频异常检测框架中来展示该模块的通用性,提供的经验证据表明 MVTec AD、Avenue 和 ShanghaiTech 的性能得到了显着提高。我们在此 https URL 开源代码 ...
建立可以通过多模式信号有效地感知世界的通用模型是一个长期的目标。当前的方法涉及分别整合预训练的组件,例如将视觉编码器连接到LLMS和持续的多模式训练。尽管这种方法表现出显着的样本效率,但仍然是一个悬而未决的问题,这是否本质上是优越的 ...
知识蒸馏是一种广泛采用的技术,用于将 LLM 的能力转移到更小、更高效的学生模型。然而,未经授权的知识蒸馏使用不公平地利用了开发前沿模型所投入的大量精力和成本。我们研究了修改教师生成的推理轨迹的方法,以实现阻止未经授权的蒸馏的两个目标:(1)\emph{反蒸馏},或降低查询响应的训练有用性,以及(2)\emph{API 水印},它将可验证的签名嵌入学生模型中。我们介绍了几种动态重写教师推理输出的方法,同时保持答案的正确性和语义连贯性。其中两个利用了 LLM 的重写能力,而其他则使用基于梯度的技术。我们的实验表明,简单的基于指令的重写方法可以实现强大的反蒸馏效果,同时保持甚至提高教师的表现。此外,我们表明我们的重写方法还可以实现高度可靠的水印检测,基本上没有误报 ...
视觉-语言-动作(VLA)模型显示了一般机器人任务的潜力,但在时空相干操作方面仍然具有挑战性,这需要细粒度的表示。通常,现有方法将 3D 位置嵌入到视觉表示中,以增强动作的空间精度。然而,这些方法很难实现对动作执行的时间连贯控制。在这项工作中,我们提出了 VLA-4D,一种具有 4D 感知能力的通用 VLA 模型,用于时空相干的机器人操作。我们的模型以两个关键设计为指导:1)4D 感知视觉表示。我们提取视觉特征,将 1D 时间嵌入到 3D 位置以进行 4D 嵌入,并通过交叉注意力机制将它们融合成统一的视觉表示。 2)时空动作表示。我们用时间信息扩展传统的空间动作表示以实现时空规划,并将多模态表示对齐到 LLM 中以进行时空动作预测。在这个统一的框架内,设计的视觉和动作表示共同使机器人操作在空间上平滑且在时间上连贯。此外,我们还使用时间动作注释扩展了 VLA 数据集,以微调我们的模型。已经进行了大量的实验来验证我们的方法在机器人操作的不同任务中的优越性 ...
使用数值反馈(例如标量奖励)的加强学习(RL)的最新进展显着增强了大语言模型(LLMS)的复杂推理能力。尽管取得了成功,但我们确定了RL遇到的三个关键挑战,只有数值反馈:性能高原,自我反射的有效性和持续失败。然后,我们证明,即使在表现出性能高原之后,RL-FineTy的模型也可以通过以批评形式利用自然语言反馈来对持续失败的问题产生正确的改进 ...
通过在线强化学习(RL)微调扩散模型已显示出增强文本到图像对齐的巨大潜力。然而,由于为视觉任务精确指定真实目标仍然具有挑战性,因此通常使用仅部分捕获真实目标的代理奖励来优化模型。这种不匹配通常会导致奖励黑客攻击,即代理分数增加,而真实图像质量恶化,世代多样性崩溃。虽然常见的解决方案增加了针对参考策略的正则化以防止奖励黑客攻击,但它们会损害样本效率并阻碍对新颖的高奖励区域的探索,因为参考策略通常不是最优的。为了解决样本效率、有效探索和缓解奖励黑客攻击的竞争需求,我们提出了具有多样性感知优化的门控和自适应正则化(GARDO),这是一个与各种 RL 算法兼容的多功能框架。我们的主要见解是,正则化不需要普遍应用;相反,有选择地惩罚表现出高度不确定性的样本子集是非常有效的。为了应对探索挑战,GARDO 引入了自适应正则化机制,其中参考模型会定期更新以匹配在线策略的功能,从而确保相关的正则化目标。为了解决 RL 中的模式崩溃问题,GARDO 扩大了对也表现出高度多样性的高质量样本的奖励,鼓励模式覆盖而不破坏优化过程的稳定性。对各种代理奖励和保留的看不见的指标进行的广泛实验一致表明,GARDO 在不牺牲样本效率或探索的情况下减轻了奖励黑客行为并增强了生成多样性,突出了其有效性和鲁棒性 ...
自大型语言模型 (LLM) 首次出现以来,机器学习社区已经取得了令人瞩目的进步。然而,它们的大量内存消耗已成为大规模训练的重大障碍。例如,7B 模型通常需要至少 60 GB 的 GPU 内存来进行全参数训练,这给无法访问高资源环境的研究人员带来了挑战。人们提出了诸如低秩适应(LoRA)之类的参数高效微调技术来缓解这个问题。然而,在大多数大规模微调设置中,它们的性能达不到全参数训练的水平,因为它们将参数搜索限制在低秩子空间中。为了弥补这一缺陷,我们研究了 LoRA 在微调任务上的分层特性,并观察到不同层之间权重规范的意外但一致的偏度。利用这一关键观察结果,发现了一种令人惊讶的简单训练策略,该策略在各种设置中都优于 LoRA 和全参数训练,且内存成本与 LoRA 一样低。我们将其命名为 Layerwise Importance Sampled AdamW (LISA),这是 LoRA 的一个有前途的替代方案,它将重要性采样的思想应用于 LLM 中的不同层,并在优化过程中随机冻结大多数中间层。实验结果表明,在 GPU 内存消耗相似或更少的情况下,LISA 在下游微调任务中超越了 LoRA,甚至完全参数调整,其中 LISA 在 MT-Bench 得分方面始终优于 LoRA 超过 10%-35%,同时在 MMLU、AGIEval 和 WinoGrande 中实现了同等或更好的性能。在大型模型上,特别是 LLaMA-2-70B,LISA 在 MT-Bench、GSM8K 和 PubMedQA 上超越了 LoRA,证明了其在不同领域的有效性 ...
音频语言建模 (ALM) 领域的最新进展将音频理解和文本到音频生成作为单独的任务来处理。很少有研究试图统一这些任务——这是迈向高级多模态推理的重要一步。本文介绍了统一音频语言模型(UALM),旨在将音频理解、文本到音频生成和多模态推理统一在一个模型中。为了实现这一目标,我们首先提出 UALM-Gen,这是一种文本到音频的语言模型,可以直接预测音频标记,并且可以与最先进的基于扩散的模型相媲美。然后,我们使用适当的数据混合、训练方法和推理技术来证明,我们的单一 UALM 模型在音频理解、文本到音频生成和文本推理方面可与最先进的专业模型的质量相匹配。此外,我们还提出了 UALM-Reason,这是一种多模态推理模型,它在中间思维步骤中利用文本和音频来促进复杂的生成任务。据我们所知,这是跨模态生成推理音频研究中的首次演示,其有效性得到了主观评价的证实 ...
在这项工作中,我们的目标是开发有效的数据合成技术,自动合成多模态训练数据,以增强 MLLM 解决复杂的现实世界任务的能力。为此,我们提出了集体对抗数据合成(CADS),这是一种为 MLLM 合成高质量、多样化且具有挑战性的多模态数据的新颖且通用的方法。 CADS的核心思想是利用集体智慧确保高质量和多样化的生成,同时探索对抗性学习来合成具有挑战性的样本,从而有效推动模型改进。具体来说,CADS 以两个循环阶段运行,即集体对抗数据生成(CAD-Generate)和集体对抗数据判断(CAD-Judge)。 CAD-Generate 利用集体知识共同生成新的、多样化的多模式数据,而 CAD-Judge 则协作评估合成数据的质量。此外,CADS 引入了对抗性上下文优化机制来优化生成上下文,以鼓励具有挑战性和高价值的数据生成。通过 CADS,我们构建了 MMSynthetic-20K 并训练了我们的模型 R1-SyntheticVL,该模型在各种基准测试中表现出了卓越的性能 ...
训练后量化 (PTQ) 已成为一种有效的技术,通过压缩权重和激活而无需重新训练整个模型,从而减轻视觉语言模型 (VLM) 的大量计算和内存开销。现有的PTQ方法主要依赖于敏感或离群通道的静态识别和全局补偿,但它们往往忽略了这些重要通道在输入之间的分布差异,导致量化效果不理想。在这项工作中,我们观察到重要通道的分布和出现频率在不同模态和标记之间存在显着差异,即使在同一模态内也是如此。因此,我们提出 \textbf{Quant Experts (QE)},这是一种用于 VLM 量化的 Token 感知自适应误差补偿,具有混合专家。 QE 将重要渠道分为与 Token 无关和与 Token 相关的两类。对于前者,为大多数 Token 设计了共享专家,以使用低阶适配器补偿全局量化误差。对于后者,精心设计了包括多个路由低阶适配器的路由专家,以补偿与特定 Token 相关的局部量化误差。大量实验表明,QE 能够持续提高各种量化设置和模型规模(从 2B 到 70B 参数)的任务准确性,同时保持与全精度模型相当的性能 ...