零样本异常检测 (ZSAD) 无需目标数据集中的训练样本即可识别异常,这对于存在隐私问题或数据有限的场景至关重要。像 CLIP 这样的视觉语言模型在 ZSAD 中显示出潜力,但也有局限性:依赖手动制作的固定文本描述或异常提示非常耗时,而且容易出现语义模糊,而 CLIP 则在像素级异常分割方面遇到困难,更多地关注全局语义而不是局部细节。为了解决这些限制,我们引入了 KAnoCLIP,这是一种利用视觉语言模型的新型 ZSAD 框架。 KAnoCLIP 通过知识驱动的即时学习 (KnPL) 结合了来自大型语言模型 (GPT-3.5) 的一般知识和来自视觉问答系统 (Llama3) 的细粒度、特定于图像的知识。 KnPL 使用知识驱动 (KD) 损失函数来创建可学习的异常提示,无需固定文本提示并增强泛化能力。 KAnoCLIP 包括具有 V-V 注意力的 CLIP 视觉编码器 (CLIP-VV)、多级跨模态交互的双向交叉注意力 (Bi-CMCI) 和 Conv-Adapter。这些组件保留局部视觉语义,改进局部跨模式融合,并将全局视觉特征与文本信息对齐,从而增强像素级异常检测。 KAnoCLIP 在 12 个工业和医疗数据集的 ZSAD 中实现了最先进的性能,与现有方法相比,表现出卓越的泛化能力 ...
用最少的指令快速学习新任务的能力(称为少样本学习)是智能代理的核心方面。经典的少样本基准测试使用来自单一模态的少样本样本,但此类样本可能不足以表征整个概念类。相比之下,人类利用跨模式信息来有效地学习新概念。在这项工作中,我们证明了通过${\bf阅读}$关于狗的内容和${\bf听}$狗的叫声确实可以构建一个更好的${\bf视觉}$狗分类器。为此,我们利用了最近的多模态基础模型(例如 CLIP)学习跨模态编码器,将不同模态映射到相同表示空间的事实。具体来说,我们提出了一个简单的${\bf跨模态}$${\bf适应}$策略:我们将来自不同模态的示例视为额外的少数样本。例如,通过简单地将类名重新用作额外的训练样本,我们可以轻松地将任何 n 次学习问题转变为 (n+1) 次问题。这使得我们能够使用极其简单的线性分类器产生 SOTA 结果。我们证明我们的方法可以与现有方法(例如前缀调整、适配器和分类器集成)相结合。最后,为了探索视觉和语言之外的其他模式,我们构建了第一个(据我们所知)视听小样本基准,并使用跨模式训练来提高图像和音频分类的性能 ...
3D 资产的生成方法最近取得了显着的进展,但提供对对象几何形状的直观和精确的控制仍然是一个关键挑战。现有的方法主要依赖于文本或图像提示,而这些提示往往缺乏几何特异性:语言可能含糊不清,图像编辑起来也很麻烦。在这项工作中,我们介绍了 SpaceControl,这是一种无需训练的测试时间方法,用于 3D 生成的显式空间控制。我们的方法接受广泛的几何输入,从粗糙的基元到详细的网格,并与现代预训练的生成模型无缝集成,无需任何额外的训练。可控参数让用户可以在几何保真度和输出真实感之间进行权衡。广泛的定量评估和用户研究表明,SpaceControl 在几何忠实度方面优于基于训练和基于优化的基线,同时保持高视觉质量。最后,我们提出了一个交互式用户界面,可以在线编辑超二次曲面以直接转换为纹理 3D 资源,从而促进创意工作流程中的实际部署。在此 https URL 找到我们的项目页面 ...
尽管取得了令人印象深刻的结果,大规模图像到 3D 生成模型的归纳偏差仍然不透明。我们发现图像条件 3D 生成模型的一个重大限制:强烈的规范视图偏差。通过使用简单 2D 旋转的受控实验,我们表明最先进的 Hunyuan3D 2.0 模型很难跨视点进行泛化,并且在旋转输入下性能会下降。我们证明,可以通过轻量级 CNN 来缓解这种故障,该 CNN 可以检测并纠正输入方向,从而在不修改生成主干的情况下恢复模型性能。我们的研究结果提出了一个重要的开放性问题:规模是否足够,或者我们应该追求模块化、对称感知的设计? ...
多模态人工智能系统在广泛的现实世界任务中取得了卓越的性能,但令人惊讶的是,人们对视觉语言推理背后的机制仍然知之甚少。我们报告了三项发现,挑战了有关这些系统如何处理和集成视觉信息的普遍假设。首先,Frontier 模型很容易为从未提供的图像生成详细的图像描述和详细的推理痕迹,包括偏向病理学的临床发现;我们将这种现象称为海市蜃楼推理。其次,在没有任何图像输入的情况下,模型在一般和医学多模式基准测试中也获得了惊人的高分,这使得它们的实用性和设计受到质疑。在最极端的情况下,我们的模型在没有访问任何图像的情况下在标准胸部 X 射线问答基准上获得了最高排名。第三,当模型被明确指示在没有图像访问的情况下猜测答案,而不是被隐式提示假设图像存在时,性能显着下降。明确的猜测似乎采用了更保守的响应机制,与海市蜃楼机制相反,在海市蜃楼机制中,模型的行为就像已经提供了图像一样。这些发现暴露了视觉语言模型推理和评估方式的根本漏洞,表明迫切需要私人基准来消除文本线索,从而实现非视觉推理,特别是在人工智能校准错误会带来最大后果的医疗环境中。我们引入 B-Clean 作为对多模式 AI 系统进行公平、基于视觉的评估的原则解决方案 ...
用于视觉-语言-动作(VLA)模型的持续强化学习(CRL)是实现自我改进的实体代理的一个有前途的方向,可以适应开放的、不断发展的环境。然而,持续学习的传统观点表明,天真的顺序微调 (Seq. FT) 会导致灾难性遗忘,从而需要复杂的 CRL 策略。在这项工作中,我们退后一步,对跨三个模型和五个具有挑战性的终身 RL 基准的大型预训练 VLA 的 CRL 进行系统研究。我们发现,与既定的信念相反,简单的序列。具有低秩适应(LoRA)的 FT 非常强大:它实现了高可塑性,几乎没有遗忘,并且保留了强大的零样本泛化能力,通常优于更复杂的 CRL 方法。通过详细分析,我们表明这种鲁棒性来自于大型预训练模型、参数高效自适应和同策略强化学习之间的协同作用。这些组件共同重塑了稳定性与可塑性的权衡,使持续适应既稳定又可扩展。我们的结果将顺序微调定位为使用 VLA 进行持续强化学习的强大方法,并为大模型时代的终身学习提供了新的见解。代码可从此 http URL 获取 ...
基于扩散的方法最近推动了现实世界图像超分辨率(SR)的显着进步。然而,现有的方法仍然难以同时保留精细细节并确保高保真重建,通常会导致视觉质量不佳。在本文中,我们提出了 FiDeSR,一种高保真且保留细节的一步扩散超分辨率框架。在训练过程中,我们引入了一种细节感知加权策略,该策略自适应地强调模型表现出较高预测误差的区域。在推理过程中,低频和高频自适应增强器进一步细化重建,无需模型重新训练,从而实现灵活的增强控制。为了进一步提高重建精度,FiDeSR 结合了残差噪声细化,可纠正扩散噪声中的预测误差并增强精细细节恢复。与现有的基于扩散的方法相比,FiDeSR 实现了卓越的现实世界 SR 性能,产生具有高感知质量和忠实内容还原的输出。源代码将发布在:此 https URL ...
检索增强生成 (RAG) 系统通过合并补充检索文档来增强大型语言模型 (LLM) 的性能,从而实现更准确和上下文感知的响应。然而,集成这些外部文档通常会导致非常长的输入序列,这会显着增加预填充阶段的计算成本,在预填充阶段会生成所有输入标记的键值 (KV) 表示。在高吞吐量服务场景下,这种延迟瓶颈变得尤其明显。 KV 缓存重用通过存储共享输入前缀的先前计算的 KV 状态提供了一种有前途的解决方案,从而避免了包含重叠上下文的请求之间的冗余计算。然而,缓存重用的有效性通常受到三个实际挑战的限制:由于幼稚的逐出策略导致的低缓存命中率、高 CPU-GPU 数据传输开销以及缓存溢出到存储时缓慢的 SSD I/O。为了解决这些问题,我们提出了 PCR,这是一种旨在通过智能预取和流水线数据移动来最大化 KV 缓存重用效率的系统。具体来说,PCR引入了三个关键技术:(1)具有前瞻LRU替换策略的前缀树缓存结构,该结构使用调度程序队列中的待处理请求来提高缓存命中率; (2) 逐层重叠,跨 CUDA 流传输 KV 缓存加载和 GPU 计算,以隐藏通信延迟; (3) 基于队列的预取,在需要之前将相关的 KV 缓存从 SSD 主动加载到 DRAM 中。大量的实验表明,PCR 的性能优于现有的 KV 缓存重用方法,在平均 TTFT 方面实现了高达 2.47 倍的加速 ...
为人形机器人场景交互实现多功能且自然的全身控制仍然是一个重大挑战。虽然最近的一些作品展示了自主人形交互控制,但它们仅限于严格的运动模式和昂贵的远程操作数据收集,缺乏执行更类似于人类的自然行为(例如坐下或踢腿)的多功能性。此外,获取必要的真实机器人远程操作数据非常昂贵且耗时。为了解决这些限制,我们引入了 ZeroWBC,这是一种新颖的框架,它直接从人类以自我为中心的视频中学习自然的人形视觉运动控制策略,消除了对大规模机器人远程操作数据的需求,并实现了自然的人形机器人场景交互控制。具体来说,我们的方法首先微调视觉语言模型(VLM),以根据文本指令和以自我为中心的视觉上下文来预测未来的全身人体运动,然后将这些生成的运动重新定位到真实的机器人关节,并通过我们用于人形全身控制的强大的通用运动跟踪策略来执行。在 Unitree G1 人形机器人上进行的大量实验表明,我们的方法在运动自然性和多功能性方面优于基线方法,成功建立了一个管道,消除了全身人形控制的远程操作数据收集开销,为一般人形全身控制提供了可扩展且高效的范例 ...
深度强化学习 (RL) 是一种强大的复杂决策方法。然而,限制其实际应用的一个问题是其脆弱性,有时无法在环境发生微小变化的情况下进行训练。受零样本迁移成功的激励(预训练模型在相关任务上表现良好),我们考虑选择一组好的训练任务以最大限度地提高一系列任务的泛化性能的问题。鉴于培训成本高昂,战略性地选择培训任务至关重要,但如何做到这一点尚不明确。因此,我们引入了基于模型的迁移学习 (MBTL),它位于现有 RL 方法之上,可有效解决上下文 RL 问题。 MBTL 将泛化性能分为两部分进行建模:1) 性能设定点,使用高斯过程建模;2) 性能损失(泛化差距),建模为上下文相似度的线性函数。 MBTL 将这两条信息结合在贝叶斯优化 (BO) 框架内,以战略性地选择训练任务。我们从理论上证明,该方法在训练任务数量上表现出亚线性遗憾,并讨论了进一步收紧遗憾界限的条件。我们使用城市交通和标准连续控制基准来实验验证我们的方法。实验结果表明,与典型的独立训练和多任务训练相比,MBTL 可以实现高达 43 倍的样本效率提升。进一步的实验证明了 BO 的有效性以及对底层 RL 算法和超参数的不敏感性。这项工作为研究泛化的显式建模奠定了基础,从而为上下文强化学习提供有原则且有效的方法 ...