由于自注意力机制固有的二次计算复杂性和大量的 KV 内存需求,在自回归 Transformer 中有效容纳长序列(尤其是在扩展的上下文窗口内)提出了重大挑战。在这项工作中,我们引入了 SPARSEK Attention,这是一种新颖的稀疏注意力机制,旨在克服这些计算和内存障碍,同时保持性能。我们的方法集成了评分网络和可微分的 top-k 掩码运算符 SPARSEK,为每个查询选择恒定数量的 KV 对,从而实现基于梯度的优化。因此,SPARSEK Attention 在生成过程中提供线性时间复杂度和恒定的内存占用。实验结果表明,SPARSEK Attention 优于之前的稀疏注意力方法,并且在训练和推理过程中提供了显着的速度提升,特别是在语言建模和下游任务中。此外,我们的方法可以通过最少的微调无缝集成到预先训练的大型语言模型(LLM)中,为有效管理不同应用程序中的远程依赖关系提供实用的解决方案 ...
我们提出了一种新颖的内存模块,用于构建能够交互式探索环境的视频生成器。以前的方法已经取得了类似的结果,要么通过绘制场景的 2D 视图,同时逐步重建其 3D 几何图形(这会快速累积错误),要么使用具有短上下文窗口的视频生成器,这很难长期保持场景的连贯性。为了解决这些限制,我们引入了 Surfel-Indexed View Memory (VMem),这是一种内存模块,可以根据观察到的 3D 表面元素(面元)对过去的视图进行几何索引,从而记住过去的视图。 VMem 可以在生成新视图时有效检索最相关的过去视图。通过仅关注这些相关视图,我们的方法可以对想象的环境进行一致的探索,而所需的计算成本只是使用所有过去的视图作为上下文所需的计算成本的一小部分。我们在具有挑战性的长期场景合成基准上评估了我们的方法,并在保持场景连贯性和摄像机控制方面展示了与现有方法相比的卓越性能 ...
我们发布了 Code Llama,这是一个基于 Llama 2 的大型代码语言模型系列,在开放模型、填充功能、对大输入上下文的支持以及编程任务的零样本指令跟踪能力中提供了最先进的性能。我们提供多种风格来覆盖广泛的应用程序:基础模型 (Code Llama)、Python 专业化 (Code Llama - Python) 和指令跟随模型 (Code Llama - Instruct),每个模型都有 7B、13B、34B 和 70B 参数。所有模型均在 16k 个标记序列上进行训练,并在最多 100k 个标记的输入上显示出改进。 7B、13B 和 70B Code Llama 和 Code Llama - 指令变体支持基于周围内容的填充。 Code Llama 在多个代码基准测试中达到了开放模型中最先进的性能,在 HumanEval 和 MBPP 上的得分分别高达 67% 和 65%。值得注意的是,Code Llama - Python 7B 在 HumanEval 和 MBPP 上的性能优于 Llama 2 70B,并且我们所有的模型在 MultiPL-E 上都优于所有其他公开可用的模型。我们根据允许研究和商业用途的许可发布 Code Llama ...
3D 对象编辑对于游戏、动画和机器人领域的交互式内容创建至关重要,但当前的方法仍然效率低下、不一致,并且常常无法保留未编辑的区域。大多数方法依赖于编辑多视图渲染,然后进行重建,这会引入伪影并限制实用性。为了应对这些挑战,我们提出了 Nano3D,这是一种无需训练的框架,可以在没有掩模的情况下进行精确且连贯的 3D 对象编辑。 Nano3D 将 FlowEdit 集成到 TRELLIS 中,以在前视图渲染的指导下执行本地化编辑,并进一步引入区域感知合并策略 Voxel/Slat-Merge,该策略通过确保编辑和未编辑区域之间的一致性来自适应地保持结构保真度。实验表明,与现有方法相比,Nano3D 实现了卓越的 3D 一致性和视觉质量。基于该框架,我们构建了第一个大规模3D编辑数据集Nano3D-Edit-100k,其中包含超过100,000个高质量3D编辑对。这项工作解决了算法设计和数据可用性方面长期存在的挑战,显着提高了 3D 编辑的通用性和可靠性,并为前馈 3D 编辑模型的开发奠定了基础。项目页面:这个 https URL ...
仿真对于自动驾驶的安全评估至关重要,特别是在捕获复杂的交互行为方面。然而,在长尾情况下生成现实且可控的流量场景仍然是一个重大挑战。现有的生成模型受到用户定义的可控性和现实性约束之间目标冲突的困扰,这种冲突在安全关键的环境中会被放大 ...
对于程序员来说,调试是一项关键但具有挑战性的任务。本文提出了 ChatDBG,一种人工智能驱动的调试助手。 ChatDBG 集成了大型语言模型 (LLM),显着增强了传统调试器的功能和用户友好性。 ChatDBG 让程序员能够与调试器进行协作对话,从而提出有关程序状态的复杂问题,对崩溃或断言失败进行根本原因分析,并探索诸如“为什么 x 为空?”之类的开放式查询。为了处理这些查询,ChatDBG 授予 LLM“掌控方向盘”的自主权:它可以充当独立代理,能够查询和控制调试器以在堆栈中导航并检查程序状态。然后它报告其发现并将控制权交还给程序员。通过利用 LLM 中嵌入的现实世界知识,ChatDBG 可以诊断只能通过使用特定领域推理才能识别的问题。我们的 ChatDBG 原型与标准调试器集成,包括用于本机代码的 LLDB 和 GDB 以及用于 Python 的 Pdb。我们对一组不同的代码(包括具有已知错误的 C/C++ 代码和一套 Python 代码(包括独立脚本和 Jupyter 笔记本))进行的评估表明,ChatDBG 可以成功分析根本原因、解释错误并为各种实际错误生成准确的修复程序。对于 Python 程序,67% 的情况下,单个查询会导致可操作的错误修复;额外的一项后续查询将成功率提高到 85%。 ChatDBG 得到了快速采用;它的下载次数已超过 75,000 次 ...
大型多模态模型(LMM)的最新进展已经证明了它们作为通用多模态助手的巨大成功,特别关注整体图像和视频语言理解。相反,人们较少关注扩展细粒度像素级理解能力,其中模型期望实现视觉信号和语言语义之间的像素级对齐。之前的一些研究已将 LMM 应用于相关任务,例如区域级字幕和引用表达分割 ...
大型语言模型(LLM)不可避免地会出现幻觉,因为生成文本的准确性不能仅通过它们封装的参数知识来保证。尽管检索增强生成(RAG)是 LLM 的实用补充,但它在很大程度上依赖于检索到的文档的相关性,这引发了人们对检索出错时模型如何表现的担忧。为此,我们提出了纠正检索增强生成(CRAG)来提高生成的鲁棒性。具体来说,轻量级检索评估器被设计为评估查询检索到的文档的整体质量,返回一个置信度,基于该置信度可以触发不同的知识检索动作。由于从静态和有限的语料库中检索只能返回次优文档,因此大规模网络搜索被用作增强检索结果的扩展。此外,针对检索到的文档设计了分解然后重组算法,有选择地关注关键信息并过滤掉其中的不相关信息。 CRAG 是即插即用的,可以与各种基于 RAG 的方法无缝耦合。在涵盖短格式和长格式生成任务的四个数据集上进行的实验表明,CRAG 可以显着提高基于 RAG 的方法的性能 ...
在大型且多样化的数据集上进行训练的通才机器人策略已经证明了泛化广泛行为的能力,使单个策略能够在不同的现实世界环境中发挥作用。然而,它们仍然无法完成训练数据中未涵盖的新任务。当对新任务的有限演示进行微调时,这些策略通常会过度适应特定的演示,不仅失去了解决各种通用任务的先前能力,而且也无法在新任务本身中进行概括。在这项工作中,我们的目标是开发一种方法,在微调过程中保留通才策略的泛化能力,从而允许单个策略将新技能强有力地纳入其库中。我们的目标是制定一个单一的策略,既能学习泛化到新任务的变化,又能保留从预训练中获得的广泛能力。我们证明,这可以通过一种简单而有效的策略来实现:将微调模型的权重与预训练模型的权重进行插值。我们通过广泛的模拟和现实实验证明,这种模型合并产生了一个单一模型,该模型继承了基础模型的通用能力,并学习稳健地解决新任务,在新任务的分布外变化方面优于预训练和微调模型。此外,我们表明,模型合并可以在终身学习环境中不断获得新技能,而不会牺牲以前学习的通才能力 ...
开放集图像识别(OSR)旨在对测试集中的已知类样本进行分类,并识别未知类样本,这在自动驾驶、医疗诊断、安全监控等许多实际应用中支持鲁棒分类器。近年来,开放集识别方法受到越来越多的关注,因为通常很难获得开放世界的整体信息进行模型训练。在本文中,我们旨在总结最近 OSR 方法的最新发展,考虑到它们最近两三年的快速发展。具体来说,我们首先引入一种新的分类法,在该分类法下我们全面回顾了现有的基于 DNN 的 OSR 方法。然后,我们在标准数据集设置和跨数据集设置下比较了一些典型和最先进的OSR方法在粗粒度数据集和细粒度数据集上的性能,并进一步给出了比较分析。最后,我们讨论了该社区的一些未决问题和未来可能的方向 ...