大型语言模型(LLM)在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模,由于其大量的内存消耗,这给模型部署带来了挑战。最近,许多研究尝试使用一次性剪枝方法来压缩 LLM。然而,这些方法在复杂的语言理解任务上通常会出现相当大的性能下降,这使人们对 LLM 中剪枝的可行性产生了质疑 ...
跨视角图像匹配旨在匹配从不同平台获取的同一目标场景的图像。随着无人机技术的快速发展,神经网络模型的交叉视图匹配已成为无人机定位或导航的广泛接受的选择。然而,现有的公共数据集不包含无人机在不同高度获得的图像,且场景类型相对同质,这在评估模型适应复杂多变场景的能力时产生了问题 ...
尽管大型语言模型 (LLM) 具有卓越的功能,但它仍难以在动态和复杂的环境中有效利用历史交互信息。内存系统通过引入持久性信息存储、检索和利用机制,使 LLM 能够超越无状态交互。然而,现有的存储器系统经常引入大量的时间和计算开销 ...
在持续学习问题中,通常需要覆盖神经网络学习表示的组件以响应数据流的变化;然而,神经网络经常表现出“首要偏差”,即早期的训练数据阻碍了网络泛化以后任务的能力。虽然非平稳学习问题的特征学习动态还没有得到很好的研究,但众所周知,特征学习动态的出现会推动“摸索”现象,其中神经网络最初会记住其训练数据,然后才表现出完美的泛化能力。这项工作推测,促进 grokking 泛化的相同特征学习动态也是覆盖先前学习特征的能力的基础,而通过促进特征学习动态来加速 grokking 的方法是解决非平稳学习问题中首要偏差的有希望的候选者 ...
本文研究了使用知识编辑技术来消除大型语言模型 (LLM) 的毒害。我们构建了一个基准测试SafeEdit,它涵盖了九个不安全类别,具有各种强大的攻击提示,并配备了系统评估的全面指标。我们对几种知识编辑方法进行了实验,表明知识编辑有可能使 LLM 解毒,同时对总体表现的影响有限 ...
多模态学习显着有利于癌症生存预测,尤其是病理图像和基因组数据的整合。尽管多模态学习在癌症生存预测方面具有优势,但多模态数据中的大量冗余使其无法提取有区别性和紧凑的信息:(1)大量与模态内任务无关的信息模糊了可区分性,特别是对于具有许多病理学斑块和基因组数据中数千条通路的十亿像素全幻灯片图像(WSI),导致“模态内” (2)模态间的重复信息在多模态数据的表示中占主导地位,这使得模态特定的信息容易被忽略,从而导致“模态间冗余”问题 ...
构建跨 Web、桌面和移动环境通用的代理仍然是一个开放的挑战,因为先前的系统依赖于限制跨平台部署的特定于环境的接口。我们推出了 Surfer 2,这是一种纯粹通过视觉观察进行操作的统一架构,可在所有三种环境中实现最先进的性能。 Surfer 2 集成了分层上下文管理、解耦规划和执行以及具有自适应恢复的自我验证,从而实现了长期任务范围内的可靠操作 ...
我们揭示了大语言模型(LLM)中的内部表示可以作为所学知识的可靠代理,并提出了 RECALL,这是一种新颖的表示感知模型合并框架,用于在无需访问历史数据的情况下进行持续学习。 RECALL 根据聚类典型样本的分层隐藏表示来计算模型间相似性,并执行自适应的分层参数融合以对齐模型之间的知识。这种设计能够在浅层中保留领域通用特征,同时允许在更深的层中进行特定于任务的适应 ...
语义占用因其捕获丰富空间语义的能力而成为世界模型中的强大表示。然而,大多数现有的占用世界模型依赖于静态和固定的嵌入或网格,这本质上限制了感知的灵活性。此外,它们在网格上的“就地分类”表现出与真实http URL的动态和连续性质潜在的不一致。在本文中,我们提出了SparseWorld,一种新颖的4D占用世界模型,它灵活、自适应且高效,由稀疏和动态查询提供支持 ...
人类通常依靠记忆来执行任务,但大多数机器人策略缺乏这种能力;我们的目标是赋予机器人策略同样的能力。在协变量平移下,对长期观测历史的天真调节在计算上是昂贵且脆弱的,而对历史的不加区别的子采样会导致不相关或冗余的信息。我们提出了一个分层策略框架,其中高级策略经过训练,可以根据其经验选择和跟踪先前的相关关键帧 ...