数据集蒸馏的目的是从大数据集中合成小数据集,使在其上训练的模型能够在原始数据集上表现良好。随着大语言模型和多模态大语言模型的蓬勃发展,多模态数据集,特别是图像文本数据集的重要性显着增长。然而,现有的多模态数据集蒸馏方法受到匹配训练轨迹算法的限制,这显着增加了计算资源需求,并且需要数天的时间来处理蒸馏 ...

0 0 0 0 2025/10/25 arXiv:2509.15472v2 Ollama

多模态数据集蒸馏(MDD)旨在将大规模图像文本数据集压缩为紧凑的替代项,同时保留其跨模态学习的有效性。尽管最近取得了进展,但现有的 MDD 方法经常遭受 \textit{\textbf{Modality Collapse}} 的困扰,其特点是模态内表示过度集中和模态间分布差距扩大。在本文中,我们首次将这个问题确定为源于数据集蒸馏固有的过度压缩行为与对比目标强加的跨模式监督之间的根本冲突 ...

0 0 1 3 2025/10/25 arXiv:2505.14705v1 Ollama

随着大型语言模型 (LLM) 规模的增长,量化和稀疏化等高效压缩技术变得至关重要。虽然量化可以在精度降低的情况下保持性能,但结构化稀疏方法(例如 N:M 稀疏化)通常会由于灵活性有限以及对异常值权重的敏感性而达不到要求。我们探索 8:16 半结构化稀疏性,展示其超越性能阈值的能力,其中压缩模型在同等内存限制下与其未压缩或较小模型的准确性相匹配 ...

0 0 0 0 2025/10/25 arXiv:2507.03052v1 Daenerays

大型语言模型(LLM)在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模,由于其大量的内存消耗,这给模型部署带来了挑战。最近,许多研究尝试使用一次性剪枝方法来压缩 LLM。然而,这些方法在复杂的语言理解任务上通常会出现相当大的性能下降,这使人们对 LLM 中剪枝的可行性产生了质疑 ...

0 0 0 0 2025/10/25 arXiv:2407.20584v3 Daenerays

跨视角图像匹配旨在匹配从不同平台获取的同一目标场景的图像。随着无人机技术的快速发展,神经网络模型的交叉视图匹配已成为无人机定位或导航的广泛接受的选择。然而,现有的公共数据集不包含无人机在不同高度获得的图像,且场景类型相对同质,这在评估模型适应复杂多变场景的能力时产生了问题 ...

0 0 0 0 2025/10/25 arXiv:2204.10704v2 fgl362135

尽管大型语言模型 (LLM) 具有卓越的功能,但它仍难以在动态和复杂的环境中有效利用历史交互信息。内存系统通过引入持久性信息存储、检索和利用机制,使 LLM 能够超越无状态交互。然而,现有的存储器系统经常引入大量的时间和计算开销 ...

0 0 0 0 2025/10/25 arXiv:2510.18866v1 elonmusk

在持续学习问题中,通常需要覆盖神经网络学习表示的组件以响应数据流的变化;然而,神经网络经常表现出“首要偏差”,即早期的训练数据阻碍了网络泛化以后任务的能力。虽然非平稳学习问题的特征学习动态还没有得到很好的研究,但众所周知,特征学习动态的出现会推动“摸索”现象,其中神经网络最初会记住其训练数据,然后才表现出完美的泛化能力。这项工作推测,促进 grokking 泛化的相同特征学习动态也是覆盖先前学习特征的能力的基础,而通过促进特征学习动态来加速 grokking 的方法是解决非平稳学习问题中首要偏差的有希望的候选者 ...

0 0 0 0 2025/10/25 arXiv:2507.20057v1 zcr10086

本文研究了使用知识编辑技术来消除大型语言模型 (LLM) 的毒害。我们构建了一个基准测试SafeEdit,它涵盖了九个不安全类别,具有各种强大的攻击提示,并配备了系统评估的全面指标。我们对几种知识编辑方法进行了实验,表明知识编辑有可能使 LLM 解毒,同时对总体表现的影响有限 ...

0 0 0 0 2025/10/25 arXiv:2403.14472v5 2967832893

多模态学习显着有利于癌症生存预测,尤其是病理图像和基因组数据的整合。尽管多模态学习在癌症生存预测方面具有优势,但多模态数据中的大量冗余使其无法提取有区别性和紧凑的信息:(1)大量与模态内任务无关的信息模糊了可区分性,特别是对于具有许多病理学斑块和基因组数据中数千条通路的十亿像素全幻灯片图像(WSI),导致“模态内” (2)模态间的重复信息在多模态数据的表示中占主导地位,这使得模态特定的信息容易被忽略,从而导致“模态间冗余”问题 ...

0 0 0 0 2025/10/24 arXiv:2401.01646v2 zy_

构建跨 Web、桌面和移动环境通用的代理仍然是一个开放的挑战,因为先前的系统依赖于限制跨平台部署的特定于环境的接口。我们推出了 Surfer 2,这是一种纯粹通过视觉观察进行操作的统一架构,可在所有三种环境中实现最先进的性能。 Surfer 2 集成了分层上下文管理、解耦规划和执行以及具有自适应恢复的自我验证,从而实现了长期任务范围内的可靠操作 ...

0 0 0 0 2025/10/24 arXiv:2510.19949v1 dqyzhwk

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)