有了更多用于各种任务的开源模型,模型合并通过将模型组合成一个,减少培训,存储和推理成本而引起了人们的关注。当前的研究主要集中于模型合并以进行完整的微调,俯瞰着流行的洛拉。但是,我们的经验分析表明:a)现有的合并方法在洛拉(Lora)上的表现不佳; B)Lora模块显示出比全调微型重量的参数幅度差异要大得多; c)更大的参数幅度差异与较差的合并性能相关 ...
0 0 0 2025/05/25 arXiv:2505.15875v1 smpublic
用于不同任务的大规模点云数据集的手动注释,例如3D对象分类,分割和检测,通常由于点云的不规则结构而费力。在没有任何人类标签的情况下运作的自学学习是解决这个问题的一种有希望的方法。我们在现实世界中观察到,人类能够绘制从2D图像中学到的视觉概念以了解3D世界 ...
0 0 0 2025/05/25 arXiv:2203.00680v3 DamnMan
本文介绍了场景-llm,这是一种3d视觉语言模型,它通过集成大型语言模型(llm)的推理优势来增强实体代理在交互式3d室内环境中的能力。scep-llm采用混合3d视觉特征表示,包含密集的空间信息并支持场景状态更新。该模型采用投影层将这些特征有效地投影到预先训练的文本嵌入空间中,从而能够有效解释,3d视觉信息... ...
0 0 0 2025/05/25 arXiv:2403.11401v2 leochen
事件提取(EE)是信息提取的重要任务,该任务旨在从非结构化文本中提取结构化事件信息。大多数先前的工作都专注于提取平坦的事件,同时忽略重叠或嵌套的事件。多个重叠和嵌套的模型包括几个连续的阶段来提取事件触发器和参数,这些阶段患有错误传播 ...
0 0 0 2025/05/25 arXiv:2209.02693v1 BackT0
注意机制是现代大型语言模型(LLM)和AI的核心原始性。由于注意力本身是置换不变的,因此编码的位置编码对于建模结构化域(例如语言)至关重要。旋转位置编码(ROPE)已成为现代编码的事实上的标准方法,并且是许多现代LLM的一部分 ...
0 0 0 2025/05/25 arXiv:2505.16381v1 hwrabbit
大型语言模型(LLM)的最新进展导致了各种自然语言处理任务的重大突破。但是,由于诸如幻觉,难以获取长尾知识以及有限的记忆扩展,在知识密集的情况下产生一致的响应仍然是一个挑战。本文介绍了Smart,这是一个新型的多代理框架,该框架利用外部知识来增强LLM生成的响应的解释性和事实一致性 ...
0 0 0 2025/05/25 arXiv:2407.09893v3 xoxoal
现有的多合一图像恢复方法通常无法同时感知降解类型和严重性水平,从而忽略了细粒度​​质量感知的重要性。此外,这些方法通常会使用高度定制的骨架,从而阻碍了它们的适应性和集成到更高级的恢复网络中。为了解决这些局限性,我们提出了一种新型的骨干 - 不合时宜的图像恢复框架,旨在跨各种降解类型和严重性水平进行细粒度的质量控制 ...
0 0 0 2025/05/25 arXiv:2408.15994v2 jennylove
联合持续学习(FCL)允许每个客户从任务流不断更新其知识,从而增强了在现实世界中联合学习的适用性。但是,FCL不仅需要解决客户之间的空间数据异质性,还需要解决任务之间的时间数据异质性。在本文中,经验实验表明,这种输入水平的异质性显着影响模型的内部参数和输出,从而导致严重的时空灾难性遗忘局部和先前的知识 ...
0 0 0 2025/05/25 arXiv:2412.18355v2 chenzhuo-wang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)