巨大的神经网络模型在现实世界应用中表现出了前所未有的性能。但是,由于内存约束,必须使用模型并行性来托管大型模型,否则将不适合单个设备的内存。先前的方法(例如Megatron分区)多个设备之间整个模型的参数,而每个设备必须适应前向和向后通过的冗余激活 ...
我们提出了TexturedReamer,这是一种新颖的图像引导的纹理合成方法,可将可靠的纹理从少量输入图像(3至5)传递到跨任意类别的3D形状。纹理创造是视觉和图形中的关键挑战。工业公司雇用经验丰富的艺术家来手动为3D资产制作纹理 ...
使用外部工具增强大型语言模型 (LLM) 已成为一种扩展其实用性、使它们能够解决实际任务的有前途的方法。现有的工作通常为 LLM 作为工具使用者提供手动设计的工作流程,其中 LLM 以逐步的方式规划一系列工具,并顺序执行每个工具以获得中间结果,直到得出最终答案。然而,他们在现实场景中面临两个挑战:(1)手工控制流程通常是临时的,并且将 LLM 限制在本地规划; (2) LLM 被要求仅使用手动演示 ...
会话推荐系统(CRS)旨在在对话中提供高质量的建议。但是,大多数传统的CRS模型主要集中于对当前会议的对话理解,而忽略了中心主题的其他丰富的多种多样信息(即 ...
鉴于在不访问异常点的情况下得出紧凑的检测标准的要求,多元时间序列的无监督异常检测是一项艰巨的任务。现有方法主要基于重建误差或关联差异,这些差异都局限于有限的地平线隔离子序列,几乎没有任何统一的串联级别标准。在本文中,我们提出了具有翻新的基于词典的跨注意机制的全球字典增强 Transformer (GDFormer),以培养整个系列中所有正常点共享的全球表示 ...
归纳知识图完成(KGC)旨在预测看不见的实体缺失的三元组。最近的工作着重于对头部和尾部实体之间的推理路径进行建模,作为直接支持证据。但是,这些方法在很大程度上取决于推理路径的存在和质量,这限制了它们在不同情况下的一般适用性 ...
由于传统指标通常无法捕获细微的结构和内容差异,因此定性和定量评估表具有重大挑战。为了解决这个问题,我们介绍了一个新颖的有条理的标语,将多级结构描述符和细粒度的上下文定量整合在一起,从而为全面的表比较建立了强大的基础。在这个基础的基础上,我们提出了Tabxeval,这是一个详尽而可解释的两相评估框架 ...
低级适应性(LORA)是大型语言模型(LLMS)的参数有效微调的流行技术。我们研究如何合并不同的洛拉模块以实现技能组成 - 在目标任务上测试合并模型的性能,该目标涉及组合多个技能,每种技能来自单个洛拉。当难以获得目标任务的培训数据,并且可以将其分解为多种技能时,此设置是有利的 ...