使用外部工具增强大型语言模型 (LLM) 已成为一种扩展其实用性、使它们能够解决实际任务的有前途的方法。现有的工作通常为 LLM 作为工具使用者提供手动设计的工作流程,其中 LLM 以逐步的方式规划一系列工具,并顺序执行每个工具以获得中间结果,直到得出最终答案。然而,他们在现实场景中面临两个挑战:(1)手工控制流程通常是临时的,并且将 LLM 限制在本地规划; (2) LLM 被要求仅使用手动演示 ...
会话推荐系统(CRS)旨在在对话中提供高质量的建议。但是,大多数传统的CRS模型主要集中于对当前会议的对话理解,而忽略了中心主题的其他丰富的多种多样信息(即 ...
鉴于在不访问异常点的情况下得出紧凑的检测标准的要求,多元时间序列的无监督异常检测是一项艰巨的任务。现有方法主要基于重建误差或关联差异,这些差异都局限于有限的地平线隔离子序列,几乎没有任何统一的串联级别标准。在本文中,我们提出了具有翻新的基于词典的跨注意机制的全球字典增强 Transformer (GDFormer),以培养整个系列中所有正常点共享的全球表示 ...
归纳知识图完成(KGC)旨在预测看不见的实体缺失的三元组。最近的工作着重于对头部和尾部实体之间的推理路径进行建模,作为直接支持证据。但是,这些方法在很大程度上取决于推理路径的存在和质量,这限制了它们在不同情况下的一般适用性 ...
由于传统指标通常无法捕获细微的结构和内容差异,因此定性和定量评估表具有重大挑战。为了解决这个问题,我们介绍了一个新颖的有条理的标语,将多级结构描述符和细粒度的上下文定量整合在一起,从而为全面的表比较建立了强大的基础。在这个基础的基础上,我们提出了Tabxeval,这是一个详尽而可解释的两相评估框架 ...
低级适应性(LORA)是大型语言模型(LLMS)的参数有效微调的流行技术。我们研究如何合并不同的洛拉模块以实现技能组成 - 在目标任务上测试合并模型的性能,该目标涉及组合多个技能,每种技能来自单个洛拉。当难以获得目标任务的培训数据,并且可以将其分解为多种技能时,此设置是有利的 ...
近年来,长上下文模型(LCM)取得了显着的进步,为用户处理涉及长上下文的任务(例如文档摘要)提供了极大的便利。随着社区越来越重视生成结果的真实性,仅仅确保 LCM 输出的准确性是不够的,因为人类从极其冗长的上下文中验证结果是相当具有挑战性的。然而,尽管已经做出了一些努力来评估 LCM 是否真正根据上下文做出响应,但这些工作要么仅限于特定任务,要么严重依赖外部评估资源,例如这个 http URL 这 ...
视觉异常检测(AD)由于异常数据样本的稀缺而提出了重大挑战。尽管已经提出了许多综合异常样本的作品,但这些合成异常通常缺乏真实性或需要广泛的培训数据,从而限制了它们在现实世界中的适用性。在这项工作中,我们提出异常(异常),这是一个充分利用稳定扩散(SD)的图像产生能力的新型框架,以产生多样化和现实的看不见的异常 ...