大型语言模型 (LLM) 中扩展上下文窗口的成功推动了检索增强生成中更广泛上下文的使用。我们研究了 LLM 在检索增强问答中的使用。虽然较长的上下文可以更轻松地合并目标知识,但它们会引入更多不相关的信息,从而阻碍模型的生成过程并降低其性能。为了解决这个问题,我们设计了一种自适应提示策略,其中包括将检索到的信息分成更小的块,并依次提示 LLM 使用每个块回答问题。调整块大小可以在合并相关信息和减少不相关信息之间进行权衡。三个开放域问答数据集的实验结果表明,自适应策略在使用较少标记的情况下与标准提示的性能相匹配。我们的分析表明,当遇到信息不足时, LLM 经常会生成错误的答案而不是拒绝回应,这是错误的主要来源。这一发现凸显了需要进一步研究以增强 LLM 在面临信息不足时有效拒绝请求的能力 ...
潜在扩散模型(LDM)在合成高分辨率图像方面取得了显着的成果。然而,迭代采样过程计算量大,导致生成速度慢。受一致性模型(歌曲等人)的启发,我们提出了潜在一致性模型(LCM),可以在任何预训练的 LDM 上以最少的步骤进行快速推理,包括稳定扩散(rombach 等人)。将引导反向扩散过程视为求解增强概率流 ODE (PF-ODE),LCM 旨在直接预测潜在空间中此类 ODE 的解,从而减少大量迭代的需要并允许快速、高保真采样。高质量的 768 x 768 2~4 步 LCM 从预训练的无分类器引导扩散模型中高效提取,仅需 32 个 A100 GPU 小时即可进行训练。此外,我们还引入了潜在一致性微调(LCF),这是一种专为在定制图像数据集上微调 LCM 而定制的新颖方法。对 LAION-5B-Aesthetics 数据集的评估表明,LCM 通过几个步骤的推理即可实现最先进的文本到图像生成性能。项目页面:此 https URL ...
自我进化是一个中心研究主题,它使基于大语言模型(LLM)的代理能够在预训练后不断提高其能力。最近的研究见证了从无强化学习 (RL) 的方法到基于 RL 的方法的转变。当前基于强化学习的方法要么依赖密集的外部奖励信号,要么从 LLM 本身提取内在奖励信号。然而,这些方法与人类智能中观察到的自我进化机制不同,即个体通过相互讨论和协作来学习和改进。在这项工作中,我们引入了共同进化多代理系统(CoMAS),这是一种新颖的框架,使代理能够通过从代理间交互中学习而无需外部监督来自主改进。 CoMAS 从丰富的讨论动态中产生内在奖励,采用 LLM 作为法官的机制来制定这些奖励,并通过 RL 优化每个代理的策略,从而实现去中心化和可扩展的共同进化。实验结果表明,CoMAS 始终优于未经训练的智能体,并在大多数评估设置中实现了最先进的性能。消融研究证实了基于交互的奖励信号的必要性,并随着代理数量和多样性的增加而揭示了有希望的可扩展性。这些发现将 CoMAS 确立为基于 LLM 的智能体自我进化的新颖且有效的范例 ...
Graph检索效果生成(GraphRag)已成为具有外部知识增强大型语言模型(LLM)的强大范式。它利用图形来对特定概念之间的层次结构进行建模,从而使更连贯和有效的知识检索能够准确地进行此HTTP URL的概念上的承诺,最近的研究报告说,GraphRag经常在许多现实世界任务上表现不佳。这提出了一个关键的问题:GraphRag真的有效吗?在哪些情况下,图形结构为抹布系统提供了可衡量的好处?为了解决这个问题,我们提出了GraphRag-Bench,这是一个综合基准测试,旨在评估GraphRag模型的分层知识检索和深层上下文推理 ...
我们推出了 LogQuant,这是一种用于大语言模型 (LLM) 推理中 KV 缓存的突破性 2 位量化技术,可在保持卓越性能的同时节省大量内存。以前的方法要么假设后面的标记更重要,要么尝试根据早期的注意力模式来预测重要的标记。然而,这两种方法都可能导致性能瓶颈或频繁的错误预测。 LogQuant 采用了不同的方法。通过应用基于日志的过滤机制,它有选择地压缩整个上下文中的 KV Cache,与现有方法相比,在相同甚至减少的内存占用量下实现更好的性能。在基准测试中,它在不增加内存消耗的情况下将吞吐量提高了 25%,将批量大小提高了 60%。对于数学和代码完成等具有挑战性的任务,LogQuant 在相同的压缩比下将准确性提高了 40% 到 200%,优于同类。此 http URL 可以轻松地与流行的推理框架(如 Python 的 Transformers 库)集成。可以在此 https URL 中实现 ...
大型语言模型 (LLM) 的最新进展显示出在金融推理和市场理解方面的卓越能力。 TradingAgent 和 FINMEM 等多代理 LLM 框架通过利用基本面和基于情绪的输入进行战略决策,将这些模型增强到长期投资任务中。然而,这些方法并不适合高频交易 (HFT) 的高速、精确度要求。高频交易通常需要由结构化、短期信号(例如技术指标、图表模式和趋势特征)驱动的快速、具有风险意识的决策。这些信号与大多数现有金融 LLM 系统的长期、文本驱动推理形成鲜明对比。为了弥补这一差距,我们引入了 QuantAgent,这是第一个专为高频算法交易而设计的多代理 LLM 框架。该系统将交易分解为四个专门的代理——指标、模式、趋势和风险——每个代理都配备了特定领域的工具和结构化推理功能,以捕获短时间窗口内市场动态的不同方面。对包括比特币和纳斯达克期货在内的九种金融工具进行的广泛实验表明,QuantAgent 的表现始终优于基准方法,在多个评估指标的 1 小时和 4 小时交易间隔内实现了更高的预测准确性。我们的研究结果表明,将结构化交易信号与基于 LLM 的推理相结合,为高频金融市场中的可追踪、实时决策系统提供了一条可行的途径 ...
检索增强生成(RAG)系统通过合并外部知识库来增强大型语言模型(LLM),但这可能会使它们遭受提取攻击,从而导致潜在的版权和隐私风险。然而,现有的提取方法通常依赖于恶意输入,例如提示注入或越狱,使得它们可以通过输入或输出级检测轻松检测到。在本文中,我们介绍隐式知识提取攻击(IKEA),它通过良性查询对 RAG 系统进行知识提取。具体来说,宜家首先利用锚概念——与内部知识相关的关键词——生成外观自然的查询,然后设计两种机制引导锚概念彻底“探索”RAG的知识:(1)体验反射采样,根据过去的查询-响应历史对锚概念进行采样,确保其与主题的相关性; (2)信任区域定向变异,在相似性约束下迭代变异锚概念,以进一步利用嵌入空间。大量实验证明了宜家在各种防御下的有效性,提取效率超出基线 80% 以上,攻击成功率超出基线 90%。此外,根据宜家提取物构建的替代 RAG 系统显示出与原始 RAG 相当的性能,并且优于基于多个评估任务的基线的系统,凸显了 RAG 系统中隐秘的版权侵权风险 ...
自然图像通常会因复杂的复合退化(例如雨、雪和雾霾)而退化,这会对下游视觉应用产生不利影响。尽管现有的图像恢复工作取得了显着的成功,但它们仍然受到两个关键挑战的阻碍:动态变化的退化场景的泛化能力有限,以及保留局部细节和建模全局依赖性之间的次优平衡。为了克服这些挑战,我们提出了 M2Restore,这是一种基于专家混合 (MoE) 的新型 Mamba-CNN 融合框架,用于高效、鲁棒的一体化图像恢复。 M2Restore 引入了三个关键贡献:首先,为了提高模型在不同退化条件下的泛化能力,我们利用 CLIP 引导的 MoE 门控机制,将任务条件提示与 CLIP 派生的语义先验融合在一起。该机制通过跨模式特征校准得到进一步完善,从而能够针对各种退化类型进行精确的专家选择。其次,为了共同捕获全局上下文依赖关系和细粒度的局部细节,我们设计了一种双流架构,将 CNN 的局部表示强度与 Mamba 的远程建模效率相结合。这种集成可以协同优化全局语义关系和局部结构保真度,保持全局连贯性,同时增强细节恢复。第三,我们引入了一种边缘感知动态门控机制,该机制通过将计算注意力重新分配到退化敏感区域来自适应地平衡全局建模和局部增强。这种有针对性的关注可以实现更高效、更精确的修复。跨多个图像恢复基准的大量实验验证了 M2Restore 在视觉质量和定量性能方面的优越性 ...
指令调优是一种标准技术,用于在初始预训练阶段之后使大型语言模型与最终任务和用户偏好保持一致。最近的研究表明数据工程在指令调整中的关键作用——如果选择得当,只需有限的数据即可实现卓越的性能。然而,对于什么是好的指令调整数据以进行对齐,以及我们应该如何自动有效地选择数据,我们仍然缺乏原则性的理解。在这项工作中,我们深入研究了用于对齐的自动数据选择策略。我们从对照研究开始,跨三个维度测量数据:复杂性、质量和多样性,同时我们检查现有方法并引入增强数据测量的新技术。随后,我们提出了一个简单的策略来根据测量选择数据样本。我们提出了 deita(数据高效指令调整对齐的缩写),这是一系列使用我们提出的方法自动选择的数据样本从 LLaMA 和 Mistral 模型进行微调的模型。根据经验,deita 的性能更好或与最先进的开源对齐模型相当,仅使用 6K SFT 训练数据样本——比基线中使用的数据少 10 倍以上。当使用直接偏好优化 (DPO) 进行进一步训练时,使用 6K SFT 和 10K DPO 样本训练的 deita-Mistral-7B + DPO 达到 7.55 MT-Bench 和 90.06% AlpacaEval 分数。我们预计这项工作将提供自动数据选择工具,促进数据高效对齐。我们发布我们的模型以及选定的数据集以供未来研究,以更有效地调整模型 ...
我们推出了 WildAGTEval,这是一个基准测试,旨在评估大型语言模型 (LLM) 代理在实际 API 复杂性下的函数调用能力。与之前的工作假设理想化的 API 系统并忽略诸如噪声 API 输出之类的现实世界因素不同,WildAGTEval 考虑了现实世界复杂性的两个维度:1. API 规范,其中包括详细的文档和使用限制;2. API 执行,捕获运行时挑战。因此,WildAGTEval 提供了 (i) 一个包含 60 个不同复杂场景的 API 系统,这些场景可以组成大约 32K 的测试配置,以及 (ii) 用于在这些场景上评估 LLM 代理的用户代理交互。使用WildAGTEval,我们系统地评估了几个高级 LLM ,并观察到大多数场景都具有挑战性,其中不相关的信息复杂性构成了最大的困难,并使强大的 LLM 的表现降低了27.3%。此外,我们的定性分析表明, LLM 有时会扭曲用户意图,只是为了声称任务已完成,从而严重影响用户满意度 ...