大型语言模型 (LLM) 在自然语言任务方面表现出了良好的前景,但在直接应用于金融等复杂领域时却遇到了困难。 LLM 很难推理和整合所有相关信息。我们提出了一种以数据为中心的方法,使 LLM 能够更好地处理财务任务 ...
最近,人们对具有长期记忆力的对话剂的兴趣越来越大,这导致了使用检索型发电(RAG)的语言模型的快速发展。直到最近,关于抹布的大多数工作都集中在从Wikipedia等大型文本数据库中检索信息,而不是从长篇对话中进行的信息。在本文中,我们认为,与静态数据库检索相比,从长形式的对话数据中有效检索面临两个独特的问题:1)基于时间/事件的查询,该查询要求该模型根据时间或对话事件的顺序检索有关先前对话的信息( ...
解决复杂的现实世界问题需要深入的信息寻求和多步推理。代理系统的最新进展以深入的研究为例,强调了自动多步研究的潜力。在这项工作中,我们提出了一个有凝聚力的范式,用于从以数据为中心和培训阶段的角度来构建端到端的代理信息 ...
尽管大型语言模型(LLM)代理可以有效地使用外部工具来进行复杂的现实世界任务,但它们需要内存系统来利用历史体验。当前的内存系统启用基本存储和检索,但尽管最近尝试合并图形数据库,但仍缺乏复杂的内存组织。此外,这些系统的固定操作和结构限制了它们在各种任务中的适应性 ...
图像字幕是将计算机视觉和自然语言处理结合在一起的任务,旨在为图像生成描述性传说。这是一个两倍的过程,依赖于精确的图像理解和纠正语言理解,句法和语义上都可以理解。由于该主题可用的知识越来越多,跟上图像字幕的最新研究和发现的最新研究和发现变得越来越困难 ...
流程奖励模型(PRM)是大语模型(LLMS)数学推理过程中过程监督的有前途的方法,该方法旨在识别和减轻推理过程中的中间错误。 However, the development of effective PRMs faces significant challenges, particularly in data annotation and evaluation methodologies.在本文 ...
随着聊天机器人继续发展到类似人类的现实世界,相互作用,多模式仍然是研究和探索的积极领域。到目前为止,将多模式整合到聊天机器人中的努力主要集中在以图像为中心的任务上,例如视觉对话和基于图像的说明,重点是人类感知的“眼睛”,同时忽略了“耳朵”,即听觉方面。此外,这些研究通常围绕着静态相互作用,这些静态相互作用的重点是讨论这种方式,而不是自然地将其纳入对话中,从而限制了同时,动态参与的丰富性 ...
文本到图像生成系统的最新进展很大程度上是由扩散模型驱动的。然而,单阶段文本到图像的扩散模型在计算效率和图像细节的细化方面仍然面临挑战。为了解决这个问题,我们提出了cogview3,这是一种创新的级联框架 ...