选择性检索通过减少低质量检索和提高效率的干扰来改善检索增强的生成(RAG)。但是,现有的方法低估了大语言模型(LLMS)的固有知识,从而导致了次优的检索决策和降解的发电绩效。为了弥合这一差距,我们提出了自言自语的抹布(SR-rag),这是一个新颖的框架,将选择性检索与知识言语结合 ...
对于大型语言模型(LLM)来说,生成长而连贯的文本仍然是一个挑战,因为它们缺乏层次结构计划和在话语产生中的结构性组织。我们介绍了结构对齐,这是一种新颖的方法,将LLM与人类的话语结构保持一致,以增强长篇文本生成。通过将语言基础的话语框架整合到加强学习中,我们的方法指导模型以产生连贯且组织良好的产出 ...
大型语言模型(LLM)在工具学习中表现出了显着的功能。在实际情况下,用户查询通常是模棱两可和不完整的,需要有效的澄清。但是,现有的交互式澄清方法面临两个关键局限性:依赖手动构造的数据集以及在多转移澄清过程中缺乏误差校正机制 ...
计算机使用代理通过直接与计算机和移动设备上的图形用户界面(GUI)进行交互来自动化数字任务,从而通过完成用户查询的开放式空间来提高人类生产力。但是,当前的代理商面临重大挑战:GUI元素的不精确基础,长期任务计划的困难以及依靠单个通才模型来执行各种认知任务的绩效瓶颈。为此,我们介绍了Agent S2,这是一个新颖的构图框架,该框架将各种通才和专业模型的认知责任委托 ...
关系数据库驱动的数据分析(RDB-DA)报告生成旨在在查询关系数据库后生成数据分析报告,已广泛应用于财务和医疗保健等领域。通常,这些任务是由数据科学家手动完成的,使该过程非常密集,并表现出明确的自动化需求。虽然现有方法(e ...
本文介绍了完成修剪政策优化(CPPO),以加快基于小组相对政策优化(GRPO)的推理模型的培训。 GRPO虽然有效,但由于需要为每个问题进行多次完成,因此会产生高培训费用。我们的实验和理论分析表明,完成的数量会影响模型的准确性,但培训时间增加了,并不是所有的完成都对政策培训产生了同等贡献 - 它们的贡献取决于他们的相对优势 ...
大型语言模型的最新进展强调了通过预定义的约束对模型输出进行精确控制的迫切需要。尽管现有的方法试图通过直接指令 - 响应综合或优先响应优化来实现这一目标,但它们通常在约束理解和适应方面挣扎。当处理细粒度的约束时,这种限制变得尤为明显,从而导致幻觉或脆弱性能 ...
本文调查了基于大语言模型(LLM)的代理商的开发(QA)。传统代理人面临重大局限性,包括大量数据要求和对新环境的概括。基于LLM的代理商通过利用LLM作为其核心推理引擎来应对这些挑战 ...
由于其复杂性,烹饪任务对于机器人技术来说仍然是一个具有挑战性的问题。人们烹饪的视频是此类任务的宝贵信息来源,但在如何将这些数据转换为机器人环境方面介绍了很多可变性。这项研究旨在通过使用大型语言模型(LLM)的任务和运动计划(TAMP)框架来简化此过程,重点关注任务计划生成步骤,以自主从带有字幕的视频中自主生成烹饪任务计划,并执行它们 ...
我们介绍开放的深度搜索(ODS),以缩小专有搜索AI解决方案之间的差距,例如《困惑的声纳推理》和OpenAI的GPT-4O搜索预览及其开源对应物。 ODS引入的主要创新是通过推理代理可以明智地使用Web搜索工具来回答查询的最新开源LLM的推理能力。具体而言,ODS由两个组件组成,这些组件与用户选择的基本LLM一起使用:打开搜索工具和打开推理代理 ...