自治的实体代理生活在多媒体网站的互联网上。他们可以在多模式网站上跳转来完成复杂的用户任务吗?现有的基准无法在现实的、不断发展的环境中评估它们在网站上的体现。为了回答这个问题,我们提出了 MMInA,一个多跳和多模式基准,用于评估组合互联网任务的具体代理,具有几个吸引人的特性:1)不断发展的现实世界多模式网站 ...

0 0 0 0 2024/06/20 arXiv:2404.09992v1 funer7

随着自然语言处理的最新进展,大型语言模型(LLM)已成为各种实际应用程序的强大工具。虽然LLM本身已经存在,但其内在的生成能力可能会消耗处理复杂的任务,这需要结合任务规划和使用外部工具。在本文中,我们首先提出了一个基于LLM的人工智能代理定制的定制框架,并讨论了解决复杂问题所需的关键功能... ...

0 0 0 0 2024/12/06 arXiv:2308.03427v3 funer7

基于规则的推理是法律推理的一种基本类型,它使我们能够通过准确地将规则应用于一组事实来得出结论。我们探索因果语言模型作为基于规则的推理器,特别是关于组合规则 - 由形成复杂逻辑表达式的多个元素组成的规则。关于组合规则的推理具有挑战性,因为它需要多个推理步骤,并关注元素之间的逻辑关系 ...

0 0 0 0 2024/06/19 arXiv:2402.10400v2 funer7

生成常识推理(GCR)需要一个模型使用常识知识来推理情况,同时生成连贯的句子。尽管生成句子的质量至关重要,但生成的多样性也同样重要,因为它反映了模型使用一系列常识性知识事实的能力。大型语言模型 (LLM) 已显示出通过使用给定示例的上下文学习 (ICL) 能够熟练地提高各种任务的生成质量,而无需进行任何微调 ...

0 0 0 0 2024/06/18 arXiv:2404.16807v1 funer7

大型语言模型(LLM)具有令人印象深刻的能力而广受欢迎,但对特定于模型的偶数或特定于任务的提示工程的需求可能会抑制其泛化。我们提出了UPRISE(用于改进零样本评估的通用提示搜索),它调整了一个轻量级且多功能的搜索器,可以自动搜索给定零样本任务输入的提示。具体来说,我们展示了跨任务和跨模型场景中的通用性:搜索器针对不同的任务集进行了调整,但在未见过的任务类型上进行了测试;我们使用一个小型的冷冻LLM,GPT-Neo-2 ... ...

0 0 0 0 2024/12/14 arXiv:2303.08518v4 funer7

推理作为解决复杂问题的必备能力,可以为各种现实应用提供后端支持,例如医疗诊断、谈判等。本文全面综述了语言模型推理的前沿研究提示。我们通过比较和总结来介绍研究工作,并提供系统资源来帮助初学者 ...

0 1 0 0 2024/06/11 arXiv:2212.09597v8 funer7

大型语言模型 (LLM) 在广泛的任务中取得了显着的成功。由于 LLM 令人印象深刻的规划和推理能力,他们已被用作自主代理来自动完成许多任务。最近,在使用一个LLM作为单一规划或决策代理的发展基础上,基于LLM的多代理系统在复杂问题解决和世界模拟方面取得了长足的进步 ...

0 1 1 8 2024/10/30 arXiv:2402.01680v2 funer7

多智能体场景中的强化学习对于现实世界的应用程序很重要,但也带来了单智能体设置之外的挑战。我们提出了一种演员批评家算法,该算法在多智能体设置中训练去中心化策略,使用集中计算的批评家共享一个注意力机制,该机制在每个时间步为每个智能体选择相关信息。与最近的方法相比,这种注意力机制可以在复杂的多代理环境中实现更有效和可扩展的学习 ...

0 0 0 0 2024/06/07 arXiv:1810.02912v2 funer7

添加了任务相关文档的大型语言模型在知识密集型任务上表现出了令人印象深刻的性能。然而,对于如何获取有效文件,现有的方法主要分为两类。一是从外部知识库检索,二是利用大型语言模型生成文档 ...

0 0 0 0 2024/06/06 arXiv:2310.05149v1 funer7

大型语言模型在各种任务上都表现出了令人印象深刻的几次结果。然而,当知识是此类结果的关键时,就像问答和事实检查等任务的情况一样,似乎需要大规模参数计数来存储知识。 文物,检索增强模型在知识密集型任务中表现出色,不需要太多参数,但尚祖先它们是否适用于少样本设置... ...

0 0 0 0 2024/09/29 arXiv:2208.03299v3 funer7

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)