扩展大型语言模型 (LLM) 的上下文窗口最近越来越流行,而通过检索增强 LLM 的解决方案已经存在多年。自然的问题是:i)检索增强与长上下文窗口,哪一个更适合下游任务? ii) 是否可以将这两种方法结合起来以获得两全其美的效果?在这项工作中,我们通过使用两个最先进的预训练 LLM 来研究这两种解决方案来回答这些问题,即 ...
0 0 0 2024/03/28 arXiv:2310.03025v2 beaver
随着大型语言模型(LLM)的快速发展,多智能体应用取得了重大进展。然而,协调代理合作的复杂性和 LLM 不稳定的表现给开发强大而高效的多代理应用程序带来了显着的挑战。为了应对这些挑战,我们提出了 AgentScope,一个以开发人员为中心的多代理平台,以消息交换作为其核心通信机制 ...
0 0 0 2024/03/28 arXiv:2402.14034v1 lockee
通过从大型、多样化、与任务无关的数据集中转移知识,现代机器学习模型可以零样本或使用小型特定于任务的数据集来解决特定的下游任务,从而达到高水平的性能。虽然这种能力已经在计算机视觉、自然语言处理或语音识别等其他领域得到了证明,但它仍有待在机器人技术中得到证明,由于收集现实世界的机器人数据的困难,模型的泛化能力尤其重要。我们认为,此类通用机器人模型成功的关键之一在于开放式任务无关训练,与可以吸收所有多样 ...
0 0 0 2024/03/28 arXiv:2212.06817v2 llliuxiao
通用预训练模型(“基础模型”)使从业者能够为单个机器学习问题生成通用的解决方案,其数据集比从头开始学习所需的数据集要小得多。此类模型通常在监督较弱的大型且多样化的数据集上进行训练,消耗的训练数据比任何单个下游应用程序可用的训练数据多得多。在本文中,我们描述了视觉导航 Transformer (ViNT),这是一个基础模型,旨在将通用预训练模型的成功带入基于视觉的机器人导航 ...
0 0 0 2024/03/28 arXiv:2306.14846v2 llliuxiao
使用大量纯文本数据训练大型语言模型 (LLM) 的最新进展导致跨许多领域和任务(包括特定于文档的任务)的强泛化。与此相反,有一种趋势是训练专为文档理解而定制的多模式 Transformer 架构,这些架构专门设计用于将文本输入与相应的文档布局融合。这涉及一个单独的微调步骤,需要额外的训练数据 ...
0 0 0 2024/03/28 arXiv:2402.09841v1 cheng
ChatGPT 刺激了大语言模型领域的研究热潮。在本文中,我们从性能、评估标准、鲁棒性和错误类型四个角度评估 ChatGPT 的能力。具体来说,我们首先在零样本、少样本和思维链场景下在 17 个数据集、14 个 IE 子任务上评估 ChatGPT 的性能,发现 ChatGPT 和 SOTA 结果之间存在巨大的性能差距 ...
0 0 0 2024/03/28 arXiv:2305.14450v1 besiege
我们提出了 PixelNeRF,一种学习框架,可以预测以一个或几个输入图像为条件的连续神经场景表示。构建神经辐射场的现有方法涉及独立优化每个场景的表示,需要许多校准视图和大量的计算时间。我们通过引入一种架构来解决这些缺点,该架构以完全卷积的方式在图像输入上调节 NeRF ...
0 0 2 2024/03/28 arXiv:2012.02190v3 yyb
我们提出了一种方法,通过使用稀疏的输入视图集优化底层连续体积场景函数,实现合成复杂场景的新颖视图的最先进的结果。我们的算法使用全连接(非卷积)深度网络表示场景,其输入是单个连续 5D 坐标(空间位置 $(x,y,z)$ 和观看方向 $(\theta, \phi)$ ),其输出是该空间位置处的体积密度和与视图相关的发射辐射率。我们通过查询沿相机光线的 5D 坐标来合成视图,并使用经典的体积渲染技术将 ...
0 0 0 2024/03/28 arXiv:2003.08934v2 Eny530