多模态大语言模型 (MLLM) 在共同理解文本、图像和视频方面表现出了令人印象深刻的能力,通常通过视觉问答 (VQA) 进行评估。然而,即使是最先进的 MLLM 也难以应对特定领域或知识密集型查询,其中相关信息在预训练数据中的代表性不足。基于知识的 VQA (KB-VQA) 通过检索外部文档来条件回答生成来解决这个问题,但当前的检索增强方法存在精度低、段落噪音大和推理有限的问题。为了解决这个问题,我们提出了 ReAG,这是一种新颖的推理增强多模态 RAG 方法,它将粗粒度和细粒度检索与过滤不相关段落的批评模型相结合,确保高质量的附加上下文。该模型遵循多阶段训练策略,利用强化学习来增强对检索内容的推理,而监督微调仅作为冷启动。 Encyclopedic-VQA 和 InfoSeek 的大量实验表明,ReAG 显着优于先前的方法,提高了答案准确性并提供基于检索到的证据的可解释推理。我们的源代码可在以下位置公开获取:此 https URL ...
智能代理作为通向通用人工智能(AGI)的潜在途径脱颖而出。因此,研究人员投入了大量精力来实现它们的多样化。受益于大语言模型 (LLM) 的最新进展,使用通用自然语言作为界面的基于 LLM 的代理在各种应用程序中表现出强大的泛化能力——从充当自主通用任务助手到编码、社会和经济领域的应用程序,基于 LLM 的代理提供了广泛的探索机会。本文调查了当前的研究,深入概述了单代理和多代理系统中基于 LLM 的智能代理。它涵盖了它们的定义、研究框架和基本组成部分,例如它们的组成、认知和规划方法、工具利用以及对环境反馈的响应。我们还深入研究了在多代理系统中部署基于 LLM 的代理的机制,包括多角色协作、消息传递以及缓解代理之间通信问题的策略。讨论还揭示了流行的数据集和应用场景。最后,考虑到人工智能和自然语言处理不断发展的前景,我们展望了基于 LLM 的代理的前景 ...
具有大型天线阵列的高频段无线通信面临波束管理方面的挑战,而来自摄像头、激光雷达、雷达和 GPS 的多模态传感信息可能会改善这一挑战。在本文中,我们提出了一种用于传感辅助光束预测的多模态 Transformer 深度学习框架。我们采用卷积神经网络从随时间采样的一系列图像、点云和雷达原始数据中提取特征。在每个卷积层,我们使用变换器编码器来学习抽象空间上不同模态和时间实例的特征标记之间的隐藏关系,并生成用于下一级特征提取的编码向量。我们将不同模式与监督学习相结合来训练模型。我们尝试利用焦点损失和指数移动平均来增强不平衡数据的模型。我们还评估数据处理和增强技术,例如图像增强、分割、背景过滤、多模态数据翻转、雷达信号转换和 GPS 角度校准。实验结果表明,我们的解决方案经过图像和 GPS 数据训练,可产生基于距离的最佳预测波束准确度,达到 78.44%,对未见过的白天场景的有效泛化能力接近 73%,夜间场景的泛化能力超过 84%。这优于使用其他模式和任意数据处理技术,这证明了具有特征融合的 Transformer 在根据图像和 GPS 执行无线电波束预测方面的有效性。此外,我们的解决方案可以根据大量多模态无线数据进行预训练,对多个下游无线电网络任务进行微调 ...
这项工作介绍了SA2VA,这是对图像和视频的密集理解的第一个统一模型。与通常仅限于特定模式和任务的现有多模式大型语言模型不同,SA2VA支持广泛的图像和视频任务,包括参考细分和对话,并以最少的单次指令调整调整。 SA2VA结合了SAM-2(基础视频细分模型)与Llava(一个先进的视觉语言模型)结合在一起,将文本,图像和视频统一为共享的LLM Token 空间 ...
在大型语言模型 (LLM) 快速发展的推动下,基于 LLM 的代理已成为强大的智能系统,能够实现类人认知、推理和交互。这些代理越来越多地部署在不同的现实世界应用中,包括学生教育、科学研究和财务分析。然而,尽管具有巨大的潜力,基于 LLM 的代理仍然容易受到幻觉问题的影响,这可能导致错误的任务执行并破坏整个系统设计的可靠性。应对这一关键挑战需要深入了解并系统整合基于 LLM 的代理人的最新进展。为此,我们对 LLM 代理人的幻觉进行了首次全面调查。通过仔细分析代理的完整工作流程,我们提出了一种新的分类法,可以识别在不同阶段发生的不同类型的代理幻觉。此外,我们对特工幻觉出现的十八种触发原因进行了深入检查。通过对大量现有研究的详细回顾,我们总结了幻觉缓解和检测的方法,并强调了未来研究的有希望的方向。我们希望这项调查能够激发人们进一步努力解决 LLM 代理的幻觉问题,最终有助于开发更强大、更可靠的代理系统 ...
近年来,通用多模态大语言模型(MLLM)迅速发展。然而,将通用 MLLM 应用于特定领域(例如科学领域和工业应用)的探索仍然较少。本文通过后训练系统地研究了 MLLM 的领域适应,重点关注数据合成、训练流程和任务评估 ...
时间顺序任务对人形机器人提出了挑战,因为现有的扩散策略(DP)和变形金刚动作分块(ACT)方法通常缺乏时间上下文,导致局部最优陷阱和过度重复动作。为了解决这些问题,本文引入了基于无分类器指导的扩散策略(CFG-DP),这是一种通过将无分类器指导(CFG)与条件和无条件模型集成来增强 DP 的新颖框架。具体来说,CFG 利用时间步输入来跟踪任务进展并确保精确的周期终止。它根据任务阶段动态调整动作预测,使用调整的指导因子来平衡时间一致性和动作准确性。人形机器人的真实实验证明了高成功率和最少的重复动作。此外,我们评估了模型终止操作的能力,并研究了不同组件和参数调整如何影响其性能。该框架显着增强了顺序机器人任务的确定性控制和执行可靠性 ...
视觉-语言-动作模型(VLA)对于实现通用机器人操作有着巨大的希望。然而,构建它们的最佳方法仍然是一个悬而未决的问题。当前的方法通常会增加复杂性,例如使用动作标记修改视觉语言模型(VLM)的现有词汇表或引入特殊的动作头。奇怪的是,将动作直接表示为文本的最简单策略在很大程度上仍未得到探索。这项工作引入了 VLA-0 来研究这个想法。我们发现VLA-0不仅有效,而且有效。它的威力惊人。通过正确的设计,VLA-0 的性能优于更多复杂的型号。在评估 VLA 的流行基准 LIBERO 上,VLA-0 优于所有在相同机器人数据上训练的现有方法,包括 $\pi_0.5$-KI、OpenVLA-OFT 和 SmolVLA。此外,在没有大规模机器人特定训练的情况下,它的性能优于在大规模机器人数据上训练的方法,例如 $\pi_0.5$-KI、$\pi_0$、GR00T-N1 和 MolmoAct。这些发现也适用于现实世界,VLA-0 的性能优于 SmolVLA(一种在大规模真实数据上预训练的 VLA 模型)。本文总结了我们意想不到的发现,并详细说明了释放这种简单但有效的 VLA 设计的高性能所需的具体技术。此处提供了可视化结果、代码和经过训练的模型:此 https URL ...
检索增强生成(RAG)可以通过集成外部知识来补充大型语言模型(LLM)。然而,随着检索文档数量的增加,LLM 的输入长度线性增长,导致延迟急剧增加和长上下文理解能力下降。这对于需要跨文档推理链的多跳问题尤其严重。为了加速推理、降低成本并最大限度地减少干扰,本文提出了 Brief(通过证据融合桥接检索和推理),这是一种轻量级方法,通过将检索到的文档压缩为高密度文本摘要以集成到上下文 RAG 中来执行查询感知多跳推理。为了实现多跳推理的学习压缩,我们通过提取原子命题来管理合成数据,这些原子命题封装了源文档中的不同事实,以组成合成摘要。基于我们完全由开源模型构建的合成数据,BRIEF 生成更简洁的摘要,并使一系列 LLM 能够实现卓越的开放域问答 (QA) 性能。例如,在 HotpotQA 上,与最先进的基线相比,BRIEF 将压缩率提高了 2 倍,同时以 Flan-UL2 作为读取器模型,其性能优于最先进的基线 3.00% EM 和 4.16% F1。它还生成比专有 GPT-3.5 更简洁的摘要,同时展示几乎相同的 QA 性能 ...
向用户提供激励(例如亚马逊的优惠券、Uber 的折扣和 Tiktok 的视频奖励)是在线平台用来提高用户参与度和平台收入的常见策略。尽管这些营销激励措施已被证明有效,但它会带来不可避免的成本,如果使用不当,可能会导致投资回报率较低。另一方面,不同的用户对这些激励措施的反应也不同,例如,一些用户在没有优惠券的情况下从不购买某些产品,而另一些用户无论如何都会购买。因此,如何在预算约束下为每个用户选择适量的激励(即待遇)是一个具有重大实际意义的重要研究问题。在本文中,我们将此类问题称为预算约束治疗选择(BTS)问题。挑战在于如何在大规模数据集上有效解决 BTS 问题,并在现有技术的基础上获得改进的结果。我们提出了一种新颖的预算约束下基于树的处理选择技术,称为大规模预算约束因果森林(LBCF)算法,这也是一种适合现代分布式计算系统的有效处理选择算法。还提出了一种新颖的离线评估方法,以克服在随机对照试验 (RCT) 数据中评估 BTS 问题解决方案性能的固有挑战。我们将我们的方法部署在大型视频平台的真实场景中,该平台会赠送奖金以增加用户的活动参与持续时间。模拟分析、离线和在线实验都表明我们的方法优于各种基于树的最先进基线。所提出的方法目前正在为该平台上数亿用户提供服务,并实现了这几个月来最巨大的改进之一 ...