人们越来越多地探索大型语言模型(LLM)来构建能够主动环境交互(例如,通过工具使用)来解决复杂问题的智能体。强化学习(RL)被认为是一项关键技术,在训练此类智能体方面具有巨大潜力;然而,强化学习在 LLM 代理人中的有效应用仍处于起步阶段,面临着相当大的挑战。目前,这个新兴领域缺乏对专门为 LLM Agent 环境量身定制的 RL 方法的深入探索,同时也缺乏为此目的而设计的灵活且易于扩展的培训框架。为了帮助推进这一领域,本文首先通过系统地扩展马尔可夫决策过程(MDP)框架来全面定义 LLM Agent 的关键组件,重新审视并阐明了 LLM Agent 的强化学习方法。其次,我们介绍 Agent-R1,这是一个模块化、灵活且用户友好的训练框架,用于基于 RL 的 LLM Agent,旨在直接适应不同的任务场景和交互环境。我们对 Multihop QA 基准任务进行了实验,为我们提出的方法和框架的有效性提供了初步验证 ...
大型语言模型 (LLM) 在各种自然语言处理 (NLP) 任务中表现出了卓越的能力,并吸引了包括金融服务在内的多个领域的关注。尽管对一般领域的 LLM 进行了广泛的研究,并且它们在金融领域具有巨大的潜力,但金融 LLM (FinLLM)的研究仍然有限。本调查全面概述了 FinLLM,包括其历史、技术、绩效以及机遇和挑战。首先,我们按时间顺序概述了通用领域预训练语言模型 (PLM) 到当前的 FinLLM,包括 GPT 系列、选定的开源 LLM 和金融 LM。其次,我们比较了金融 PLM 和 FinLLM 中使用的五种技术,包括训练方法、训练数据和微调方法。第三,我们总结了六个基准任务和数据集的性能评估。此外,我们还提供八个高级金融 NLP 任务和数据集,用于开发更复杂的 FinLLM。最后,我们讨论 FinLLM 面临的机遇和挑战,例如幻觉、隐私和效率。为了支持金融领域的人工智能研究,我们在 GitHub 上编译了一系列可访问的数据集和评估基准 ...
大型语言模型在一系列任务中实现了最先进的准确性。然而,有效训练这些模型具有挑战性,原因有两个:a) GPU 内存容量有限,甚至无法在多 GPU 服务器上安装大型模型,b) 训练这些模型所需的计算操作数量可能会导致训练时间过长。因此,提出了新的模型并行方法,例如张量并行和管道并行。不幸的是,这些方法的天真使用会导致数千个 GPU 的基本扩展问题,例如,由于昂贵的跨节点通信或设备花费大量时间等待其他设备取得进展。在本文中,我们展示了如何组合不同类型的并行方法(张量、管道和数据并行)以扩展到数千个 GPU 和具有数万亿个参数的模型。我们调查了管道并行技术,并提出了一种新颖的交错管道并行调度,它可以将吞吐量提高 10% 以上,并且内存占用与现有方法相当。我们定量研究张量、管道和数据并行性之间的权衡,并提供有关如何配置大型模型的分布式训练的直觉。我们的方法使我们能够在 3072 个 GPU 上以 502 petaFLOP/s 的速度对具有 1 万亿个参数的模型执行训练迭代,实现每 GPU 吞吐量为理论峰值的 52%。我们的代码在此 https URL 上开源 ...
最近,使用大型语言模型 (LLM) 进行工具学习已成为增强 LLM 解决高度复杂问题能力的有前景的范式。尽管该领域受到越来越多的关注并取得了迅速的进展,但现有的文献仍然支离破碎,缺乏系统的组织,给新人带来了进入障碍。这一差距促使我们对 LLM 工具学习的现有工作进行全面调查。在本次调查中,我们重点从两个主要方面回顾现有文献(1)为什么工具学习是有益的以及(2)如何实施工具学习,从而使 LLM 能够全面了解工具学习。我们首先从六个具体方面回顾工具集成的好处和工具学习范式的固有好处,来探讨“为什么”。在“如何”方面,我们根据工具学习工作流程中四个关键阶段的分类系统地回顾了文献:任务规划、工具选择、工具调用和响应生成。此外,我们还对现有基准和评估方法进行了详细总结,并根据其与不同阶段的相关性对其进行了分类。最后,我们讨论当前的挑战并概述未来潜在的方向,旨在激励研究人员和工业开发人员进一步探索这个新兴且有前途的领域。我们还维护一个 GitHub 存储库,以通过此 https URL 持续跟踪这一新兴领域的相关论文和资源 ...
引用视频对象分割(RVOS)旨在分割视频中查询语句所引用的对象。大多数现有方法需要使用密集掩码注释进行端到端训练,这可能会消耗大量计算且可扩展性较差。在这项工作中,我们重新思考 RVOS 问题,旨在研究这项任务的关键。基于现有的基础分割模型,我们将 RVOS 任务分解为引用、视频和分割因素,并提出了一个临时提示生成和选择(Tenet)框架来解决引用和视频因素,同时将分割问题留给基础模型。为了有效地使基于图像的基础分割模型适应引用视频对象分割,我们利用现成的对象检测器和跟踪器来生成与引用句子相关的时间提示。虽然可以产生高质量的时间提示,但无法从置信度分数中轻松识别它们。为了解决这个问题,我们提出提示偏好学习来评估生成的时间提示的质量。通过利用此类提示来指导基于图像的基础分割模型,我们将能够为引用对象生成高质量的掩模,从而使模型能够有效地适应引用视频对象分割。 RVOS 基准测试证明了 Tenet 框架的有效性 ...
作为一种有前途的自监督学习方案,屏蔽自动编码显着推进了自然语言处理和计算机视觉。受此启发,我们提出了一种用于点云自监督学习的掩码自动编码器的巧妙方案,解决了点云特性带来的挑战,包括位置信息泄漏和信息密度不均匀。具体来说,我们将输入点云划分为不规则的点块,并以高比率随机屏蔽它们。然后,基于标准 Transformer 的自动编码器采用非对称设计和移位掩码标记操作,从未掩码的点补丁中学习高级潜在特征,旨在重建掩码点补丁。大量的实验表明,我们的方法在预训练期间是有效的,并且可以很好地概括各种下游任务。具体来说,我们的预训练模型在 ScanObjectNN 上达到 85.18% 的准确率,在 ModelNet40 上达到 94.04% 的准确率,优于所有其他自监督学习方法。我们通过我们的方案展示了,完全基于标准 Transformer 的简单架构可以超越监督学习中的专用 Transformer 模型。我们的方法还将少样本对象分类的最先进准确度提高了 1.5%-2.3%。此外,我们的工作激发了将统一架构从语言和图像应用到点云的可行性 ...
在深度学习中,模型通常对所有输入重用相同的参数。专家混合 (MoE) 违背了这一点,而是为每个传入的示例选择不同的参数。结果是一个稀疏激活的模型——参数数量惊人——但计算成本恒定。然而,尽管 MoE 取得了一些显着的成功,但复杂性、通信成本和培训不稳定阻碍了广泛采用 - 我们通过 Switch Transformer 解决这些问题。我们简化了 MoE 路由算法,并设计了直观的改进模型,降低了通信和计算成本。我们提出的训练技术有助于解决不稳定性问题,并且我们首次展示了大型稀疏模型可以使用较低精度(bfloat16)格式进行训练。我们基于 T5-Base 和 T5-Large 设计模型,以在相同的计算资源下获得高达 7 倍的预训练速度提升。这些改进扩展到多语言设置,我们在所有 101 种语言中衡量 mT5-Base 版本的增益。最后,我们通过在“Colossal Clean Crawled Corpus”上预训练多达万亿参数的模型来推进当前语言模型的规模,并实现比 T5-XXL 模型 4 倍的加速 ...
雷达传感器可在恶劣天气、照明和远距离条件下提供可靠的感知。基础模型的最新进展已经改变了视觉和语言理解,但它们与雷达传感的集成在很大程度上仍未得到充分探索。现有的雷达方法分散且针对特定任务;每个下游任务都采用不同的架构和培训目标,防止跨任务转移。在这项工作中,我们介绍了 RadarFM:一种雷达基础模型,通过结构化空间语言监督学习统一的场景级表示。我们做出了两个关键贡献:(1) 一个结构化标题框架,用于对本机雷达坐标中的车辆分布进行编码;(2) 一个哈希感知对比学习目标,用于量化连续场景相似性而不是二进制匹配,从而实现细粒度的空间推理。利用 CARLA 模拟器,我们在不同的驾驶场景中生成大规模、注释良好的雷达数据集。我们还提出了本地化感知指标,可以评估传统检测措施之外的空间准确性 ...
状态空间模型(尤其是 Mamba)的最新进展在为语言理解等任务建模长序列方面取得了重大进展。然而,它们在视觉任务中的应用并没有明显超越传统卷积神经网络(CNN)和视觉 Transformer (ViT)的性能。本文认为增强 Vision Mamba (ViM) 的关键在于优化序列建模的扫描方向。传统的 ViM 方法扁平化空间标记,忽略了局部 2D 依赖性的保留,从而拉长了相邻标记之间的距离。我们引入了一种新颖的局部扫描策略,将图像划分为不同的窗口,有效捕获局部依赖性,同时保持全局视角。此外,考虑到不同网络层对扫描模式的不同偏好,我们提出了一种动态方法来独立搜索每一层的最佳扫描选择,从而显着提高性能。跨普通模型和分层模型的广泛实验强调了我们的方法在有效捕获图像表示方面的优越性。例如,在相同 1.5G FLOP 的情况下,我们的模型在 ImageNet 上的性能明显优于 Vim-Ti 3.1%。代码可在以下位置获得:此 https URL ...
来自人类反馈的强化学习 (RLHF) 广泛应用于大型语言模型 (LLM) 对齐中。传统的强化学习可以建模为数据流,其中每个节点代表神经网络 (NN) 的计算,每条边表示 NN 之间的数据依赖关系。 RLHF 通过将每个节点扩展为分布式 LLM 训练或生成程序,并将每个边缘扩展为多对多多播,使数据流变得复杂。传统的 RL 框架使用单个控制器执行数据流来指示节点内计算和节点间通信,由于分布式节点内计算的控制调度开销较大,这在 RLHF 中效率较低。现有的RLHF系统采用多控制器范式,由于嵌套的分布式计算和数据通信,该范式可能不灵活。我们提出了 HybridFlow,它以混合方式结合了单控制器和多控制器范例,以实现 RLHF 数据流的灵活表示和高效执行。我们精心设计了一组分层 API,将复杂的 RLHF 数据流中的计算和数据依赖关系解耦和封装,从而允许高效的操作编排来实现 RLHF 算法,并将计算灵活映射到各种设备上。我们进一步设计了一个 3D-HybridEngine,用于在训练和生成阶段之间进行高效的参与者模型重新分片,具有零内存冗余并显着减少了通信开销。我们的实验结果表明,与最先进的基线相比,使用 HybridFlow 运行各种 RLHF 算法时,吞吐量提高了 1.53$\times$~20.57$\times$。 HybridFlow 源代码可从此 https URL 获取 ...