多模态大型语言模型 (MLLM) 在跨多种数据模态处理和生成内容方面表现出了卓越的能力。然而,MLLM 的一个显着缺点是它们依赖静态训练数据,导致信息过时和上下文感知有限。这种静态性质阻碍了他们提供准确和最新响应的能力,特别是在动态或快速发展的环境中。虽然集成多模态检索增强生成(Multimodal RAG)提供了一个有前途的解决方案,但系统不可避免地会遇到多粒度噪声对应(MNC)问题,这阻碍了准确的检索和生成。在这项工作中,我们提出了 RagVL,一种具有知识增强重排序和噪声注入训练的新颖框架,以解决这些限制。我们使用简单而有效的指令模板对 MLLM 进行指令调整,以诱导其排名能力,并将其用作重新排名器以精确过滤前 k 个检索到的图像。对于生成,我们在数据和 Token 级别的训练期间注入视觉噪声,以增强生成器的鲁棒性。对需要检索和推理图像以回答给定查询的两个数据集的子集进行的广泛实验验证了我们方法的有效性。代码和模型可从此 https URL 获取 ...
自回归大型语言模型 (LLM) 的快速发展显着提高了生成文本的质量,因此需要可靠的机器生成文本检测器。大量带有AI片段的检测器和集合已经出现,根据这些集合中的目标指标,一些检测方法甚至显示出高达99.9%的识别质量。然而,此类检测器的质量在野外往往会急剧下降,这就提出了一个问题:检测器实际上是否高度可信,或者它们的高基准分数是否来自评估数据集的质量差?在本文中,我们强调需要稳健和定性的方法来评估生成的数据,以防止未来模型的偏差和低泛化能力。我们对人工智能生成内容检测竞赛的数据集进行了系统回顾,并提出了评估包含人工智能生成片段的数据集质量的方法。此外,我们讨论了使用高质量生成数据来实现两个目标的可能性:改进检测模型的训练和改进训练数据集本身。我们的贡献旨在促进更好地理解人类和机器文本之间的动态,这最终将支持日益自动化的世界中信息的完整性。该代码可从此 https URL 获取 ...
预填充解码 (PD) 分解已成为现代 LLM 推理引擎的标准架构,可减轻两种不同工作负载的干扰。随着聊天机器人和代理系统对多回合交互的需求不断增长,我们重新审视了这种情况下的 PD,发现了两个根本性的低效率:(1)每个回合都需要预填充上一轮的新提示和响应,(2)预填充和解码节点之间重复的 KV 传输使带宽饱和,导致高延迟甚至服务降级。我们的主要见解是,并非所有预填充操作都具有同等的破坏性:附加预填充——仅处理新的输入 Token ,同时重用缓存的 KV 状态——与完全预填充相比,解码速度显着减少。这促使路由附加预填充在本地解码节点。然而,通过综合分析,我们发现没有单一的固定路由策略可以同时满足所有服务级别目标(SLO)。基于这一见解,我们提出了 Prefill Prefill-capable Decode (PPD) 分解,这是一种动态路由系统,它决定何时使用缓存的 KV 状态在解码节点上本地处理 Turn 2+ 请求。 PPD 通过可配置的权重适应不同的 SLO,并与传统 PD 部署无缝集成。通过广泛的评估,我们表明 PPD 将第 2+ 轮首次 Token 时间 (TTFT) 减少了 68%,同时保持有竞争力的每个输出 Token 时间 (TPOT),有效缓解高负载下的 KV 传输拥塞。我们相信 PPD 代表了多轮 LLM 服务的灵活高效的范例 ...
变形金刚最近在 ASR 领域占据主导地位。虽然能够产生良好的性能,但它们涉及自回归(AR)解码器来一一生成 Token ,这在计算上效率低下。为了加快推理速度,可以使用非自回归 (NAR) 方法,例如单步 NAR 的设计是为了实现并行生成。然而,由于输出标记内的独立性假设,单步 NAR 的性能不如 AR 模型,尤其是在大规模语料库的情况下。改进单步 NAR 面临两个挑战:首先是准确预测输出 token 的数量并提取隐藏变量;其次,加强输出 Token 之间相互依赖关系的建模。为了应对这两个挑战,我们提出了一种快速且准确的并行 Transformer ,称为 Paraformer。这利用基于连续积分和激发的预测器来预测 Token 的数量并生成隐藏变量。然后,扫视语言模型 (GLM) 采样器生成语义嵌入,以增强 NAR 解码器对上下文相互依赖进行建模的能力。最后,我们设计了一种策略来生成负样本以进行最小错误率训练,以进一步提高性能。使用公共 AISHELL-1、AISHELL-2 基准测试和工业级 20,000 小时任务的实验表明,所提出的 Paraformer 可以达到与最先进的 AR Transformer 相当的性能,并且加速超过 10 倍 ...
通过多轮对话与人类交互是大型语言模型(LLM)的基本特征。然而,现有执行多轮会话的LLM服务引擎由于需要重复计算历史 Token 的键值(KV)缓存而效率低下,从而产生高昂的服务成本。为了解决这个问题,本文提出了 CachedAttention,这是一种新的注意力机制,可以在多轮对话中重用 KV 缓存,从而显着减少重复计算开销。 CachedAttention 维护一个分层的 KV 缓存系统,利用经济高效的内存/存储介质来保存所有请求的 KV 缓存。为了减少慢速介质的 KV 缓存访问开销,CachedAttention 采用分层预加载和异步保存方案,将 KV 缓存访问与 GPU 计算重叠。为了确保要访问的 KV 缓存放置在最快的层次结构中,CachedAttention 采用调度程序感知的获取和驱逐方案,根据推理作业调度程序的提示有意识地将 KV 缓存放置在不同的层中。为了避免由于上下文窗口溢出而导致保存的 KV 缓存失效,CachedAttention 通过解耦位置编码并有效截断 KV 缓存,使保存的 KV 缓存保持有效。大量实验结果表明,CachedAttention 显着减少了第一个 Token (TTFT) 的时间高达 87%,将多轮对话的提示预填充吞吐量提高高达 7.8$\times$,并将端到端推理成本降低高达 70% ...
大型语言模型 (LLM) 的范式越来越多地转向代理应用程序,其中 Web 浏览功能是从不同在线源检索信息的基础。然而,现有的开源网络代理要么在复杂任务上表现出有限的信息查找能力,要么缺乏透明的实现。在这项工作中,我们发现关键的挑战在于缺乏用于信息搜索的挑战性数据。为了解决这个限制,我们引入了 WebExplorer:一种使用基于模型的探索和迭代、从长到短的查询演化的系统数据生成方法。此方法创建具有挑战性的查询-答案对,需要多步骤推理和复杂的网络导航。通过利用我们精心策划的高质量数据集,我们通过监督微调和强化学习,成功开发了先进的网络代理 WebExplorer-8B。我们的模型支持 128K 上下文长度和最多 100 次工具调用,从而实现长期问题解决。在各种信息检索基准测试中,WebExplorer-8B 在其规模上实现了最先进的性能。值得注意的是,作为 8B 大小的模型,WebExplorer-8B 在 RL 训练后能够有效搜索平均 16 轮,在 BrowseComp-en/zh 上实现比 WebSailor-72B 更高的精度,并在 WebWalkerQA 和 FRAMES 上达到 100B 参数的模型中获得最佳性能。除了这些信息搜索任务之外,我们的模型还在 HLE 基准上实现了很强的泛化,尽管它只接受了知识密集型 QA 数据的训练。这些结果凸显了我们的方法是实现长期网络代理的实用途径 ...
小物体检测仍然是物体检测领域的一个具有挑战性的问题。为了应对这一挑战,我们提出了一种基于 YOLOv8 的增强模型 SOD-YOLO。该模型在颈部集成了 ASF 机制以增强多尺度特征融合,添加了小物体检测层(称为 P2)以提供更高分辨率的特征图以实现更好的小物体检测,并采用 Soft-NMS 来细化置信度分数并保留真阳性。实验结果表明,SOD-YOLO 显着提高了检测性能,与基线模型相比,VisDrone2019-DET 数据集上的 mAP$_{50:95}$ 提高了 36.1%,mAP$_{50}$ 提高了 20.6%。这些增强功能使 SOD-YOLO 成为无人机图像中小物体检测的实用且高效的解决方案。我们的源代码、超参数和模型权重可在此 https URL 中获取 ...
端到端(E2E)自动驾驶最近吸引了越来越多的兴趣,将视觉-语言-行动(VLA)与世界模型相结合,以增强决策能力和前瞻性想象力。然而,由于潜在状态共享不足,现有方法无法在单一架构中有效地统一未来场景演化和动作规划,从而限制了视觉想象力对动作决策的影响。为了解决这一限制,我们提出了 DriveWorld-VLA,这是一种新颖的框架,通过在表示级别紧密集成 VLA 和世界模型,在潜在空间内统一世界建模和规划,这使得 VLA 规划器能够直接从整体场景演化建模中受益,并减少对密集注释监督的依赖。此外,DriveWorld-VLA 将世界模型的潜在状态作为 VLA 规划器的核心决策状态,帮助规划器评估候选动作如何影响未来的场景演化。通过完全在潜在空间中进行世界建模,DriveWorld-VLA 支持特征级别的可控、动作条件想象,从而避免昂贵的像素级部署。广泛的开环和闭环评估证明了 DriveWorld-VLA 的有效性,它实现了最先进的性能,NAVSIMv1 上的 PDMS 为 91.3,NAVSIMv2 上的 EPDMS 为 86.8,nuScenes 上的 3 秒平均碰撞率为 0.16。代码和模型将在此 https URL 中发布 ...
现代基于 GPU 的高性能计算集群通过异构节点内互连和节点间网络提供前所未有的通信带宽。然而,尽管总带宽如此之高,许多现实世界的通信模式仍无法充分利用可用的硬件。流量倾斜通常会导致一小部分链路过度饱和,而其他链路仍未得到充分利用,从而导致拥塞、延迟峰值和可扩展性差。现有的通信框架(例如带有 UCX 的 NCCL 和 MPI)通常依赖于静态最快路径路由或基于散列的多轨条带化,当运行时流量偏离预期分布时,这会留下大量未使用的带宽。为了解决这些限制,我们提出 NIMBLE(具有执行时编排的节点互连多路径平衡),这是一种运行时通信编排系统,可动态重新分配流量以平衡所有可用节点内和节点间路径的链路利用率。 NIMBLE 将其表述为容量归一化最小拥塞优化问题,并使用乘法权重算法有效地解决该问题。它还采用基于 CUDA 感知的 GPU 内核的 RDMA 流水线,通过中间 GPU 和轨道匹配的 NIC 路由流量。该系统是端点驱动的,与现有通信库透明集成,无需更改应用程序,并保留顺序、确定性和低开销。在具有完全连接的 NVLink 和四个 NDR400 导轨的 H100-SXM4 节点上,与单路径基准相比,NIMBLE 可实现高达 2.3 倍的节点内带宽和 3.8 倍的节点间吞吐量。它在倾斜的 All-to-Allv 工作负载上比 NCCL 和 MPI 高出高达 5.2 倍,在端到端 LLM MoE 工作负载上比 NCCL 和 MPI 高出 1.35 倍,同时在平衡流量下匹配基准性能 ...
在自动驾驶车辆和自动驾驶范例中,车辆之间通过无线通信进行协作感知或交换传感器信息增加了一个新的维度。一般来说,自动驾驶车辆是一种特殊类型的机器人,由于功能安全性,需要实时、高度可靠的传感器输入。自动驾驶车辆配备了相当数量的传感器,以提供不同所需的传感器数据来做出驾驶决策并与周围其他车辆共享。 ROS2中包含的数据分发服务(DDS)作为通信中间件已经证明了其作为可靠的实时分布式系统的潜在能力。 DDS 附带一种称为域的范围机制。每当 ROS2 进程启动时,它都会创建一个 DDS 参与者。需要注意的是,单个域中允许的参与者数量是有限制的。高效处理众多车载传感器及其消息需要在单个车辆中使用多个 ROS2 节点。此外,在协作感知范例中,当车辆作为单个 ROS2 节点运行时,可能需要大量 ROS2 节点。由于 DDS 参与者的限制,这些 ROS2 节点不能属于单个域;因此,不同域的通信是不可避免的。此外,DDS有不同供应商特定的实现,每个供应商都有自己的配置,这是ROS2节点之间不可避免的通信催化剂。车辆或机器人或ROS2节点之间的通信直接取决于供应商特定的配置、数据类型、数据大小以及用作中间件的DDS实现;在我们的研究中,我们评估和调查了针对不同传感器数据类型的各种供应商特定的 DDS 实现的不同域通信的局限性、功能和前景 ...