遥感图像中的变化检测对于城市规划、环境监测和灾害管理等应用至关重要。传统的变化检测方法通常识别两个时间图像之间的所有变化,而不区分过渡的类型,这可能导致结果可能与特定用户需求不符。尽管语义变化检测方法试图通过将变化分类为预定义的类来解决这个问题,但这些方法依赖于严格的类定义和固定的模型架构,使得很难将数据集与不同的标签集混合或跨任务重用模型,因为输出通道与语义类的数量和类型紧密耦合。为了克服这些限制,我们引入了参考变化检测(RCD),它利用自然语言提示来检测遥感图像中特定类别的变化。通过将语言理解与视觉分析相结合,我们的方法允许用户指定他们感兴趣的确切变化类型。然而,由于注释数据的可用性有限以及现有数据集中严重的类别不平衡,RCD 的训练模型具有挑战性。为了解决这个问题,我们提出了一个两阶段框架,其中包括(I)\textbf{RCDNet},一个为引用变化检测而设计的跨模态融合网络,以及(II)\textbf{RCDGen},一个基于扩散的合成数据生成管道,仅使用变化前图像生成真实的变化后图像和指定类别的变化图,而不依赖语义分割掩模,从而显着降低可扩展数据创建的障碍。跨多个数据集的实验表明,我们的框架能够实现可扩展且有针对性的变化检测。项目网站在这里:https URL ...
自动出价通过自动为广告商提供出价,对于促进在线广告至关重要。尽管之前的工作在对竞价环境进行建模以实现更好的广告效果方面付出了巨大的努力,但由于这些模型通常是针对特定的竞价场景而定制的,因此在跨环境的通用性方面存在局限性。为此,我们通过一个统一的函数来估计特定出价下所达到的效果,例如预算消耗、商品总销量(GMV)、页面浏览量等,从而达到场景无关的原则。然后,我们提出了一个出价基础模型Bid2X,从各种场景的数据中学习这一基本函数。我们的 Bid2X 建立在统一的系列嵌入之上,通过定制的嵌入方法对异构数据进行编码。为了捕获投标数据中复杂的变量间和动态时间依赖性,我们提出了两种注意力机制,分别将不同变量的嵌入和不同时间的嵌入视为表示学习的注意力标记。在学习到的变量和时间表示之上,变量感知融合模块用于执行自适应投标结果预测。为了对独特的投标数据分布进行建模,我们设计了一个零膨胀投影模块,将估计的非零概率纳入其价值预测,这构成了包含分类和回归的联合优化目标。事实证明,该目标收敛于零膨胀分布。我们的模型已部署在全球最大的电子商务平台之一淘宝的广告平台上。对八个数据集的离线评估显示了 Bid2X 相对于各种基线的优越性及其在不同场景下的通用性。 Bid2X在线A/B测试中GMV提高了4.65%,ROI提高了2.44%,为计算广告中的竞价基础模型铺平了道路 ...
推荐系统旨在满足用户的日常需求。虽然大多数现有研究都集中在最大限度地提高用户与系统的参与度,但最近有人指出,用户返回服务的频率也反映了推荐的质量和稳定性。然而,优化这种用户保留行为并非易事,并且带来了一些挑战,包括棘手的离开和返回用户活动、信号稀疏和延迟,以及用户保留和他们对推荐列表中每个项目的即时反馈之间的不确定关系。在这项工作中,我们将保留信号视为用户会话结束满意度的总体估计,并建议通过概率流来估计该信号。这种基于流程的建模技术可以将保留奖励反向传播到用户会话中的每个推荐项目,并且我们表明,该流程与传统的学习排名目标相结合,最终优化了即时用户反馈和用户保留的无折扣累积奖励。我们通过对两个公共数据集的离线实证研究和工业平台中的在线 A/B 测试来验证我们方法的有效性 ...
自动出价是广告商提高广告效果的重要工具。最近的进展表明,与典型的基于离线强化学习 (RL) 的自动投标方法相比,人工智能生成投标 (AIGB) 从离线数据中学习条件生成规划器,具有卓越的性能。然而,现有的 AIGB 方法仍然面临性能瓶颈,因为它们固有地无法探索静态离线数据集之外的数据。为了解决这个问题,我们提出了 {AIGB-Pearl}(\emph{{P}lanning with {E}valu{A}tor via RL}),这是一种集成生成规划和策略优化的新颖方法。 AIGB-Pearl 的核心在于构建一个轨迹评估器来对生成质量进行评分,并设计一个可证明合理的 KL-Lipschitz 约束分数最大化方案,以确保离线数据集之外的安全高效的探索。进一步设计了一种结合同步耦合技术的实用算法,以确保所提出方案所需的模型规律性。对模拟和现实世界广告系统的广泛实验证明了我们方法的最先进的性能 ...
尽管多模态大语言模型 (MLLM) 在不同领域表现出了强大的能力,但它们在自动驾驶中生成细粒度 3D 感知和预测输出的应用仍未得到充分探索。在本文中,我们提出了 DrivePI,一种新颖的空间感知 4D MLLM,它作为统一的视觉-语言-动作 (VLA) 框架,也与视觉-动作 (VA) 模型兼容。我们的方法通过端到端优化并行地联合执行空间理解、3D 感知(即 3D 占用)、预测(即占用流)和规划(即动作输出)。为了获得精确的几何信息和丰富的视觉外观,我们的方法将点云、多视图图像和语言指令集成在统一的 MLLM 架构中。我们进一步开发了一个数据引擎来生成文本占用和文本流 QA 对,以实现 4D 空间理解。值得注意的是,仅使用 0.5B Qwen2.5 模型作为 MLLM 主干,DrivePI 作为单个统一模型即可匹配或超过现有的 VLA 模型和专用 VA 模型。具体来说,与 VLA 模型相比,DrivePI 在 nuScenes-QA 上的平均准确度比 OpenDriveVLA-7B 高出 2.5%,并且在 nuScenes 上比 ORION 的碰撞率降低了 70%(从 0.37% 到 0.11%)。相对于专门的 VA 模型,DrivePI 在 OpenOcc 上的 3D 占用率超过 FB-OCC 10.3 RayIoU,将 OpenOcc 上的占用流的 mAVE 从 0.591 降低到 0.509,并且在 nuScenes 规划中实现比 VAD(从 0.72m 到 0.49m)低 32% 的 L2 误差。代码将在此 https URL 中提供 ...
现有的板外 3D 探测器始终遵循模块化管道设计,以利用无限的顺序点云。我们发现,板外 3D 探测器的全部潜力没有得到充分发挥,主要有两个原因:(1) 板载多目标跟踪器无法生成足够完整的目标轨迹,(2) 目标的运动状态对利用长期时间上下文表示的以目标为中心的细化阶段提出了不可避免的挑战。为了解决这些问题,我们提出了一种新颖的机外 3D 对象检测范例,名为 DetZero。具体来说,提出了一种与多帧检测器相结合的离线跟踪器,以关注生成的对象轨迹的完整性。提出了一种注意机制细化模块,以加强跨长期顺序点云的上下文信息交互,以使用分解回归方法进行对象细化。 Waymo 开放数据集上的大量实验表明,我们的 DetZero 优于所有最先进的机载和机外 3D 检测方法。值得注意的是,DetZero 以 85.15 mAPH (L2) 的检测性能在 Waymo 3D 物体检测排行榜上排名第一。进一步的实验以如此高质量的结果验证了替代人类标签的应用。我们的实证研究导致了对惯例的重新思考和有趣的发现,可以指导未来的机外 3D 物体检测研究 ...
尖端的代理人工智能系统建立在基础模型的基础上,这些模型可以适应计划、推理以及与外部工具交互,以执行日益复杂和专业的任务。随着这些系统的能力和范围不断增长,适应成为提高性能、可靠性和通用性的核心机制。在本文中,我们将快速扩展的研究领域统一到一个涵盖代理适应和工具适应的系统框架中。我们进一步将它们分解为代理适应的工具执行信号和代理输出信号形式,以及工具适应的代理不可知和代理监督形式。我们证明,该框架有助于阐明代理人工智能中适应策略的设计空间,使它们的权衡变得明确,并为系统设计过程中选择或切换策略提供实用指导。然后,我们回顾每个类别的代表性方法,分析它们的优势和局限性,并强调关键的开放挑战和未来机遇。总的来说,本文旨在为寻求构建更强大、更高效、更可靠的代理人工智能系统的研究人员和从业者提供概念基础和实践路线图 ...
多模态大语言模型(MLLM)由于其强大的多模态理解能力,最近成为研究的焦点。例如,在音频和语音领域, LLM 可以通过连接音频编码器计算的音频标记和文本标记来配备(自动)语音识别(ASR)能力,以实现最先进的结果。相反,像视觉和视听语音识别(VSR/AVSR)这样的任务也利用了噪声不变的嘴唇运动信息,但很少或根本没有受到关注。为了弥补这一差距,我们提出了 Llama-AVSR,这是一种具有强大视听语音识别能力的新型 MLLM。它利用预先训练的音频和视频编码器来生成特定于模态的标记,这些标记与文本标记一起由预先训练的 LLM(例如 Llama3.1-8B)进行处理,以自回归方式产生结果响应。 Llama-AVSR 需要少量可训练参数,因为仅训练特定模态投影仪和 LoRA 模块,而多模态编码器和 LLM 保持冻结。我们在最大的公共 AVSR 基准测试 LRS3 上评估了我们提出的方法,并在 ASR 和 AVSR 任务中取得了最新的结果,WER 分别为 0.79% 和 0.77%。为了支持我们的结果,我们研究了支撑 Llama-AVSR 有效性的关键因素:预训练编码器和 LLM 的选择、LoRA 模块的有效集成以及通过模态感知压缩率获得的最佳性能与效率权衡 ...
我们提出了一种多智能体分布式强化学习算法,可以在潜在冲突的短期奖励和稀疏、延迟的长期奖励之间取得平衡,并在动态环境中利用部分信息进行学习。我们比较不同的长期奖励,以激励算法最大化个人收益和整体社会福利。我们在两个模拟拍卖游戏中测试了该算法,并证明:1)我们的算法在直接竞争中优于两个基准算法,但会增加社会福利成本;2)我们的算法的激进竞争行为可以通过长期奖励信号来指导,以最大化个人收益和整体社会福利 ...
实时竞价 (RTB) 在在线广告生态系统中发挥着关键作用。广告商采用战略出价来优化其广告效果,同时遵守各种财务限制,例如投资回报率 (ROI) 和每次点击费用 (CPC)。传统方法主要关注具有固定预算约束的投标,无法有效管理动态预算分配问题,其目标是在共享预算的情况下实现跨多个渠道的投标绩效的全局优化。在本文中,我们提出了一种用于多渠道出价优化的分层多智能体强化学习框架。在该框架中,顶层策略采用CPC约束扩散模型,根据通道之间的独特特征和复杂的相互依赖关系动态分配预算,而底层策略采用状态-动作解耦的actor-critic方法来解决由于分布外动作引起的离线学习中的外推误差问题,并采用基于上下文的元通道知识学习方法来提高基于不同通道之间共享知识的策略的状态表示能力。对美团广告竞价平台的大规模真实工业数据集进行的综合实验表明,我们的方法实现了最先进的性能 ...