最近深度学习的成功很大程度上归功于用于训练深度神经网络的巨大数据量,这个http URL取得了空前的成功,不幸的是,海量数据显着增加了存储和传输的负担,并进一步带来了繁琐的模型训练过程。此外,依赖原始数据来训练 \emph{本身} 会产生对隐私和版权的担忧。为了缓解这些缺点,引入了数据集蒸馏(DD),也称为数据集压缩(DC),并且最近引起了社区的广泛研究关注。给定原始数据集,DD 的目标是导出包含合成样本的小得多的数据集,基于该数据集,经过训练的模型产生的性能与在原始数据集上训练的模型相当。在本文中,我们对DD及其应用的最新进展进行了全面的回顾和总结。我们首先正式介绍该任务,并提出一个整体算法框架,然后提出所有现有的 DD 方法。接下来,我们提供该领域当前方法的系统分类,并讨论它们的理论互连。我们还通过广泛的实验提出了 DD 当前的挑战,并展望了未来工作的可能方向 ...
在智能家居语音助手场景中,决定是否接受或拒绝用户查询是进行任何下游处理之前的第一步。针对当前语音助手的查询拒绝能力有限的问题,本文提出了第一个面向中文的开源智能家居基准测试和评估套件,以及基于大语言模型的个性化查询拒绝方法。在数据方面,我们构建了第一个针对家庭场景的多模态查询拒绝数据集,包含 11,913 个手动标记的文本语音对,系统地涵盖了 12 种典型的对话类型(例如闲聊、非人类声音、有效命令、模糊引用、与设备无关的请求)。提供细粒度标签、对话上下文和多轮信息,以支持跨语言和多模态大型模型的零样本和微调评估。在方法方面,我们提出了一个三层协作架构:首先,Qwen-2.5-3B适配器经过微调以建模与家族无关的语义边界;二是动态家庭级历史对话模块,捕捉个性化习惯;第三,一个家庭特定的RAG知识库,可以明确地记忆和修改过去的错误拒绝案例。实验表明,所提出的方法在构建的数据集上显着优于零样本和微调的通用 LLM ,对于特定家族的表达和复杂的多回合场景的拒绝精度有显着提高。该工作为智能家居语音交互可靠性研究提供了可重复的数据基础、评估标准和可扩展的技术框架 ...
最先进的对象检测网络依赖于区域提议算法来假设对象位置。 SPPnet 和 Fast R-CNN 等进步减少了这些检测网络的运行时间,使区域提议计算成为瓶颈。在这项工作中,我们引入了一个区域提议网络(RPN),它与检测网络共享全图像卷积特征,从而实现几乎免费的区域提议。 RPN 是一个全卷积网络,可同时预测每个位置的对象边界和对象性分数。 RPN 经过端到端训练以生成高质量的区域提案,Fast R-CNN 使用这些区域提案进行检测。我们通过共享 RPN 和 Fast R-CNN 的卷积特征,进一步将 RPN 和 Fast R-CNN 合并成一个网络——使用最近流行的带有“注意力”机制的神经网络术语,RPN 组件告诉统一网络去哪里看。对于非常深的 VGG-16 模型,我们的检测系统在 GPU 上的帧速率为 5fps(包括所有步骤),同时在 PASCAL VOC 2007、2012 和 MS COCO 数据集上实现最先进的对象检测精度,每个图像仅包含 300 个提案。在 ILSVRC 和 COCO 2015 比赛中,Faster R-CNN 和 RPN 是多个赛道第一名获奖作品的基础。代码已公开 ...
Achieving both realism and controllability in closed-loop traffic simulation remains a key challenge in autonomous driving. Dataset-based methods reproduce realistic trajectories but suffer from covariate shift in closed-loop deployment, compounded by simplified dynamics models that further reduce reliability. Conversely, physics-based simulation methods enhance reliable and controllable closed-loop interactions but often lack expert demonstrations, compromising realism. To address these challenges, we introduce a dual-stage AV-centric simulation framework that conducts imitation learning pre-training in a data-driven simulator to capture trajectory-level realism and route-level controllability, followed by reinforcement learning fine-tuning in a physics-based simulator to enhance style-level controllability and mitigate covariate shift. In the fine-tuning stage, we propose RIFT, a novel group-relative RL fine-tuning strategy that evaluates all candidate modalities through group-relative formulation and employs a surrogate objective for stable optimization, enhancing style-level controllability and mitigating covariate shift while preserving the trajectory-level realism and route-level controllability inherited from IL pre-training. Extensive experiments demonstrate that RIFT improves realism and controllability in traffic simulation while simultaneously exposing the limitations of modern AV systems in closed-loop evaluation. Project Page: this https URL
与人类一样,大型语言模型 (LLM) 并不总是在第一次尝试时生成最佳输出。受人类如何完善书面文本的启发,我们引入了 Self-Refine,这是一种通过迭代反馈和完善来改进 LLM 初始输出的方法。主要思想是使用 LLM 生成初始输出;然后,相同的 LLM 为其输出提供反馈,并使用它迭代地完善自身。 Self-Refine 不需要任何监督训练数据、额外训练或强化学习,而是使用单个 LLM 作为生成器、优化器和反馈提供者。我们使用最先进的(GPT-3.5、ChatGPT 和 GPT-4)LLM 在 7 个不同的任务中评估 Self-Refine,从对话响应生成到数学推理。在所有评估的任务中,与使用传统一步生成的相同 LLM 生成的输出相比,通过 Self-Refine 生成的输出更受人类和自动指标的青睐,任务性能平均绝对提高约 20%。我们的工作表明,即使是像 GPT-4 这样最先进的 LLM ,也可以使用我们简单、独立的方法在测试时得到进一步改进 ...
LLM 具有先进的文本到 SQL 生成功能,但整体架构难以应对复杂的推理和模式多样性。我们提出了 AGENTIQL,一个受代理启发的多专家框架,它结合了用于问题分解的推理代理、用于子查询生成的编码代理和用于列选择的细化步骤。自适应路由器通过在我们的模块化管道和基线解析器之间进行选择,进一步平衡效率和准确性。管道中的多个步骤可以并行执行,使框架可扩展到更大的工作负载。根据 Spider 基准评估,AGENTIQL 提高了执行准确性和可解释性,并使用 Planner&Executor 合并策略在 14B 模型中实现了高达 86.07% 的 EX。所获得的性能取决于路由机制的功效,从而缩小了与基于 GPT-4 的 SOTA (89.65% EX) 的差距,同时使用更小的开源 LLM。除了准确性之外,AGENTIQL 还通过公开中间推理步骤来增强透明度,提供强大、可扩展且可解释的语义解析方法 ...
大型语言模型 (LLM) 代理是由 LLM 提供支持的自治系统,能够利用一组工具进行推理和规划来解决问题。然而,LLM 代理中多工具功能的集成在安全管理工具、确保其兼容性、处理依赖关系以及保护 LLM 代理工作流程中的控制流方面带来了挑战。在本文中,我们首次对支持多工具的 LLM 代理中的任务控制流进行系统的安全分析。我们发现了一种新的威胁,即跨工具收集和污染(XTHP),它包括多个攻击向量,首先劫持代理任务的正常控制流,然后收集和污染 LLM 代理系统内的机密或私人信息。为了了解这种威胁的影响,我们开发了 Chord,这是一种动态扫描工具,旨在自动检测容易受到 XTHP 攻击的现实世界代理工具。我们对来自两个主要 LLM 代理开发框架 LangChain 和 LlamaIndex 的存储库中的 66 个实际工具进行了评估,发现了一个重大的安全问题:75% 的工具容易受到 XTHP 攻击,这凸显了这种威胁的普遍性 ...
由于多智能体强化学习(MARL)的广泛应用,了解针对 MARL 模型的对抗性攻击的影响对于该模型的安全应用至关重要。受此启发,我们研究了对抗性攻击对 MARL 的影响。在所考虑的设置中,存在一个外源攻击者,他能够在代理收到奖励之前修改奖励,或者在环境收到奖励之前操纵操作。攻击者的目标是引导每个代理遵循目标策略或在攻击者选择的某些特定奖励函数下最大化累积奖励,同时最小化对反馈和操作的操纵量。我们首先展示仅动作中毒攻击和仅奖励中毒攻击的局限性。然后,我们引入包含动作中毒和奖励中毒的混合攻击策略。我们表明,即使攻击者没有关于底层环境和代理算法的先验信息,混合攻击策略也可以有效地攻击 MARL 代理 ...
近年来,大型语言模型(LLM)与多代理系统(MAS)集成时在数据分析方面表现出了卓越的能力。然而,这些系统经常难以应对复杂的任务,涉及不同的功能要求和复杂的数据处理挑战,需要缺乏广泛适用性的定制解决方案。此外,当前的 MAS 无法模仿基本的类人特征,例如动态环境中的自我规划、自我监控和协作工作,导致效率低下和资源浪费。为了解决这些限制,我们提出了 ROMAS,一种新颖的基于角色的多代理系统,旨在适应各种场景,同时实现低代码开发和一键部署。 ROMAS 已有效部署在 DB-GPT [Xue 等人, 2023a, 2024b] 中,这是一个利用 LLM 支持的数据库分析的著名项目,展示了其在现实场景中的实用性。通过集成基于角色的协作机制进行自我监控和自我规划,并利用现有的 MAS 功能来增强数据库交互,ROMAS 提供了更有效、更通用的解决方案。 ROMAS 的实验评估证明了其在多种场景下的优越性,凸显了其推进多智能体数据分析领域的潜力 ...
现有的视频编辑方法面临着一个关键的权衡:专家模型提供了精度,但依赖于特定于任务的先验(例如掩模),阻碍了统一;相反,统一的时间上下文学习模型是无掩模的,但缺乏明确的空间线索,导致指令到区域的映射较弱和定位不精确。为了解决这一冲突,我们提出了 VideoCoF,这是一种受思想链推理启发的新颖的框架链方法。 VideoCoF 通过强制视频扩散模型在生成目标视频标记之前首先预测推理标记(编辑区域潜伏)来强制执行“查看、推理、然后编辑”过程。这种显式推理步骤消除了对用户提供的掩码的需要,同时实现精确的指令到区域对齐和细粒度视频编辑。此外,我们引入了一种 RoPE 对齐策略,利用这些推理标记来确保运动对齐并实现超出训练持续时间的长度外推。我们证明了这一点仅 50k 视频对的数据成本,VideoCoF 在 VideoCoF-Bench 上实现了最先进的性能,验证了我们的方法的效率和有效性,可以在此 https URL 上获得 ...