由大型语言模型(LLM)支持的自治代理在软件开发等各种场景中显示出实现高度自治的巨大潜力。最近的研究表明, LLM 代理人可以利用过去的经验来减少错误并提高效率。然而,静态经验范式依赖于启发式获得的过去经验的固定集合,缺乏迭代细化,从而阻碍了智能体的适应性。在本文中,我们介绍了迭代体验细化框架,使 LLM 代理能够在任务执行过程中迭代地细化体验。我们提出了两种基本模式:连续模式(根据任务批次中最近的经验进行精炼)和累积模式(获取所有先前任务批次中的经验)。该方法通过启发式经验消除的增强,优先考虑高质量和频繁使用的体验,有效管理体验空间并提高效率。大量实验表明,虽然连续模式可能会产生优异的结果,但累积模式可提供更稳定的性能。此外,经验消除有助于仅使用高质量子集的 11.54% 来实现更好的性能 ...

0 0 1 1 2026/01/17 arXiv:2405.04219v1 蛙isme

随着文本转语音(TTS)和语音转换(VC)等技术的快速发展,检测深度伪造语音变得越来越重要。然而,学术界和工业界都缺乏全面、直观的评估探测器的基准。现有数据集的语言多样性有限,并且缺乏现实生产环境中遇到的许多操作。为了填补这一空白,我们提出了 VoiceWukong,这是一个旨在评估 Deepfake 语音检测器性能的基准测试。为了构建数据集,我们首先收集了由 19 个先进且广泛认可的商业工具和 15 个开源工具生成的 Deepfake 语音。然后,我们创建了 38 个数据变体,涵盖六种类型的操作,构建了用于深度伪造语音检测的评估数据集。因此,VoiceWukong 包含 265,200 个英语和 148,200 个中文 Deepfake 语音样本。使用 VoiceWukong,我们评估了 12 个最先进的探测器。 AASIST2 实现了 13.50% 的最佳等错误率 (EER),而其他所有都超过了 20%。我们的研究结果表明,这些探测器在实际应用中面临着重大挑战,性能急剧下降。此外,我们还进行了一项有 300 多名参与者参与的用户研究。结果与 12 个检测器和多模型大语言模型(MLLM)(即 Qwen2-Audio)的性能进行了比较,其中不同的检测器和人类对不同欺骗级别的深度伪造语音表现出不同的识别能力,而 LALM 根本没有检测能力。此外,我们还提供了深度伪造语音检测排行榜,可在 {this https URL} 上公开获取 ...

0 0 0 0 2026/01/17 arXiv:2409.06348v1 hhhhh

尽管近年来图神经网络在分子性质预测任务中取得了巨大成功,但其在分布外(OOD)设置下的泛化能力仍待探索。与现有的学习判别表示进行预测的方法不同,我们提出了一种具有语义成分可识别性的生成模型,称为 SCI。我们证明,该生成模型中的潜在变量可以明确地识别为语义相关(SR)和语义不相关(SI)组件,这有助于通过涉及因果机制的最小变化属性来实现更好的 OOD 泛化。具体来说,我们首先制定从原子级到分子级的数据生成过程,其中潜在空间被分为SI子结构、SR子结构和SR原子变量。接下来,为了减少错误识别,我们限制 SR 原子变量的最小变化,并添加语义潜在子结构正则化,以减轻增强域变化下 SR 子结构的方差。在温和的假设下,我们证明了 SR 子结构的块式可识别性和 SR 原子变量的注释式可识别性。实验研究实现了最先进的性能,并在 3 个主流基准测试中的 21 个数据集上显示出总体改进。此外,所提出的 SCI 方法的可视化结果为预测结果提供了富有洞察力的案例研究和解释。该代码位于:此 https URL ...

0 0 0 0 2026/01/17 arXiv:2311.04837v1 zy_

大型语言模型(LLM)引起了人们越来越多的关注,人们担心它们被滥用来产生仇恨言论。在解决这一问题的所有努力中,仇恨言论检测器发挥着至关重要的作用。然而,不同检测器针对 LLM 生成的仇恨言论的有效性仍然很大程度上未知。在本文中,我们提出了 HateBench,这是一个针对 LLM 生成的仇恨言论对仇恨言论检测器进行基准测试的框架。我们首先构建了一个仇恨言论数据集,其中包含 7,838 个样本,这些样本由 6 个广泛使用的 LLM 生成,涵盖 34 个身份组,并由三个标记者进行了细致的注释。然后,我们评估了 LLM 生成的数据集上八个代表性仇恨言论检测器的有效性。我们的结果表明,虽然检测器通常可以有效识别 LLM 生成的仇恨言论,但随着新版本的 LLM 的出现,其性能会下降。我们还揭示了 LLM 驱动的仇恨活动的潜力,这是 LLM 给仇恨言论检测领域带来的新威胁。通过利用对抗性攻击和模型窃取攻击等先进技术,对手可以故意逃避检测器并自动化在线仇恨活动。最有力的对抗攻击达到了0.966的攻击成功率,并且通过具有可接受的攻击性能的模型窃取攻击,其攻击效率可以进一步提高$13-21\times$。我们希望我们的研究能够呼吁研究界和平台管理员采取行动,加强对这些新兴威胁的防御 ...

0 0 0 0 2026/01/17 arXiv:2501.16750v1 hhhhh

我们调查了在自动驾驶中进行特权计划的强化学习(RL)。该任务的最新方法是基于规则的,但是这些方法并未扩展到长时间的尾巴。另一方面,RL是可扩展的,并且不会遭受模仿学习等复杂错误 ...

0 0 0 0 2026/01/17 arXiv:2504.17838v3 布朗瓶

生成代理人工智能系统正在成为自动化复杂、多步骤任务的强大范例。然而,许多用于构建这些系统的现有框架引入了显着的复杂性、陡峭的学习曲线和大量的样板代码,阻碍了快速原型设计和部署。本文介绍了 simpliflow,这是一个轻量级的开源 Python 框架,旨在解决这些挑战。 simpliflow 通过基于 JSON 的声明性配置,实现线性、确定性代理工作流程的快速开发和编排。其模块化架构将代理管理、工作流执行和后处理解耦,提高了易用性和可扩展性。通过与 LiteLLM 集成,它支持 100 多种开箱即用的大型语言模型 (LLM)。我们介绍 simpliflow 的架构、操作流程和核心功能,通过从软件开发模拟到实时系统交互的各种用例展示其实用性。与 LangChain 和 AutoGen 等著名框架的比较分析突显了 simpliflow 作为在确定性工作流程环境中针对简单性、控制和速度进行优化的工具的独特地位 ...

0 0 0 0 2026/01/17 arXiv:2510.10675v2 humengliang

包括 LangChain、CrewAI 和 AutoGen 在内的多智能体人工智能系统 (MAS) 的快速出现,决定了大型语言模型 (LLM) 应用程序的开发和编排方式。然而,人们对这些系统如何演变以及在实践中如何维护知之甚少。本文提出了第一个针对开源 MAS 的大规模实证研究,分析了八个领先系统中超过 42K 的独特提交和超过 4700 个已解决的问题。我们的分析确定了三种不同的发展概况:持续、稳定和爆发驱动。这些概况反映了生态系统成熟度的巨大差异。完美提交占所有变更的 40.8%,这表明功能增强优先于纠正性维护 (27.4%) 和自适应更新 (24.3%)。有关问题的数据显示,最常见的问题涉及错误 (22%)、基础设施 (14%) 和代理协调挑战 (10%)。从 2023 年开始,所有框架的问题报告数量也急剧增加。解决时间中位数从不到一天到大约两周不等,分布偏向于快速响应,但少数问题需要长期关注。这些结果凸显了当前生态系统的势头和脆弱性,强调需要改进测试基础设施、文档质量和维护实践,以确保长期可靠性和可持续性 ...

0 0 0 0 2026/01/17 arXiv:2601.07136v1 humengliang

人工智能代理框架的兴起引入了代理技能、包含动态扩展代理功能的指令和可执行代码的模块化包。虽然这种架构支持强大的定制,但技能的执行需要隐式信任和最少的审查,从而创建了一个重要但未表征的攻击面。我们对这个新兴生态系统进行了首次大规模实证安全分析,从两个主要市场收集了 42,447 种技能,并使用 SkillScan(一种将静态分析与基于 LLM 的语义分类相结合的多阶段检测框架)系统地分析了 31,132 种技能。我们的研究结果揭示了普遍存在的安全风险:26.1% 的技能至少包含一个漏洞,涵盖四个类别的 14 种不同模式:提示注入、数据泄露、权限升级和供应链风险。数据泄露 (13.3%) 和权限升级 (11.8%) 最普遍,而 5.2% 的技能表现出高严重性模式,强烈暗示恶意意图。我们发现,捆绑可执行脚本的技能包含漏洞的可能性是纯指令技能的 2.12 倍(OR=2.12,p<0.001)。我们的贡献包括:(1) 源自 8,126 种易受攻击的技能的基础漏洞分类法,(2) 一种经过验证的检测方法,实现 86.7% 的精确度和 82.5% 的召回率,以及 (3) 一个开放的数据集和检测工具包以支持未来的研究。这些结果表明,在进一步利用这种攻击媒介之前,迫切需要基于能力的许可系统和强制安全审查 ...

0 0 0 0 2026/01/17 arXiv:2601.10338v1 admin1

准确识别重访的地点对于实体智能体的定位和导航至关重要。尽管摄像机视点和场景外观存在很大差异,但这要求视觉表示清晰。现有的视觉位置识别管道对“整个”图像进行编码并搜索匹配项。这对匹配从不同相机视角拍摄的同一地点的两幅图像提出了根本性的挑战:“重叠部分的相似性可能会被不重叠部分的差异所左右”。我们通过编码和搜索“图像片段”而不是整个图像来解决这个问题。我们建议使用开放集图像分割将图像分解为“有意义的”实体(即事物和东西)。这使我们能够创建一种新颖的图像表示形式,作为连接一个片段与其相邻片段的多个重叠子图的集合,称为“超级片段”。此外,为了有效地将这些 SuperSegment 编码为紧凑的向量表示,我们提出了一种新颖的特征聚合分解表示。我们表明,检索这些部分表示比典型的基于整个图像的检索具有显着更高的识别召回率。我们基于分段的方法被称为 SegVLAD,它在各种基准数据集上设置了一种新的最先进的就地识别,同时适用于通用和任务专用图像编码器。最后,我们通过在对象实例检索任务上评估我们的方法来展示我们的方法“重新访问任何东西”的潜力,该任务通过识别特定于某个地点的目标对象的共同目标,连接了两个不同的研究领域:视觉地点识别和对象目标导航。源代码:这个 https URL ...

0 0 0 0 2026/01/17 arXiv:2409.18049v1 fgl362135

大型音频语言模型 (LALM) 在从语音识别到一般音频理解的各种任务中展示了令人印象深刻的性能。然而,它们的可扩展性受到注意力的二次复杂度和音频信号的高 Token 率的限制。这些挑战使得将 LALM 扩展到长格式音频并将其部署在资源受限的平台(例如边缘设备)上变得困难。在本文中,我们探索了无监督分割、均匀平均池等技术,以减少 LALM 音频编码器生成的音频标记数量,但在它们被 LLM 解码器消耗之前。为了减轻压缩表示带来的潜在性能下降,我们采用低秩适配器来微调模型。我们在自动语音识别和语音到语音翻译任务这两个任务上评估我们提出的模型,这两个任务依赖于有效地揭示输入信号的潜在词汇内容,并研究下采样对这些任务的影响。实验结果表明,压缩的 LALM 可以实现更接近帧级 LALM 的性能,同时将输入音频 Token 计数减少到 LLM 主干之前的三倍 ...

0 0 0 0 2026/01/17 arXiv:2511.20973v1 18811558339