像 Claude Code 这样的 LLM 代理不仅可以编写代码,还可以用于自主人工智能研究和工程 \citep{rank2026posttrainbench, novikov2025alphaevolve}。我们展示了由 Claude Code 支持的 \emph{autoresearch} 式管道 \citep{karpathy2026autoresearch} 发现了新颖的白盒对抗性攻击 \textit{algorithms},该攻击 \textbf{在越狱和提示注入评估中显着优于所有现有(30+)方法}。从现有的攻击实现(例如 GCG~\citep{zou2023universal})开始,代理迭代生成新算法,在针对 GPT-OSS-Safeguard-20B 的 CBRN 查询上实现高达 40\% 的攻击成功率,而现有算法的 $\leq$10\% 则达到(\Cref{fig:teaser},左)。发现的算法概括为:在代理模型上优化的攻击直接转移到保留模型,针对 Meta-SecAlign-70B}\citep{chen2025secalign} 实现 \textbf{100\% ASR},而最佳基线为 56\%(\Cref{fig:teaser},中)。扩展 ~\cite{carlini2025autoadvexbench} 的发现,我们的结果是一个早期证明,可以使用 LLM 代理实现增量安全和安保研究的自动化。白盒对抗性红队特别适合这种情况:现有方法提供了强有力的起点,优化目标产生密集的定量反馈。我们在此 https URL 发布了所有已发现的攻击以及基准实现和评估代码 ...
在本文中,我们介绍了Mask2Map,这是一种专为自动驾驶应用而设计的新颖的端到端在线高清地图构建方法。我们的方法侧重于预测场景中地图实例的类和有序点集,以鸟瞰图 (BEV) 表示。 Mask2Map 由两个主要组件组成:实例级掩模预测网络(IMPNet)和掩模驱动地图预测网络(MMPNet)。 IMPNet 生成掩码感知查询和 BEV 分段掩码以捕获全局的全面语义信息。随后,MMPNet 通过两个子模块使用本地上下文信息增强这些查询特征:位置查询生成器(PQG)和几何特征提取器(GFE)。 PQG 通过将 BEV 位置信息嵌入到掩模感知查询中来提取实例级位置查询,而 GFE 利用 BEV 分割掩模来生成点级几何特征。然而,我们观察到 Mask2Map 的性能有限,这是由于 IMPNet 和 MMPNet 之间对地面实况 (GT) 匹配的不同预测导致网络间不一致。为了应对这一挑战,我们提出了网络间去噪训练方法,该方法指导模型对受噪声 GT 查询和扰动 GT 分割掩模影响的输出进行去噪。我们对 nuScenes 和 Argoverse2 基准进行的评估表明,Mask2Map 比以前最先进的方法实现了显着的性能改进,分别提高了 10.1% mAP 和 4.1 mAP。我们的代码可以在此 https URL 中找到 ...
生成检索(GR)已成为一种有前途的范例,可以在单个概率框架内统一索引和搜索。然而,现有方法存在两个内在冲突:(1)优化阻塞,其中离散索引的不可微本质造成梯度阻塞,将索引构建与下游检索目标解耦; (2) 几何冲突,其中标准非标准化内积目标导致常态通货膨胀不稳定,导致流行的“中心”项目在几何上掩盖了相关的长尾项目。为了系统地解决这些错位,我们提出了可微分几何索引(DGI)。首先,为了弥补优化差距,DGI 强制执行操作统一。它通过 Gumbel-Softmax 采用 Soft Teacher Forcing 来建立完全可微分的路径,并结合对称权重共享来有效地将量化器的索引空间与检索器的解码空间对齐。其次,为了恢复几何保真度,DGI 引入了各向同性几何优化。我们用单位超球面上的缩放余弦相似度替换内积逻辑,以有效地将流行度偏差与语义相关性分离。在大规模行业搜索数据集和在线电子商务平台上进行的大量实验表明,DGI 的性能优于具有竞争力的稀疏、密集和生成基线。值得注意的是,DGI 在长尾场景中表现出卓越的鲁棒性,验证了协调结构可微性与几何各向同性的必要性 ...
即时注入会给现实世界的 LLM 应用程序(尤其是自主代理)带来严重的安全风险。尽管已经提出了许多防御措施,但它们针对自适应攻击的稳健性仍未得到充分评估,可能会产生错误的安全感。在这项工作中,我们提出了 PISmith,一种基于强化学习 (RL) 的红队框架,通过训练攻击 LLM 在实际黑盒设置中优化注入提示,系统地评估现有的提示注入防御,其中攻击者只能查询受防御的 LLM 并观察其输出。我们发现,直接应用标准 GRPO 来攻击强大的防御会因奖励极度稀疏而导致性能次优——大多数生成的注入提示都被防御阻止,导致策略的熵在发现有效的攻击策略之前崩溃,而罕见的成功则无法有效学习。作为回应,我们引入自适应熵正则化和动态优势加权来维持探索并放大从稀缺成功中学习。对 13 个基准的广泛评估表明,最先进的即时注入防御仍然容易受到自适应攻击。我们还将 PISmith 与静态、基于搜索和基于 RL 的攻击类别的 7 个基线进行比较,表明 PISmith 始终实现最高的攻击成功率。此外,PISmith 在 InjecAgent 和 AgentDojo 上的代理设置中针对开源和闭源 LLM(例如 GPT-4o-mini 和 GPT-5-nano)实现了强大的性能。我们的代码可以在这个 https URL 上找到 ...
人类凭直觉根据声音移动,但当前的人形机器人缺乏即兴表达能力,仅限于预定义的动作或稀疏的命令。从音频生成运动,然后将其重新定位到机器人,依赖于显式运动重建,从而导致级联错误、高延迟和脱节的声学驱动映射。我们提出了 RoboPerform,这是第一个统一的音频到运动框架,可以直接从音频生成音乐驱动的舞蹈和语音驱动的协同语音手势。在“运动=内容+风格”的核心原则的指导下,该框架将音频视为隐式风格信号,并消除了显式运动重建的需要。 RoboPerform 集成了用于适应不同运动模式的 ResMoE 教师策略和用于音频风格注入的基于扩散的学生策略。这种无重定向设计可确保低延迟和高保真度。实验验证表明,RoboPerform 在物理合理性和音频对齐方面取得了可喜的成果,成功地将机器人转变为能够对音频做出反应的反应灵敏的表演者 ...
随着 Android 的普及度呈指数级增长,恶意软件的数量也呈爆炸式增长。这可以说是移动平台上最流行的问题之一。最近,已经引入了各种方法来检测 Android 恶意软件,其中大多数是基于清单文件特征或结构信息,例如控制流图和 API 调用。在这些方法中,几乎所有的方法都只考虑Java字节码作为检测恶意行为的目标。然而,最近的研究和我们自己的统计数据表明,本机有效负载通常用于良性和恶意应用程序。当前最先进的 Android 静态分析工具避免处理本机方法调用。这些工具都没有能力捕获语言间行为。在这项工作中,我们探索了一种集成机制,该机制展示了如何有效地结合 Android 应用程序的字节码和本机代码分析来应对复杂的 Android 恶意软件。因此,我们提出了一种多层方法,利用深度学习、自然语言处理 (NLP) 以及图形嵌入技术来处理来自 Java 字节码和本机代码的 Android 恶意软件的威胁。之后,我们设计了一个集成算法来得到恶意软件检测系统的最终结果。具体来说,我们的检测方法的第一层在应用程序的字节码和本机代码级别上运行,而第二层则侧重于集成算法。对 100,113 个样本(35,113 个恶意软件和 65,000 个良性样本)的大规模实验表明,仅字节码子系统的准确率达到 99.8%,本机代码子系统的准确率达到 96.6%,而 Android-COCO 方法的准确率达到 99.86%,优于各种相关工作 ...
Although multi-step generative policies achieve strong performance in robotic manipulation by modeling multimodal action distributions, they require multi-step iterative denoising at inference time. Each action therefore needs tens to hundreds of network function evaluations (NFEs), making them costly for high-frequency closed-loop control and online reinforcement learning (RL). To address this limitation, we propose a two-stage framework for native one-step generative policies that shifts refinement from inference to training. First, we introduce the Drift-Based Policy (DBP), which leverages fixed-point drifting objectives to internalize iterative refinement into the model parameters, yielding a one-step generative backbone by design while preserving multimodal action modeling capacity. Second, we develop Drift-Based Policy Optimization (DBPO), an online RL framework that equips the pretrained backbone with a compatible stochastic interface, enabling stable on-policy updates without sacrificing the one-step deployment property. Extensive experiments demonstrate the effectiveness of the proposed framework across offline imitation learning, online fine-tuning, and real-world control scenarios. DBP matches or exceeds the performance of multi-step diffusion policies while achieving up to $100\times$ faster inference. It also consistently outperforms existing one-step baselines on challenging manipulation benchmarks. Moreover, DBPO enables effective and stable policy improvement in online settings. Experiments on a real-world dual-arm robot demonstrate reliable high-frequency control at 105.2 Hz.
多模态联合学习 (MFL) 使具有异构数据模态的客户能够在不共享原始数据的情况下协作训练模型,从而提供利用互补的跨模态信息的隐私保护框架。然而,现有的方法经常忽视个性化的客户表现,并与模式/任务差异以及模型异质性作斗争。为了应对这些挑战,我们提出了 FedAFD,这是一个统一的 MFL 框架,可以增强客户端和服务器的学习。在客户端,我们引入了双层对抗性对齐策略,以在模式内部和跨模式之间协调本地和全球表示,从而缩小模式和任务差距。我们进一步设计了一个粒度感知融合模块,将全局知识自适应地集成到个性化特征中。在服务器端,为了处理模型异构性,我们提出了一种相似性引导的集成蒸馏机制,该机制根据特征相似性聚合共享公共数据上的客户端表示,并将融合的知识蒸馏到全局模型中。在 IID 和非 IID 设置下进行的大量实验表明,FedAFD 为客户端和服务器实现了卓越的性能和效率 ...
专家混合 (MoE) 模型已成为扩展大型语言模型的主导范例,但其快速增长的参数大小在推理过程中引入了根本性的低效率:大多数专家权重在 GPU 内存中保持空闲状态,同时与性能关键的运行时状态(例如键值 (KV) 缓存)竞争。由于 KV 缓存容量直接决定服务吞吐量,因此这种不匹配会导致内存利用率不足和性能下降。在本文中,我们提出了 FluxMoE,这是一种新的 MoE 推理系统,它将专家参数与持久 GPU 驻留分离。 FluxMoE 引入了专家分页抽象,将专家权重视为流式瞬态资源,按需具体化它们并在使用后立即驱逐它们,从而允许 GPU 内存优先分配给吞吐量关键的运行时状态。我们在 vLLM 之上实现 FluxMoE,以便在严格的内存限制下实现高效的 MoE 推理。实验结果表明,在内存密集型情况下,FluxMoE 的吞吐量比 vLLM 提高了 3.0$\times$,且不影响模型保真度 ...
本文提出了基于文本匹配的顺序推荐模型(TASTE),该模型将项目和用户映射到嵌入空间中,并通过匹配其文本表示来推荐项目。 TASTE 使用项目的标识符和属性来表达项目和用户与项目的交互。为了更好地表征用户行为,TASTE 还提出了一种注意力稀疏方法,该方法使 TASTE 通过减少编码期间的自注意力计算来建模更长的用户-项目交互。我们的实验表明,TASTE 在广泛使用的顺序推荐数据集上优于最先进的方法。 TASTE 通过使用全文建模来表示长尾项目并将预训练语言模型的优势引入推荐系统,从而缓解了冷启动问题。我们的进一步分析表明,TASTE 通过减少先前基于项目 id 的推荐模型的流行度偏差并返回更合适且与文本相关的项目来满足用户,从而显着提高了推荐准确性。所有代码均可在此 https URL 中获取 ...