脑电图 (EEG) 和心电图 (ECG) 等医疗时间序列 (MedTS) 数据在诊断大脑和心脏病等医疗保健中发挥着至关重要的作用。现有的 MedTS 分类方法主要依赖于手工生物标志物提取和基于 CNN 的模型,对基于 Transformer 的模型的探索有限。在本文中,我们介绍了 Medformer,一种专为 MedTS 分类量身定制的多粒度修补 Transformer 。我们的方法结合了三种新颖的机制来利用 MedTS 的独特特征:利用通道间相关性的跨通道修补、用于捕获不同尺度特征的多粒度嵌入,以及用于学习特征以及粒度内和粒度间相关性的两阶段(粒度内和粒度间)多粒度自注意力。我们在依赖于主题和具有挑战性的独立于主题的设置下对五个公共数据集进行了广泛的实验。结果证明了 Medformer 在 10 个基线上的优越性,在所有六个评估指标的五个数据集上实现了最高平均排名。这些发现强调了我们的方法对医疗保健应用的重大影响,例如诊断心肌梗塞、阿尔茨海默病和帕金森病。我们在此 https URL 发布源代码 ...
多模态人工智能 (AI) 系统,特别是视觉语言模型 (VLM),已成为从自主决策到自动文档处理等关键应用的组成部分。随着这些系统的扩展,它们严重依赖预处理管道来有效处理不同的输入。然而,这种对标准预处理操作(特别是图像缩小)的依赖会产生一个重大但经常被忽视的安全漏洞。虽然旨在进行计算优化,但缩放算法可用于隐藏恶意视觉提示,这些提示对于人类观察者来说是不可见的,但一旦被模型处理就会变成主动语义指令。当前的对抗策略在很大程度上仍然是静态的,未能考虑现代代理工作流程的动态本质。为了解决这一差距,我们提出了 Chameleon,这是一种新颖的自适应对抗框架,旨在暴露和利用生产 VLM 中的扩展漏洞。与传统的静态攻击不同,Chameleon 采用基于代理的迭代优化机制,可根据目标模型的实时反馈动态细化图像扰动。这使得该框架能够制作出高度稳健的对抗性示例,这些示例能够在标准缩减操作中幸存下来,从而劫持下游执行。我们针对 Gemini 2.5 Flash 模型评估 Chameleon。我们的实验表明,Chameleon 在不同的缩放因子上实现了 84.5% 的攻击成功率 (ASR),明显优于平均仅为 32.1% 的静态基线攻击。此外,我们表明这些攻击有效地破坏了代理管道,使多步骤任务中的决策准确性降低了 45% 以上。最后,我们讨论这些漏洞的影响,并提出多尺度一致性检查作为必要的防御机制 ...
大型语言模型 (LLM) 已集成到许多应用程序(例如 Web 代理)中以执行更复杂的任务。然而,LLM 授权的应用程序容易受到间接提示注入 (IPI) 攻击,其中指令是通过不可信的外部数据源注入的。本文介绍了 Rennervate,一种用于检测和防止 IPI 攻击的防御框架。 Rennervate 利用注意力功能在细粒度 Token 级别检测隐蔽注入,从而实现精确的清理,消除 IPI 攻击,同时保持 LLM 功能。具体来说, Token 级检测器采用两步注意力池机制实现,该机制聚合注意力头和响应 Token 以进行 IPI 检测和清理。此外,我们建立了一个细粒度的 IPI 数据集 FIPI,并将其开源以支持进一步的研究。大量实验验证了 Rennervate 优于 15 种商业和学术 IPI 防御方法,在 5 个 LLM 和 6 个数据集上实现了高精度。我们还证明了 Rennervate 可转移到看不见的攻击,并且对自适应对手具有强大的鲁棒性 ...
即时注入攻击旨在污染 LLM 的输入数据,误导其完成攻击者选择的任务,而不是预期的任务。在许多应用程序和代理中,输入数据来自多个源,每个源贡献整个输入的一部分。在这些多源场景中,攻击者可能仅控制源的子集并污染相应的段,但通常不知道段在输入中的排列顺序。现有的提示注入攻击要么假设整个输入数据来自攻击者控制下的单个源,要么忽略来自不同源的段排序的不确定性。因此,他们的成功仅限于涉及多源数据的领域。在这项工作中,我们提出了 ObliInjection,这是第一个针对 LLM 应用程序和具有多源输入数据的代理的即时注入攻击。 ObliInjection 引入了两项关键的技术创新:顺序遗忘损失,它量化了 LLM 完成攻击者选择的任务的可能性,无论干净和受污染的段如何排序; orderGCG 算法,旨在最小化顺序遗忘损失并优化受污染的片段。跨越不同应用领域的三个数据集和 12 个 LLM 的综合实验表明,即使输入数据中只有 6-100 个片段之一受到污染,ObliInjection 也是非常有效的。我们的代码和数据可在以下位置获取:此 https URL ...
在 LLM 这个快速发展的领域,我们的论文讨论了即时注入攻击带来的重大安全风险。它专注于小型开源模型,特别是 LLaMA 系列模型。我们引入了能够生成自动防御的新颖防御机制,并系统地评估针对一组全面的基准攻击生成的防御。因此,我们凭经验证明了我们的方法在减轻 LLM 目标劫持漏洞方面提出的改进。我们的工作认识到小型开源 LLM 的相关性日益增强,及其在边缘设备上广泛部署的潜力,与 LLM 应用的未来趋势保持一致。我们在以下方面为开源 LLM 及其安全性的更大生态系统做出了贡献:(1)评估当前针对最新攻击的基于提示的防御,(2)引入使用种子防御(思想链)的新框架来迭代地完善防御提示,以及(3)在检测目标劫持攻击方面显示出显着改进。我们的策略显着降低了攻击的成功率和错误检测率,同时有效地检测目标劫持能力,为在资源有限的环境中更安全、更高效地部署小型开源 LLM 铺平了道路 ...
大型语言模型 (LLM) 在将推荐系统从隐式行为模式匹配转变为显式意图推理方面表现出了巨大的潜力。虽然 RecGPT-V1 通过将基于 LLM 的推理集成到用户兴趣挖掘和项目标签预测中,成功地开创了这一范式,但它存在四个基本限制:(1)跨多个推理路径的计算效率低下和认知冗余; (2)固定模板生成的解释多样性不足; (3)监督学习范式下的泛化能力有限; (4) 简单化的以结果为中心的评估,不符合人类标准。为了应对这些挑战,我们提出了 RecGPT-V2 的四项关键创新。首先,分层多智能体系统通过协调协作重构意图推理,消除认知重复,同时实现多样化的意图覆盖。结合压缩用户行为上下文的混合表示推理,我们的框架将 GPU 消耗减少了 60%,并将独占召回率从 9.39% 提高到 10.99%。其次,元提示框架动态生成上下文自适应提示,将解释多样性提高了 7.3%。第三,约束强化学习缓解了多重奖励冲突,标签预测提高了 24.1%,解释接受度提高了 13.0%。第四,代理作为法官框架将评估分解为多步骤推理,从而改善人类偏好的一致性。淘宝上的在线 A/B 测试显示出显着的改进:+2.98% CTR、+3.71% IPV、+2.19% TV 和 +11.46% NER。 RecGPT-V2 确立了大规模部署 LLM 支持的意图推理的技术可行性和商业可行性,弥合了认知探索和工业实用之间的差距 ...
在线广告系统通常使用级联架构来管理大量请求和候选量,其中排名阶段根据 eCPM(预测的 CTR $\times$ Bid)分配流量。随着自动出价策略的日益普及,计算敏感的检索阶段和排名阶段之间的不一致变得更加明显,因为前者无法访问海量广告语料库的精确、实时出价。这种差异会导致平台收入和广告商结果不佳。为了解决这个问题,我们提出了 Bidding-Aware Retrieval (BAR),这是一种基于模型的检索框架,通过将广告出价值纳入检索评分函数来解决多阶段不一致问题。核心创新是投标感知建模,通过单调性约束学习和多任务蒸馏合并投标信号,以确保经济上一致的表示,而异步近线推理则可以实时更新嵌入以提高市场响应能力。此外,Task-Attentive Refinement 模块有选择地增强功能交互,以理清用户兴趣和商业价值信号。大量的线下实验和在阿里巴巴展示广告平台的全面部署验证了BAR的功效:平台收入增长4.32%,正面运营的广告曝光量提升22.2% ...
由大型语言模型 (LLM) 提供支持的生成推荐 (GR) 代表了工业推荐系统的一种有前途的新范式。然而,它们的实际应用受到高推理延迟的严重阻碍,这使得它们无法用于高吞吐量、实时服务,并限制了它们的整体业务影响。虽然推测解码(SD)被提出来加速自回归生成过程,但现有的实现引入了新的瓶颈:它们通常需要单独的草稿模型和基于模型的验证器,需要额外的训练并增加延迟开销。在本文中,我们使用 NEZHA 解决这些挑战,NEZHA 是一种新颖的架构,可以在不牺牲推荐质量的情况下实现 GR 系统的超高速解码。具体来说,NEZHA 将灵活的自回归牵伸头直接集成到主模型中,从而实现高效的自牵伸。这种设计与专门的输入提示结构相结合,保留了序列到序列生成的完整性。此外,为了解决幻觉这一关键问题(性能下降的主要来源),我们引入了一种基于哈希集的高效、无模型验证器。我们通过对公共数据集的大量实验证明了NEZHA的有效性,并自2025年10月起在淘宝成功部署该系统,带动了亿级广告收入并服务了数亿日活跃用户 ...
我们为深度神经网络提供任意和认知不确定性的单模型估计。为了估计任意不确定性,我们提出了同时分位数回归(SQR),这是一种用于学习给定目标变量的所有条件分位数的损失函数。这些分位数可用于计算经过良好校准的预测区间。为了估计认知不确定性,我们提出了正交证书(OC),这是将所有训练样本映射为零的各种非常数函数的集合。这些证书将分布外的示例映射为非零值,表示认知不确定性。我们的不确定性估计器在计算上具有吸引力,因为它们不需要集成或重新训练深度模型,并且可以实现有竞争力的性能 ...
Transformer 模型在语言任务中取得成功后,在计算机视觉领域显示出了巨大的潜力。 Swin Transformer 是其中之一,在准确性方面优于基于卷积的架构,同时与 Vision Transformer (ViT) 及其变体相比提高了效率,后者相对于输入大小具有二次复杂度。 Swin Transformer 具有移动窗口功能,允许跨窗口连接,同时将自注意力计算限制在非重叠的本地窗口。然而,移动窗口引入了内存复制操作,这占据了其运行时间的很大一部分。为了缓解这个问题,我们提出了 Swin-Free,其中我们跨阶段应用大小变化的窗口,而不是移动窗口,以实现本地窗口之间的交叉连接。通过这个简单的设计更改,Swin-Free 的推理速度比 Swin Transformer 运行得更快,精度更高。此外,我们还提出了一些比 Swin Transformer 版本更快的 Swin-Free 变体 ...