将大型语言模型与非人工智能系统组件相结合的人工智能代理正在现实世界的应用中迅速出现,提供前所未有的自动化和灵活性。然而,这种前所未有的灵活性带来了与传统软件系统根本不同的复杂安全挑战。本文首次对人工智能代理安全进行了系统、全面的调查,包括对安全人工智能代理系统的设计空间、攻击格局和防御机制的分析。我们进一步进行案例研究,指出在保护代理人工智能系统方面存在的差距,并确定这一新兴领域的开放挑战。我们的工作还引入了第一个用于理解人工智能代理的安全风险和防御策略的系统框架,为构建安全代理系统和推进这一关键领域的研究奠定了基础 ...
尽管取得了巨大的成功,但对于深度神经网络(DNN)或其内部组织的学习仍然没有全面的理论理解。之前的工作建议在 \textit{信息平面} 中分析 DNN;即每层在输入和输出变量上保留的互信息值的平面。他们建议网络的目标是依次优化每一层压缩和预测之间的信息瓶颈(IB)权衡。在这项工作中,我们跟进了这个想法并展示了 DNN 信息平面可视化的有效性。我们的主要结果是:(i)标准深度学习中的大多数训练周期都花在输入的有效表示上,而不是拟合训练标签上。 (ii) 当训练误差变小时,随机梯度下降 (SGD) 时期从快速漂移变为较小的训练误差,再转变为受训练误差值约束的随机松弛或随机扩散,表示压缩阶段开始。 (iii) 收敛层位于或非常接近信息瓶颈 (IB) 理论边界,并且从输入到任何隐藏层以及从该隐藏层到输出的映射满足 IB 自洽方程。这种通过噪声机制进行泛化是深度神经网络所独有的,并且在一层网络中不存在。 (iv) 当添加更多隐藏层时,训练时间会大大减少。因此,隐藏层的主要优点是计算性的。这可以通过弛豫时间的减少来解释,因为它随着前一层的信息压缩而超线性缩放(对于简单扩散,呈指数形式) ...
对于自动驾驶系统来说,以视觉为中心的 3D 环境理解既至关重要又具有挑战性。最近,无对象方法引起了相当大的关注。此类方法通过预测离散体素网格的语义来感知世界,但无法构造连续且准确的障碍物表面。为此,在本文中,我们提出 SurroundSDF 来隐式预测周围图像的连续感知的符号距离场(SDF)和语义场。具体来说,我们引入了一种基于查询的方法,并利用 Eikonal 公式约束的 SDF 来准确描述障碍物的表面。此外,考虑到缺乏精确的SDF地面实况,我们提出了一种新颖的SDF弱监督范式,称为三明治Eikonal公式,它强调在表面两侧应用正确和密集的约束,从而提高表面的感知准确性。实验表明,我们的方法在 nuScenes 数据集上的占用预测和 3D 场景重建任务中均实现了 SOTA ...
检索增强语言模型可以更好地适应世界状态的变化并融入长尾知识。然而,大多数现有方法仅从检索语料库中检索短的连续块,限制了对整个文档上下文的整体理解。我们引入了递归嵌入、聚类和总结文本块的新颖方法,从下到上构建具有不同摘要级别的树。在推理时,我们的 RAPTOR 模型从这棵树中检索,在不同抽象级别集成冗长文档中的信息。对照实验表明,在多项任务上,递归摘要检索比传统检索增强型语言模型有显着改进。在涉及复杂、多步骤推理的问答任务中,我们展示了最先进的结果;例如,通过将 RAPTOR 检索与 GPT-4 结合使用,我们可以将 QuALITY 基准的最佳性能绝对准确率提高 20% ...
语义场景完成(SSC)旨在通过有限的观察来预测整个 3D 场景中每个体素的语义占用情况,这是自动驾驶的一项新兴且关键的任务。最近,由于相机具有更丰富的视觉线索和成本效益,许多研究转向基于相机的 SSC 解决方案。然而,现有方法通常依赖于复杂且繁重的 3D 模型来直接处理提升的 3D 特征,这对于清晰的分割边界来说辨别力不够。在本文中,我们采用稠密-稀疏-稠密设计,并提出了一种基于相机的单级SSC框架,称为SGN,基于空间几何线索将语义从语义感知种子体素传播到整个场景。首先,为了利用深度感知上下文并动态选择稀疏种子体素,我们重新设计了稀疏体素提议网络,以直接使用从粗到细的范式处理深度预测生成的点。此外,通过设计混合引导(稀疏语义和几何引导)和空间几何线索的有效体素聚合,我们增强了不同类别之间的特征分离并加快了语义传播的收敛。最后,我们设计了多尺度语义传播模块,用于灵活的感受野,同时减少计算资源。 SemanticKITTI 和 SSCBench-KITTI-360 数据集上的大量实验结果证明了我们的 SGN 相对于现有最先进方法的优越性。即使我们的轻量级版本 SGN-L 在 SeamnticKITTI 验证中仅使用 12.5 M 参数和 7.16 G 训练内存,也取得了 14.80\% mIoU 和 45.45\% IoU 的显着分数。代码可从此 https URL 获取 ...
虚拟现实环境中社交互动的主要挑战之一是头戴式显示器遮挡了大部分脸部,遮挡了面部表情,从而限制了用户之间的社交参与线索。因此,需要辅助手段来感知和传达这些表达。我们提出了一种算法,通过在用户参与虚拟现实体验时仅分析部分遮挡的面部来自动推断表情。具体来说,我们表明,从 VR 耳机内的红外凝视跟踪摄像头捕获的用户眼睛图像足以推断出选定的面部表情子集,而无需使用任何固定的外部摄像头。利用这些推论,我们可以实时生成动态头像,作为用户的表达代理。我们提出了一种新颖的数据收集管道以及一种通过个性化提高 CNN 准确性的新颖方法。我们的结果显示,5 种“情绪”表达的平均准确度为 74%($F1$ 为 0.73),10 个不同的面部动作单元的平均准确度为 70%($F1$ 为 0.68),优于人类评估者 ...
尽管大型音频语言模型(LALM)在听觉理解方面表现出了出色的性能,但它们在情感计算场景中的表现,特别是在情感识别、推理和微妙的情感区分方面,仍然不够理想。强化学习 (RL) 的最新进展显示出在提高 LALM 推理能力方面的前景。然而,两个关键挑战阻碍了 RL 技术在语音情感识别 (SER) 任务中的直接应用:(1) 模糊情感边界导致的收敛不稳定;(2) 使用相对较小的模型(例如 7B 参数架构)时推理能力有限。为了克服这些限制,我们引入了 EMO-RL,这是一种结合了强化学习和两项关键创新的新颖框架:情感相似性加权奖励(ESWR)和显式结构化推理(ESR)。我们的方法建立在预训练的 LALM 的基础上,采用带有情感约束的群体相关策略优化。综合实验表明,我们的 EMO-RL 训练策略可以显着增强 LALM 的情感推理能力,在 MELD 和 IEMOCAP 数据集上均取得了最先进的结果,并且跨数据集实验证明了泛化的强大优越性 ...
尽管扩散模型具有令人印象深刻的生成能力,但现有的基于扩散模型的风格迁移方法需要推理阶段优化(例如风格的微调或文本反转),这非常耗时,或者无法利用大规模扩散模型的生成能力。为了解决这些问题,我们引入了一种新颖的艺术风格转移方法,该方法基于预先训练的大规模扩散模型,无需任何优化。具体来说,我们操纵自注意力层的特征作为交叉注意力机制的工作方式;在生成过程中,用风格形象的关键和价值来替代内容的关键和价值。这种方法为风格迁移提供了几个理想的特性,包括 1) 通过将相似的风格迁移到相似的图像块中来保存内容,以及 2) 基于内容和风格图像之间的局部纹理(例如边缘)的相似性来迁移风格。此外,我们引入查询保存和注意力温度缩放来减轻原始内容中断的问题,并引入初始潜在自适应实例归一化(AdaIN)来处理不和谐的颜色(未能传输样式颜色)。我们的实验结果表明,我们提出的方法在传统和基于扩散的风格转移基线方面都超越了最先进的方法 ...
强化学习(RL)根据与环境交互的经验来训练代理。在在线交互不切实际的场景中,使用预先收集的数据集训练代理的离线强化学习已经变得流行。虽然这种新范式在医疗保健和能源管理等各种现实领域中表现出了显着的有效性,但越来越多的需求使智能体能够快速、完全消除训练数据集和受过训练的智能体中特定轨迹的影响。为了解决这个问题,本文提出了 Trajdeleter,这是第一个离线 RL 智能体轨迹遗忘的实用方法。 Trajdeleter 的关键思想是引导智能体在遇到与遗忘轨迹相关的状态时表现出性能恶化。同时,它确保智能体在面对其他剩余轨迹时保持其原始性能水平。此外,我们还引入了 Trajauditor,这是一种简单而有效的方法,用于评估 Trajdeleter 是否成功消除了离线 RL 代理的特定影响轨迹。对六种离线 RL 算法和三项任务进行的大量实验表明,Trajdeleter 只需要从头开始重新训练所需时间的 1.5% 左右。它有效地平均遗忘了 94.8% 的目标轨迹,但在遗忘后的实际环境交互中仍然表现良好。复制包和代理参数可在线获取 ...
基于扩散的基础模型由于能够生成高质量和保真度的图像,最近在生成建模领域引起了广泛关注。尽管并不简单,但它们最近在遥感领域的应用标志着利用包含多模态信息的大量公开数据集的首次成功尝试。尽管取得了成功,现有方法仍面临相当大的局限性:它们依赖于有限的环境背景,与丢失或损坏的数据作斗争,并且通常无法在生成的输出中可靠地反映用户意图。在这项工作中,我们提出了一种以环境背景为条件的新颖扩散模型,该模型能够通过三种不同控制信号的任意组合来生成卫星图像:a)文本,b)元数据和c)视觉数据。与之前的工作相比,所提出的方法是i)据我们所知,这是第一个将动态环境条件下的卫星图像生成作为其控制信号的一部分的条件,并且ii)结合了元数据融合策略,该策略对属性嵌入交互进行建模以解释部分损坏和/或丢失的观测结果。在单图像和时间生成的试验中,我们的方法在质量上(对丢失元数据的鲁棒性、对控制输入的更高响应能力)和定量上(使用 6 种不同指标测量的更高的保真度、准确性和质量)都优于以前的方法。报告的结果支持我们的假设,即环境背景调节可以提高卫星图像基础模型的性能,并使我们的模型成为下游任务中使用的有希望的候选者。据我们所知,所收集的三模态数据集是第一个结合这三种不同媒介数据的公开数据集 ...