点云补全旨在从部分观测中重建完整的 3D 形状,由于严重的遮挡和缺失的几何形状,这是一个具有挑战性的问题。尽管多模态技术最近取得了进展,利用互补的 RGB 图像来补偿缺失的几何形状,但大多数方法仍然遵循补全修复范例,从融合的潜在特征合成缺失的结构。我们凭经验表明,由于有限的几何和语义约束,这种范式常常导致结构不一致和拓扑伪影。为了解决这个问题,我们重新思考这个任务并提出了一个更强大的范例,称为“校正完成”,它从由预训练的图像到 3D 模型生成的拓扑完整形状开始,并执行特征空间校正以使其与部分观察对齐。这种范式将完成从不受约束的合成转变为引导细化,从而实现结构一致和观察一致的重建。在此范式的基础上,我们引入了 PGNet,这是一个多阶段框架,它进行双特征编码以奠定生成先验的基础,合成一个粗略但结构对齐的支架,并通过分层校正逐步细化几何细节。 ShapeNetViPC 数据集上的实验证明了 PGNet 在平均倒角距离 (-23.5%) 和 F 分数 (+7.1%) 方面优于最先进的基线 ...
尽管通用人工智能代理取得了显着进步,但仍有一些挑战阻碍了它们在现实场景中的实际应用。首先,大型语言模型(LLM)有限的规划能力限制了人工智能代理有效解决需要长期规划的复杂任务。其次,通用人工智能代理很难有效地利用特定领域的知识和人类专业知识。在本文中,我们介绍了标准操作过程引导代理(SOP-agent),这是一种通过用自然语言编写的伪代码式标准操作过程(SOP)构建特定领域代理的新颖框架。形式上,我们将 SOP 表示为决策图,通过遍历决策图来指导智能体完成 SOP 指定的任务。我们在多个领域的任务中进行了广泛的实验,包括决策、搜索和推理、代码生成、数据清理和接地客户服务。 SOP-agent 展示了出色的多功能性,其性能优于通用代理框架,可与特定领域的代理系统相媲美。此外,我们还推出了接地客户服务基准,这是第一个旨在评估人工智能代理在基于SOP的客户服务场景中的接地决策能力的基准 ...
在微服务架构领域,事件的频繁发生需要使用根本原因分析(RCA)来快速解决问题。通常,严重事件可能需要几个领域专家几个小时才能确定根本原因。因此,当代趋势涉及利用大型语言模型 (LLM) 作为 RCA 的自动化代理。尽管最近的 ReAct 框架在思想-行动-观察范式方面与站点可靠性工程师 (SRE) 非常吻合,但其幻觉常常导致不相关的行动并直接影响后续结果。此外,事件的复杂多变的线索可能会进一步压垮模型。为了应对这些挑战,我们提出了 Flow-of-Action,这是一种开创性的标准操作程序 (SOP) 增强型基于 LLM 的多智能体系统。 SOP通过明确总结SRE的诊断步骤,在关键时刻对LLM施加约束,引导RCA流程走向正确的轨迹。为了促进SOP的合理有效利用,我们设计了一个以SOP为中心的框架,称为SOP流程。 SOP流程包含一系列工具,包括一个用于查找事件相关SOP的工具,另一个用于为没有相关事件的事件自动生成SOP的工具,以及一个用于将SOP转换为代码的工具。这显着缓解了 RCA 任务中 ReAct 的幻觉问题。我们还设计了多个辅助智能体来协助主智能体,去除无用的噪声,缩小搜索空间,并通知主智能体 RCA 过程是否可以停止。与 ReAct 方法 35.50% 的准确度相比,我们的 Flow-of-Action 方法达到了 64.01%,满足实际系统中 RCA 的准确度要求 ...
当前大型语言模型 (LLM) 的安全一致性很脆弱。相对简单的攻击,甚至良性的微调,都可以越狱对齐的模型。我们认为,其中许多漏洞都与一个共同的根本问题有关:安全对齐可以走捷径,其中对齐主要仅在其最初的几个输出标记上调整模型的生成分布。我们将此问题称为浅层安全对齐。在本文中,我们提出案例研究来解释为什么浅安全对齐可以存在,并提供证据证明当前对齐的 LLM 受到这个问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLM 中的多个漏洞,包括对对抗性后缀攻击、预填充攻击、解码参数攻击和微调攻击的敏感性。重要的是,我们讨论了这种浅层安全对齐的综合概念如何揭示减轻这些漏洞的有前途的研究方向。例如,我们表明,除了前几个标记之外,深化安全一致性通常可以有意义地提高针对某些常见漏洞的鲁棒性。最后,我们设计了一个正则化的微调目标,通过限制初始 Token 的更新,使安全对齐更加持久地抵御微调攻击。总的来说,我们主张未来的安全调整不应只是几个 Token 的深度 ...
在各种现实世界应用中,大型语言模型(LLM)代理已经变得越来越普遍。它们通过将私人用户代理交互在存储模块中以进行演示来增强决策,从而引入了LLM代理的新隐私风险。在这项工作中,我们系统地研究了LLM代理在黑色盒子设置下对我们提出的内存提取攻击(MEXTRA)的脆弱性 ...
随着先进技术节点的不断扩展,设计技术协同优化(DTCO)范式变得越来越重要,使得高效的器件设计和优化变得至关重要。然而,在 TCAD 仿真领域,开源资源的稀缺阻碍了语言模型生成有效的 TCAD 代码。为了克服这一限制,我们构建了一个由专家管理的开源 TCAD 数据集,并微调了用于 TCAD 代码生成的特定领域模型。在此基础上,我们提出了 AgenticTCAD,这是一种自然语言驱动的多代理框架,可实现端到端自动化设备设计和优化。对 2 nm 纳米片 FET (NS-FET) 设计的验证表明,AgenticTCAD 在 4.2 小时内实现了国际设备和系统路线图 (IRDS)-2024 设备规范,而人类专家使用商业工具需要 7.1 天 ...
扩散模型生成高质量图像,但需要数十次前向传递。我们引入了分布匹配蒸馏 (DMD),这是一种将扩散模型转换为一步图像生成器的过程,对图像质量的影响最小。我们强制一步图像生成器在分布级别匹配扩散模型,通过最小化近似 KL 散度,其梯度可以表示为 2 个得分函数(目标分布之一和由我们的一步生成器生成的合成分布的另一个)之间的差异。评分函数被参数化为在每个分布上分别训练的两个扩散模型。结合与多步扩散输出的大规模结构相匹配的简单回归损失,我们的方法优于所有已发布的少步扩散方法,在 ImageNet 64x64 上达到 2.62 FID,在零样本 COCO-30k 上达到 11.49 FID,与稳定扩散相当,但速度要快几个数量级。利用 FP16 推理,我们的模型在现代硬件上生成 20 FPS 的图像 ...
增强多模式大语言模型(MLLM)的多模式推理能力是一项艰巨的任务,引起了社区越来越多的关注。最近,一些研究将增强奖励学习带有可验证的奖励(RLVR),以增强MLLM的推理能力。但是,这些作品在很大程度上忽略了MLLM中多模式感知能力的增强,这些感知能力是复杂多模式推理的核心先决条件和基础组成部分 ...
AMBER(NA66)是CERN SPS M2束线的固定目标设施,对强子的内部结构和激发谱进行世界范围内独特的研究。批准的第一阶段实验重点关注三个主要物理主题:(i)在宽能量范围内测量 $p-\text{He}$ 和 $p-p/d$ 碰撞中反质子的产生截面; (ii) 使用高能μ介子束精确测量小动量转移时质子的电形状因数; (iii) 通过使用负介子束和正介子束进行 Drell-Yan 和粲素产生测量来确定 π 介子和 kaon 夸克 PDF。第二阶段将重点关注强 kaon 光束的测量。这些测量所需的高能 μ 介子、π 介子和 kaon 光束只能在 CERN 获得 ...
强化学习中提取奖励信号的现有方法通常依赖于标记数据和专用训练分割,这种设置与人类直接从环境中学习的方式形成鲜明对比。在这项工作中,我们提出 TTRV 通过在推理时动态调整模型来增强视觉语言理解,而不需要任何标记数据。具体来说,我们通过根据基本模型输出的频率设计奖励来增强组相对策略优化(GRPO)框架,同时对每个测试样本进行多次推断。此外,我们还建议通过同时奖励模型以获得输出经验分布的低熵来控制模型输出的多样性。我们的方法在对象识别和视觉问答 (VQA) 方面都取得了一致的成果,分别提高了 52.4% 和 29.8%,在 16 个 http URL 上平均提高了 24.6% 和 10.0%;在图像识别方面,应用于 InternVL 8B 的 TTRV 在 8 个基准测试中平均超过 GPT-4o 2.3%,同时在 VQA 上保持高度竞争力,这表明测试时强化学习可以匹配或超过最强的专有模型。最后,我们发现 VLM 的测试时 RL 的许多有趣特性:例如,即使在数据极其受限的场景中,在单个随机选择的未标记测试示例上执行适应,TTRV 仍然在识别任务中产生高达 5.5% 的显着改进 ...