视觉语言模型 (VLM) 越来越多地部署为自主代理来导航移动图形用户界面 (GUI)。在动态的设备生态系统(包括通知、弹出窗口和应用程序间交互)中运行,使它们面临独特且尚未充分探索的威胁向量:环境注入。与操纵文本指令的基于提示的攻击不同,环境注入通过将对抗性 UI 元素(例如,欺骗性覆盖或欺骗性通知)直接插入 GUI 来破坏代理的视觉感知 ...
几何是数学的一个基本分支,在评估多模态大语言模型(MLLM)的推理能力方面发挥着至关重要的作用。然而,现有的多模态数学基准主要关注平面几何,很大程度上忽略了立体几何,立体几何需要空间推理,并且比平面几何更具挑战性。为了解决这一关键差距,我们推出了 SolidGeo,这是第一个专门设计用于评估 MLLM 在实体几何数学推理任务上的性能的大型基准测试 ...
我们提出了一种训练排名模型(例如推荐系统)的新颖方法,该方法既有效又高效。知识蒸馏(KD)在图像识别中被证明是成功的,可以实现有效性和效率。我们提出了一种用于学习对问题进行排名的 KD 技术,称为 \emph{排名蒸馏 (RD)} ...
在实际情况下,实现域的适应性和泛化会带来重大挑战,因为模型必须适应或推广到未知的目标分布中。将这些功能扩展到看不见的多模式分布,即 ...
扩散模型彻底改变了头部特写生成领域,但在长时间生成过程中仍面临表现力、可控性和稳定性方面的挑战。在这项研究中,我们提出了一个 EmotiveTalk 框架来解决这些问题。首先,为了更好地控制嘴唇运动和面部表情的生成,设计了视觉引导音频信息解耦(V-AID)方法来生成与嘴唇运动和表情一致的基于音频的解耦表示 ...
自动化日志分析对于确保复杂系统的高可用性和可靠性至关重要。 NLP 领域 LLM 的出现开创了语言模型驱动的自动日志分析的新时代,引起了人们的极大兴趣。在这个领域中,基于日志分析语言模型的两种主要范式已经变得突出 ...
从单目图像估计 3D 边界框是自动驾驶的重要组成部分,而从此类数据中进行准确的 3D 对象检测非常具有挑战性。在这项工作中,通过密集的诊断实验,我们量化了每个子任务引入的影响,发现“定位误差”是限制单目 3D 检测的重要因素。此外,我们还调查了本地化错误背后的根本原因,分析了它们可能带来的问题,并提出了三种策略 ...
扩散模型在各种下游生成任务中取得了显着的成功,但在重要且具有挑战性的富有表现力的头部头像生成中仍未得到充分探索。在这项工作中,我们提出了一个 DreamTalk 框架来填补这一空白,该框架采用精心设计来释放扩散模型在生成富有表现力的头部的潜力。具体来说,DreamTalk 由三个关键组件组成:降噪网络、风格感知唇部专家和风格预测器 ...
模仿学习使智能系统能够在最少的监督下获得复杂的行为。然而,现有的方法通常侧重于短期技能,需要大量数据集,并且很难解决长期任务或跨任务变化和分布变化进行概括。我们提出了一种新颖的神经符号框架,该框架可以从一些技能演示中共同学习连续控制策略和符号域抽象 ...
深度研究网络代理不仅从网络环境、文件和多模式输入等不同来源检索信息,更重要的是,它们需要严格分析和聚合知识以进行有洞察力的研究。然而,现有的开源深度研究代理主要侧重于增强网络代理的信息搜索能力以定位特定信息,而忽视了信息聚合的基本需求,这将限制其支持深度研究的能力。我们提出了一种“探索进化”范式,为网络代理大规模构建可验证的训练数据 ...