利用大型语言模型LLM的快速发展,基于LLM的代理已被开发用于处理各种现实世界的应用,包括金融、医疗保健和购物等。确保基于LLM的代理的可靠性和安全性至关重要。应用程序。然而,基于法学硕士的代理人的安全问题目前尚未得到充分探讨 ...
基于扩散的对抗纯化方法试图通过正向过程将对抗性扰动淹没到各向同性噪声的一部分中,然后通过反向过程恢复干净的图像。由于缺乏有关像素域中对抗扰动的分布信息,因此通常不可避免地会损害正常语义。我们转向频域的视角,将图像分解为振幅频谱和相光谱 ...
我们提出了一种将算法发现作为程序搜索的方法,并将其应用于发现深度神经网络培训的优化算法。我们利用有效的搜索技术来探索无限且稀疏的程序空间。为了弥合代理和目标任务之间的巨大概括差距,我们还引入了计划选择和简化策略 ...
基于AI的先进工具的出现为逼真的图像带来了大量的挑战,即法医检测和源归因,尤其是随着新的生成技术迅速出现。由于依靠培训期间特定的已知来源功能,传统方法通常无法推广到看不见的发电机。为了解决这个问题,我们提出了一种新颖的方法,该方法明确模拟了法医微结构 - 微妙的像素级模式是图像创建过程所特有的 ...
StoryReasoning Dataset: Using Chain-of-Thought for Scene Understanding and Grounded Story Generation
视觉讲故事的系统难以维持跨框架的性格身份,并将动作链接到适当的主题,经常导致参考幻觉。这些问题可以通过视觉元素上的字符,对象和其他实体的接地来解决。我们提出了故事策划,这是一个数据集,其中包含来自52,016部电影图像的4,178个故事,并进行了结构化场景分析和扎根的故事 ...
演唱旋律提取(SME)是音乐信息检索领域的关键任务。但是,现有方法面临着几个局限性:首先,先前的模型使用 Transformer 捕获上下文依赖性,这需要二次计算,导致推理阶段效率低。其次,先前的作品通常依靠频率监管的方法来估计基本频率(F0),后者忽略了音乐表现实际上是基于音符的 ...
在动态的非结构化环境中,现实世界的机器人操纵需要终身适应能力,以使对象,场景和任务不断发展。传统的模仿学习依赖于静态训练范例,这些范围不适合终身适应。尽管持续的模仿学习(CIL)可以在保留学习知识的同时适应增量的任务适应,但当前的CIL方法主要忽略机器人操纵的内在技能特征或依赖手动定义和僵化的技能,从而导致了次优的交叉任务知识转移 ...
最近在图像合成的扩散模型的普及率的激增引起了对其在其他领域中产生任务潜力的新关注。但是,它们在符号音乐生成中的应用在很大程度上尚未探索,因为符号音乐通常表示为离散事件的序列,并且标准扩散模型不适合用于离散数据。我们代表象征性音乐作为图像般的钢琴,促进了扩散模型的使用来产生象征性音乐 ...