最近使用Rank-One模型编辑(ROME)(一种流行的模型编辑方法)的工作表明,某些事实是,算法在不破坏模型的情况下无法编辑。此类编辑以前称为禁用编辑。这些禁用的编辑会导致立即模型崩溃,并限制了罗马进行顺序编辑的使用 ...
为了比较两个语音生成系统的性能,最有效的方法之一是估计其生成的语音之间的偏好得分。本文提出了一个新型的基于通用偏好得分的成对语音质量评估(UPPSQA)模型,旨在预测配对语音样本之间的偏好得分,以确定哪个具有更好的质量。该模型首先分别预测两个语音样本的绝对平均意见分数(MOS),然后使用偏好函数将它们汇总为相对偏好得分 ...
LLM在某些安全任务和CTF挑战中表现出了初步的承诺。但是,目前尚不清楚LLM是否能够实现多阶段网络攻击,这涉及在多个主机上执行各种动作,例如进行侦察,利用漏洞来获得初始访问,利用内部主机横向移动,并使用多个损害的主机来驱逐数据。我们评估了10个多阶段网络的LLM,发现流行的LLM无法实现这些攻击 ...
符号回归是一种基本工具,用于从数据中发现可解释的数学表达式,并具有跨科学和工程领域的广泛应用。最近,大型语言模型(LLMS)在这项任务中表现出了很强的表现,利用嵌入式科学先验和推理能力超越传统方法。但是,现有的基于LLM的方法,例如LLM-SR,通常过度依赖内部先验,在方程生成过程中缺乏明确的数据理解和系统反射 ...
最近缺少模态的多模式情感分析(MSA)最近引起了越来越多的关注。尽管当前基于 Transformer 的方法利用密集的文本信息来维持模型鲁棒性,但它们的二次复杂性会阻碍有效的远程建模和多模式融合。为此,我们提出了一种新颖有效的文本增强融合曼巴(TF-mamba)框架,用于稳健的MSA,并缺失了模式 ...
采用表达序列建模技术来执行行动的决策 Transformer (DT)已成为脱机政策优化的一种有希望的方法。但是,DT产生的动作以预期的未来回报为条件,众所周知,这会遇到一些弱点,例如对环境随机性的敏感性。为了克服DT的弱点,我们建议通过动态编程增强DT的能力 ...
我们介绍了T-Crex,这是一种用于本地和全球反事实解释(CE)的新型模型无关方法,该方法以人类可读规则的形式总结了个人和群体的追索权。它利用基于树的替代模型来学习反事实规则,并与“ metarules”表示其最佳区域,从而为用户提供了全球模型行为分析和不同的追索权。实验表明,T-Crex在一系列CE Desiderata上实现了比现有基于规则的基线的较高的骨料性能,同时运行的速度更快 ...
我们提出了DFModel,这是将数据流计算图映射到大规模系统的建模框架。将工作负载映射到系统需要在各个级别上优化数据流映射,包括片间(芯片之间)级别和芯片内(芯片)级别。据我们所知,DFModel是在内存层次结构多个级别和互连网络层次结构进行优化的第一个框架 ...