近年来,“可解释人工智能”(XAI)社区创建了大量方法来弥合模型“复杂性”和“可解释性”之间的差距。然而,XAI方法要解决的具体问题尚未正式阐明。因此,XAI 方法缺乏理论和经验证据来证明其解释的“正确性”,限制了它们在质量控制和透明度目的方面的潜在用途 ...
Transformer 自诞生以来就因其对序列中复杂依赖关系进行建模的卓越能力而席卷了自然语言处理 (NLP) 领域。尽管基于 Transformer 的预训练语言模型 (PLM) 在几乎所有 NLP 任务中都取得了巨大成功,但它们都受到预设长度限制的影响,因此很难将这种成功扩展到超出可见数据的更长序列,即长度外推问题。长度外推引起了研究人员的极大兴趣,因为它是人类语言能力的核心特征 ...
答案句子选择(AS2)是构建准确问答管道的核心组件。 AS2 模型根据一组候选句子回答给定问题的可能性对它们进行排名。 AS2 中的最新技术通过将预训练的 Transformer 转移到大型带注释的数据集上,同时使用候选句子周围的本地上下文信息来利用预训练的 Transformer ...
注意力模块的二次复杂度使其在生成过程中逐渐成为基于 Transformer 的 LLM 中的计算量。此外,处理长输入时出现的过多键值缓存也会带来严重的内存占用和推理延迟问题。在这项工作中,我们提出了一种即插即用的方法,能够将指定范围的 Token 的中间激活增量压缩为紧凑的 Token ,从而在处理后续上下文时减少内存和计算成本 ...
音系重建是历史语言学的核心问题之一,其中祖先语言的原词是根据观察到的子代语言的同源词确定的。历史语言学的计算方法试图通过学习可用语言数据的模型来自动化任务。从计算生物学中汲取的一些思想和技术已成功应用于计算历史语言学领域 ...
自回归解码限制了机器翻译(MT)转换器的效率。社区提出了特定的网络架构和基于学习的方法来解决这个问题,但这些方法成本高昂,并且需要更改机器翻译模型,以牺牲翻译质量为在本文中,我们从解码算法的角度来解决这个问题,这是一个看似解决的探索,但引人注目的方向...... ...
位置建模在《变形金刚》中发挥了至关重要的作用。在本文中,我们关注长度外推,即... ...