大型语言模型(LLM)彻底改变了自然语言处理(NLP)的领域,最近的研究旨在了解其潜在机制。但是,这项研究的大部分是在单语的环境中进行的,主要集中于英语。很少有研究试图探索LLM在多语言环境中的内部工作 ...
基于常规嵌入的模型方法在时间知识图中(TKG)中的事件时间预测作为排名问题。但是,它们通常在捕获基本的时间关系(例如秩序和距离)方面缺乏。在本文中,我们提出了TEILP,这是一个逻辑推理框架,将这些时间元素自然地整合到知识图预测中 ...
培训统一的多语言模型会促进知识转移,但不可避免地会引入负面干扰。特定于语言的建模方法在减少干扰方面显示出希望。但是,他们通常依靠启发式方法来分配能力和努力通过孤立的模块促进跨语性转移 ...
多语言大语言模型(LLM)旨在跨不同语言的自然语言理解,但是它们的表现在低资源语言上大大降低。这项工作探讨了是否可以利用识别特定语言神经元的现有技术来增强低位分子语言的跨语性任务性能。我们进行了详细的实验,涵盖了现有的语言特异性神经元识别技术(例如语言激活概率熵和基于激活概率的阈值)和神经元特异性的Lora微调,并使用Llama 3等模型进行了微调 ...
链接预测是知识图中的关键研究领域,并具有许多下游应用。在许多实际情况下,需要在看不见的实体之间进行预测,需要归纳链路预测。基于嵌入的模型通常需要对新实体嵌入式进行微调,因此很难直接应用于归纳链路预测任务 ...
在所有模式都可用的假设下,已经研究了多模式情感分析。但是,这种强大的假设并不总是在实践中存在,并且当缺少部分模式时,大多数多模式融合模型可能会失败。几项工作解决了缺失的模态问题。但是,他们中的大多数仅考虑了单个模式缺失的案例,而忽略了多种方式缺失的更一般的案例 ...
在大型语言模型(LLMS)中,某些神经元可以存储在预训练期间学习的不同知识。尽管知识通常是关系和实体的结合,但尚不清楚某些神经元是否专注于关系本身 - 独立于任何实体。我们假设此类神经元检测到涉及这种关系的输入文本和指导产生中的关系 ...
当前基于解码器的预训练语言模型(PLM)成功地展示了多语言功能。但是,目前尚不清楚这些模型如何处理多语言。我们分析了基于多语言解码器的PLM的神经元级内部行为,专门研究了神经元的存在,这些神经元在仅解码器的多语言PLM中发射``独特''''独特的'' ...