文本的结构化和基础表示通常通过封闭信息提取来形式化,即从知识库模式中提取与预定义的实体和关系集一致的详尽的(主题、关系、对象)三元组集的问题。大多数现有工作都是容易出现错误累积的管道,并且所有方法仅适用于不切实际的少量实体和关系。我们引入 GenIE(生成信息提取),这是封闭信息提取的第一个端到端自回归公式 ...
最新研究显示,使用一个生成语言模型 (GLM) 对所有典型信息提取任务 (UIE) 进行普遍建模具有巨大潜力,其中各种 IE 预测在 GLM 下统一为线性化分层表达式。句法结构信息作为IE社区中广泛使用的一种有效特征,也应该对UIE有利。在这项工作中,我们提出了一种新颖的结构感知 GLM,充分释放 UIE 句法知识的力量 ...
少镜头关系提取涉及使用有限数量的带注释的样本来识别文本中两个特定实体之间的关系类型。通过应用元学习和神经图技术,已经出现了针对此问题的各种解决方案,这些技术通常需要适应训练过程。最近,无需培训的情境学习策略已显示出显着的效果 ...
事件提取等信息提取任务需要深入了解输出结构和子任务依赖关系。他们严重依赖(段落、目标结构)对形式的特定任务训练数据来获得合理的性能。然而,通过人工注释获取此类数据的成本高昂,导致迫切需要低资源信息提取方法,这些方法在实际应用中需要最少的人工标记 ...
我们提出了一个新的框架,增强自然语言之间的翻译(TANL),来解决许多结构化预测语言任务,包括联合实体和关系提取、嵌套命名实体识别、关系分类、语义角色标记、事件提取、共指解析和对话状态追踪。我们没有通过训练特定于任务的判别分类器来解决问题,而是将其构建为增强自然语言之间的翻译任务,从中可以轻松提取与任务相关的信息。我们的方法可以在所有任务上匹配或优于特定于任务的模型,特别是在联合实体和关系提取(CoNLL04、ADE、NYT 和 ACE2005 数据集)、关系分类(FewRel和 TACRED),以及语义角色标签(CoNLL-2005 和 CoNLL-2012) ...
在本文中,我们提出了一种从非结构化文本中提取联合实体和关系的新方法,将其视为条件序列生成问题。与从左到右标记级生成器的传统生成信息提取模型相比,我们的方法是 \textit{span-based}。它生成一个线性化图,其中节点表示文本范围,边表示关系三元组 ...
关系分类旨在预测句子中两个实体之间的关系。现有方法将所有关系视为句子中两个实体的候选关系。这些方法忽略了实体类型对候选关系的限制,导致一些不合适的关系成为候选关系 ...
大型语言模型 (LLM) 可以仅通过任务指令和一些输入输出示例来执行新任务,而无需优化任何参数。这称为情境学习(ICL)。上下文信息提取(IE)最近引起了研究界的关注 ...
最近,基于提示的预训练语言模型学习通过利用提示作为任务指导来提高标签效率,在少量命名实体识别(NER)中取得了成功。然而,之前基于提示的少样本 NER 方法存在一些局限性,例如计算复杂度较高、零样本能力差、需要手动提示工程或缺乏提示鲁棒性。在这项工作中,我们通过提出一种新的基于提示的学习 NER 方法和问答 (QA) 来解决这些缺点,称为 QaNER ...
语言模型 (LM) 的最新进展导致了强大模型的出现,例如小型 LM(例如 T5)和大型 LM(例如 T5) ...