文档结构化提取(DSE)旨在从原始文档中提取结构化内容。尽管出现了许多DSE系统,但他们的统一评估仍然不足,这极大地阻碍了该领域的进步。这个问题主要归因于现有的基准范式,这些基准范式表现出碎片和局部特征 ...
受限的解码,一种用于在语言模型输出上强制约束的技术,提供了一种控制文本生成的方法,而无需重新训练或建筑修改。但是,它的应用程序通常仅限于使用户访问下一言发行的模型(通常是通过SoftMax Logits),这对Blackbox大语言模型(LLMS)构成了限制。本文介绍了素描引导的约束解码(SGCD),这是一种针对BlackBox LLM的约束解码的新方法,该方法无需访问BlackBox LLM的逻 ...
Transformer 架构在各种模型中占主导地位。作为 Transformer 的核心,注意力的计算复杂度为 O(N^2),而线性变换的计算复杂度为 O(N)。当处理大序列长度时,注意力成为主要耗时的组成部分 ...
在不忘记过去任务的情况下不断学习的能力是人工学习系统的所需属性。在人工神经网络中实现此类学习的现有方法通常依赖网络增长,基于重要性的重量更新或从内存中重播旧数据。相比之下,我们提出了一种新颖的方法,即神经网络通过朝着正交方向采取梯度步骤来学习对过去任务很重要的梯度子空间来学习新任务 ...
大型语言模型(LLM)的发展经常面临挑战,这是由于对人类反馈(RLHF)框架的强烈依赖人类注释者的依赖,或者与自我教学范式相关的频繁且昂贵的外部查询。在这项工作中,我们转向加强学习(RL) - 但有所不同。在指令数据培训之后,我们与典型的RLHF有所不同,该RLM可以通过RL直接生成仅用于微调的基础指令数据集 ...
进化算法(EA)在解决复杂组合优化问题方面取得了显着成功。但是,EAS经常在域专业知识的帮助下需要精心设计的运营商,以实现令人满意的性能。在这项工作中,我们将第一项关于大语言模型(LLM)作为进化组合优化的研究 ...
继大型语言模型(LLM)取得重大成就之后,研究人员将上下文学习用于文本分类任务。然而,这些研究侧重于单语言、单轮分类任务。在本文中,我们介绍了 LARA(语言自适应检索增强语言模型),旨在提高六种语言的多轮分类任务的准确性,适应聊天机器人交互中的众多意图 ...
低资源语言由于缺乏足够的语言数据,资源和工具而面临重大挑战,例如有监督的学习,注释和分类。这种短缺阻碍了准确的模型和数据集的开发,因此很难执行关键的NLP任务,例如情感分析或仇恨语音检测。为了弥合这一差距,大语言模型(LLMS)为潜在注释者提供了机会,能够为这些代表性不足的语言生成数据集和资源 ...