检索增强的生成(RAG)通常集成到大型语言模型(LLMS)中,以减轻幻觉和知识过时。而传统的一步检索方法不足以回答多跳的问题,面临着检索语义不匹配的挑战和处理相互依存的子问题的高成本。在本文中,我们提出了优化的问题语义空间,用于动态检索启动的多跳问题回答(q-dream) ...
In this paper, we identify a critical problem, "lost-in-retrieval", in retrieval-augmented multi-hop question answering (QA): the key entities are missed in LLMs' sub-question decomposition. “退缩损失”大大降 ...
多跳问答(MHQA)任务渗透到现实世界中的应用程序,在整理各种知识领域的多步推理方面提出了挑战。尽管迭代检索已经改善了现有方法,但他们仍然很难识别和组织动态知识。为了解决这个问题,我们提出了Dualrag,这是一个协同的双进程框架,无缝地集成了推理和检索 ...
多模式情感分析(MSA)整合了各种方式(文本,音频和视频),以全面分析和理解个人的情绪状态。但是,不完整数据的现实世界普遍存在对MSA构成了重大挑战,这主要是由于丢失了模态的随机性。此外,多模式数据中的异质性问题尚待有效解决 ...
我们提出了多章阵,这是一个开创性的基准测试,评估了与人类用户进行多转交流的大型语言模型(LLM),这是其应用程序的至关重要但不受欢迎的功能。 Multichallenge确定了多转向对话中的四类挑战,这些挑战不仅在当前的人类互动中是普遍且现实的,而且对所有当前的Frontier LLM都充满挑战。所有4个挑战都需要同时准确的指导遵循,上下文分配和中文推理 ...
经过思考链(COT)推理具有明显的最先进的AI功能。但是,最近的研究表明,当模型在提示中面临明显的偏见时,COT推理并不总是忠实的 ...
最近的研究强调了基于消息的图形神经网络(GNN)的局限性,例如有限的模型表达性,过度平滑,过度阵列等 ...
NLP研究越来越集中于主观任务,例如情绪分析。但是,现有的情感基准有两个主要的缺点:(1)它们很大程度上依赖于基于关键字的情感识别,忽略了更深入的情感理解所需的关键文化维度,并且(2)许多是通过将英语注释的数据转换为其他语言而创建的,从而导致潜在的不可靠的评估。为了解决这些问题,我们介绍了情感文化镜头(Culemo),这是第一个旨在评估跨六种语言的文化情感预测的基准:Amharic,Arabic, ...