在本报告中,我们介绍了第三份有关慢速思维模型的发展的技术报告,这是静止项目的一部分。随着技术途径变得更加清晰,扩展RL培训已成为实施此类推理模型的中心技术。我们系统地实验并记录了影响RL训练的各种因素的影响,对基本模型和微调模型进行实验 ...
使用大型语言模型 (LLM) 的检索增强生成 (RAG) 系统通常会由于检索不相关或松散相关的信息而生成不准确的响应。现有的在文档级别操作的方法无法有效过滤掉此类内容。我们提出了 LLM 驱动的块过滤 ChunkRAG,这是一个通过在块级别评估和过滤检索到的信息来增强 RAG 系统的框架 ...
检索增强生成(RAG)通过整合外部知识来增强大语言模型(LLM)的问答(QA)能力。然而,由于分布变化和对特定领域数据的访问有限,使通用 RAG 系统适应科学和医学等专业领域会带来独特的挑战。为了解决这个问题,我们提出了 SimRAG,这是一种自我训练方法,为 LLM 提供问答和问题生成的联合能力,以适应领域 ...
文档布局分析对于现实世界的文档理解系统至关重要,但它遇到了速度和准确性之间具有挑战性的权衡:利用文本和视觉特征的多模态方法可实现更高的准确性,但会遭受显着的延迟,而单模态方法仅依赖于视觉功能提供更快的处理速度,但以牺牲准确性为代价。为了解决这个困境,我们引入了 DocLayout-YOLO,这是一种新颖的方法,通过预训练和模型设计中特定于文档的优化来提高准确性,同时保持速度优势。为了进行稳健的文档预训练,我们引入了 Mesh-candidate BestFit 算法,该算法将文档合成构建为二维装箱问题,生成大规模、多样化的 DocSynth-300K 数据集 ...
GPT-4o 突出的多模态功能和交互体验凸显了其在实际应用中的关键作用,但缺乏高性能的开源对应产品。在本文中,我们介绍了百川-Omni,这是第一个开源的7B多模态大语言模型(MLLM),擅长同时处理和分析图像、视频、音频和文本的模态,同时提供先进的多模态交互体验和强大的性能。我们提出了一种有效的多模态训练方案,从 7B 模型开始,经过音频、图像、视频和文本模态的多模态对齐和多任务微调两个阶段 ...
在这项工作中,我们对从输入文本创建知识图(KGC)的自动化方法感兴趣。大语言模型 (LLM) 的进展促使最近一系列将其应用于 KGC 的工作,例如 ...
处理和理解大量文本和视觉信息的文档理解是一项具有挑战性的任务。大型语言模型 (LLM) 的最新进展显着提高了该任务的性能。然而,现有方法通常关注纯文本或有限数量的文档图像,难以处理文本和图像交错的长 PDF 文档,尤其是在学术论文中 ...
随着大型语言模型在各个领域变得越来越普遍,批判性地检查其固有的局限性变得很重要。这项工作认为,语言模型中的幻觉不仅仅是偶然的错误,而是这些系统不可避免的特征。我们证明幻觉源于 LLM 的基本数学和逻辑结构 ...
基于方面的情感分析 (ABSA) 的进步促使缺乏一个用户友好的框架,该框架可以在很大程度上降低再现最先进的 ABSA 性能的难度,特别是对于初学者来说。为了满足需求,我们提出了一个基于 PyTorch 构建的模块化框架,用于可重现的 ABSA。为了促进 ABSA 研究,PyABSA 支持多个 ABSA 子任务,包括方面术语提取、方面情感分类和端到端基于方面的情感分析 ...
尽管有培养能力有能力的LLM,但维持其相关性和修正错误的方法仍然难以捉摸。因此,过去几年见证了LLM编辑技术的激增,其目标是有效地改变LLM内特定领域的行为,而不是为了其他输入的性能产生负面影响。本文深入探讨了LLM模型编辑的相关问题、方法和机遇... ...