大型语言模型 (LLM) 在各种实际应用中表现出了前所未有的性能。然而,众所周知,它们会产生实际上不准确的输出,即幻觉问题。近年来,整合从知识图(KG)中提取的外部知识已成为提高 LLM 生成输出的事实准确性的一种有前景的策略。然而,现有的探索大多依赖LLM本身来进行KG知识提取,这是非常不灵活的,因为LLM只能提供是否应该使用某种知识(例如KG中的知识路径)的二元判断。此外, LLM 倾向于只选择与输入文本具有直接语义关系的知识,而具有间接语义的潜在有用知识可以被忽略。在这项工作中,我们提出了一个具有三个阶段的原则框架 KELP 来处理上述问题。具体来说,KELP 能够通过潜在语义匹配为输入文本的知识路径生成分数,从而实现更细粒度的灵活知识提取。同时,还可以通过知识图谱中所选路径与输入文本之间的训练编码来考虑与输入文本具有间接语义关系的知识路径。在真实数据集上的实验验证了KELP的有效性 ...

0 0 0 0 2026/01/31 arXiv:2406.13862v1 13766783701

知识图谱多跳问答(KGQA)旨在在大规模知识图谱(KG)上找到距离自然语言问题中提到的主题实体多跳的答案实体。为了应对巨大的搜索空间,现有的工作通常采用两阶段的方法:首先检索与问题相关的相对较小的子图,然后对子图进行推理以准确地找到答案实体。尽管这两个阶段高度相关,但以前的工作采用了截然不同的技术解决方案来开发检索和推理模型,忽略了它们在任务本质上的相关性。在本文中,我们提出了 UniKGQA,这是一种用于多跳 KGQA 任务的新方法,通过统一模型架构和参数学习中的检索和推理。对于模型架构,UniKGQA 由用于问题关系语义匹配的基于预训练语言模型(PLM)的语义匹配模块和沿着 KG 上的有向边传播匹配信息的匹配信息传播模块组成。对于参数学习,我们为检索和推理模型设计了基于问题关系匹配的共享预训练任务,然后提出面向检索和推理的微调策略。与以前的研究相比,我们的方法更加统一,检索和推理阶段紧密相关。对三个基准数据集的大量实验证明了我们的方法在多跳 KGQA 任务上的有效性。我们的代码和数据可在 ~\url{this https URL} 上公开获取 ...

0 0 0 0 2026/01/31 arXiv:2212.00959v2 13766783701

在本文中,我们的目标是提高大型语言模型(LLM)相对于知识图(KG)的推理能力,以回答复杂的问题。受设计LLM和KG之间交互策略的现有方法的启发,我们提出了一种基于LLM的自主代理框架,称为KG-Agent,它使小型LLM能够主动做出决策,直到完成对KG的推理过程。在KG-Agent中,我们集成了LLM、多功能工具箱、基于KG的执行器和知识记忆,并开发了一种迭代机制,自主选择工具然后更新记忆以对KG进行推理。为了保证有效性,我们利用程序语言在KG上制定多跳推理过程,并合成基于代码的指令数据集来微调基础LLM。大量实验表明,在域内和域外数据集上,仅使用 10K 样本来调整 LLaMA-7B 就可以优于使用更大的 LLM 或更多数据的最先进方法。我们的代码和数据将公开发布 ...

0 0 0 0 2026/01/31 arXiv:2402.11163v1 13766783701

我们通过熵最优传输的视角来概括注意力机制,揭示标准注意力对应于由隐式均匀先验正则化的传输问题。我们引入了具有可训练先验的广义最优传输注意力(GOAT),这是一种新的注意力机制,用可学习的连续先验取代了这种朴素的假设。该先验保持了与 FlashAttention 等优化内核的完全兼容性。 GOAT 还提供了基于 EOT 的注意力池解释,并为其具体化了解决方案,避免了标准注意力的代表性权衡。最后,通过将空间信息吸收到核心注意力计算中,GOAT 学习了一个可外推的先验,它将学习的位置嵌入的灵活性与固定编码的长度泛化相结合 ...

0 0 0 0 2026/01/31 arXiv:2601.15380v1 hwrabbit

大型语言模型 (LLM) 激励生成代理模拟(例如 AI Town)创建一个“动态世界”,在娱乐和研究领域具有巨大价值。然而,对于非专家,尤其是没有编程能力的人来说,自行定制可视化环境并不容易。在本文中,我们介绍了 World Craft,这是一个代理世界创建框架,可通过用户文本描述创建可执行且可视化的 AI 城镇。它由两个主要模块组成,世界支架和世界公会。 World Scaffold 是一种结构化、简洁的标准化,用于开发交互式游戏场景,为 LLM 定制可执行的类似 AI 小镇的环境提供了高效的脚手架。 World Guild 是一个多代理框架,可以从粗略的描述中逐步分析用户的意图,并综合 World Scaffold 所需的结构化内容(例如环境布局和资产)。此外,我们通过逆向工程构建了高质量的纠错数据集,以增强空间知识并提高布局生成的稳定性和可控性,同时报告多维评估指标以供进一步分析。大量实验表明,我们的框架明显优于现有的商业代码代理(Cursor 和 Antigravity)和 LLM(Qwen3 和 Gemini-3-Pro)。在场景构建和叙事意图传达方面,为环境创建的民主化提供了可扩展的解决方案 ...

0 0 0 0 2026/01/31 arXiv:2601.09150v4 waterfall666

虽然专家混合 (MoE) 架构已成为大型语言模型中稀疏扩展的标准,但它们越来越面临收益递减和系统级瓶颈。在这项工作中,我们探索嵌入缩放作为缩放稀疏性的有效正交维度。通过全面的分析和实验,我们确定了与专家缩放相比,嵌入缩放实现了优越的帕累托前沿的特定机制。我们系统地描述了控制这种功效的关键架构因素——从参数预算到与模型宽度和深度的相互作用。此外,通过集成定制的系统优化和推测解码,我们有效地将这种稀疏性转化为有形的推理加速。在这些见解的指导下,我们推出了 LongCat-Flash-Lite,这是一个从头开始训练的 68.5B 参数模型,具有约 3B 激活值。尽管为嵌入分配了超过 30B 个参数,LongCat-Flash-Lite 不仅超越了参数等效的 MoE 基线,而且相对于同等规模的现有模型也表现出了卓越的竞争力,特别是在代理和编码领域 ...

0 0 0 0 2026/01/31 arXiv:2601.21204v1 hwrabbit

语言模型 (LM) 表现出非凡的能力,可以仅通过几个示例或文本指令来解决新任务,尤其是大规模任务。矛盾的是,它们还难以实现基本功能,例如算术或事实查找,而更简单和更小的模型在这些功能上表现出色。在本文中,我们展示了 LM 可以通过简单的 API 自学使用外部工具,并实现两全其美。我们引入了 Toolformer,这是一个经过训练的模型,用于决定调用哪些 API、何时调用它们、传递哪些参数以及如何最好地将结果合并到未来的 Token 预测中。这是通过自我监督的方式完成的,只需要为每个 API 进行少量演示即可。我们整合了一系列工具,包括计算器、问答系统、两个不同的搜索引擎、翻译系统和日历。 Toolformer 在各种下游任务中显着提高了零样本性能,通常可以与更大的模型竞争,而无需牺牲其核心语言建模能力 ...

0 0 0 0 2026/01/31 arXiv:2302.04761v1 jecc

我们推出 LingBot-World,一个源于视频生成的开源世界模拟器。 LingBot-World定位于顶级世界模型,具有以下特点。 (1) 它在广泛的环境中保持高保真度和强大的动态,包括现实主义、科学背景、卡通风格等。 (2)它能够实现分钟级的视野,同时保持一段时间内的上下文一致性,这也称为“长期记忆”。 (3) 支持实时交互,每秒生成16帧时延迟低于1秒。我们提供对代码和模型的公共访问,以努力缩小开源和闭源技术之间的鸿沟。我们相信我们的发布将为社区提供内容创建、游戏和机器人学习等领域的实际应用 ...

0 0 0 0 2026/01/31 arXiv:2601.20540v1 落日一瞬

强化学习(RL)是增强大型语言模型(LLM)推理能力的关键后训练技术。然而,同步 RL 后训练经常会遇到 GPU 严重利用率不足的问题,称为“气泡”,这是由推出步骤中的响应长度不平衡造成的。许多强化学习系统试图通过放松同步来缓解这个问题,但这可能会影响训练的准确性。在本文中,我们介绍了尾批处理,这是一种用于同步强化学习的新颖的推出调度策略,它系统地将导致长尾响应的提示整合到推出步骤的一小部分(长轮)中,同时确保大多数步骤(短轮)仅涉及平衡的短推出。通过从短轮中排除长响应并将其重新安排到几个指定的长轮中,尾部批处理可以有效减少推出期间的 GPU 空闲时间,并在不牺牲准确性的情况下显着加速 RL 训练。我们推出了 RollPacker,这是一个通过所有三个 RL 阶段的整体优化来充分利用尾批处理优势的系统:用于推出的弹性并行自适应、动态资源分配和奖励调度以及基于流的训练。实证结果表明,对于 Qwen2.5 系列 LLM 在多达 128 个 H800 GPU 上,与 veRL 相比,RollPacker 实现了 2.03 倍至 2.56 倍的端到端训练时间缩短,与 RLHFuse 相比,实现了高达 2.24 倍的加速 ...

0 0 0 0 2026/01/31 arXiv:2509.21009v1 qsy

步态识别是一种快速发展的视觉技术,用于远距离识别人员,在室内环境中取得了重大进展。然而,有证据表明,现有方法在应用于新发布的真实步态数据集时往往会产生不令人满意的结果。此外,从室内步态数据集得出的结论可能不容易推广到室外步态数据集。因此,本文的主要目标是提出一项旨在提高实用性的综合基准研究,而不是仅仅专注于提高性能。为此,我们开发了OpenGait,一个灵活高效的步态识别平台。使用 OpenGait,我们进行了深入的消融实验,以重新审视步态识别的最新发展。令人惊讶的是,我们发现了一些先前方法的一些不完善的部分,从而发现了一些关键但以前被忽视的见解。这些发现促使我们开发了三种结构简单但经验强大且实用稳健的基线模型:DeepGaitV2、SkeletonGait 和 SkeletonGait++,它们分别代表了基于外观、基于模型和多模态的步态模式描述方法。除了实现最先进的性能之外,我们的仔细探索还为深度步态模型的建模体验和典型步态模式的表征能力提供了新的视角。最后,我们讨论了当前步态识别的主要趋势和挑战,旨在激发进一步的进步,以实现更好的实用性。该代码可从此 https URL 获取 ...

0 0 0 0 2026/01/31 arXiv:2405.09138v2 17733052961