推测性解码是一种广泛采用的加速大型语言模型 (LLM) 推理的技术,但其在视觉语言模型 (VLM) 中的应用仍未得到充分探索,现有方法仅实现适度的加速(<1.5 倍)。随着多模式能力成为大型模型的核心,这种差距变得越来越显着。我们假设大型 VLM 可以有效地逐层过滤冗余图像信息,而不影响文本理解,而较小的草稿模型则很难做到这一点。为了解决这个问题,我们引入了视觉感知推测解码 (ViSpec),这是一种专为 VLM 量身定制的新颖框架。 ViSpec 采用轻量级视觉适配器模块将图像标记压缩为紧凑的表示,该表示无缝集成到草稿模型的注意力机制中,同时保留原始图像位置信息。此外,我们为每个输入图像提取一个全局特征向量,并用该特征增强所有后续文本标记,以增强多模态一致性。为了克服具有长助理响应的多模态数据集的稀缺性,我们通过重新利用现有数据集并使用带有修改提示的目标 VLM 生成扩展输出来管理专门的训练数据集。我们的训练策略降低了草稿模型利用直接访问目标模型隐藏状态的风险,否则当仅针对目标模型输出进行训练时,这可能会导致捷径学习。大量实验验证了 ViSpec,据我们所知,首次实现了 VLM 推测解码的大幅加速。代码可从此 https URL 获取 ...

0 0 0 0 2026/01/16 arXiv:2509.15235v5 ktka_kaka_ka

本研究提出了一个深度表格学习框架,用于使用德克萨斯州(2017-2023 年)的真实碰撞数据来预测电动汽车 (EV) 碰撞的碰撞严重程度。在过滤纯电动汽车后,分析了 23,301 条与电动汽车相关的碰撞记录。使用 XGBoost 和随机森林的特征重要性技术确定了交叉关系、首次有害事件、人员年龄、碰撞速度限制和星期几作为首要预测因素,以及自动紧急制动等高级安全功能。为了解决类别不平衡问题,应用了合成少数过采样技术和编辑最近邻 (SMOTEENN) 重采样。对三种最先进的深度表格模型 TabPFN、MambaNet 和 MambaAttention 进行了严重性预测的基准测试。 TabPFN 表现出了很强的泛化能力,而 MambaAttention 由于其基于注意力的特征重新加权,在严重伤害案例分类方面取得了优异的性能。研究结果强调了深度表格架构在改善碰撞严重程度预测和在电动汽车碰撞情况下实现数据驱动的安全干预方面的潜力 ...

0 0 0 0 2026/01/16 arXiv:2509.11449v1 nothing

在教育应用中, LLM 表现出一些基本的教学局限性,例如它们倾向于揭示解决方案而不是支持对话式学习。我们介绍 ConvoLearn(此 https URL ),这是一个基于知识构建理论的数据集,可操作六个核心教学维度:认知参与、形成性评估、问责制、文化响应性、元认知和权力动态。我们通过人类教师和模拟学生之间的受控互动,构建了中学地球科学中 1250 场师生对话(每场 20 回合)的半合成数据集。使用 QLoRA,我们证明了对该数据集的训练有意义地将 LLM 行为转向知识构建策略。 31 名教师的人工评估显示,我们经过微调的 Mistral 7B(M = 4.10,SD = 1.03)总体上明显优于其基础版本(M = 2.59,SD = 1.11)和 Claude Sonnet 4.5(M = 2.87,SD = 1.29)。这项工作建立了一个潜在的框架来指导建构主义人工智能导师的未来发展和评估 ...

0 0 0 0 2026/01/16 arXiv:2601.08950v1 nothing

视觉-语言-动作(VLA)模型已经实现了语言条件下的长视野机器人操作,但大多数现有系统仅限于夹具。由于动作空间扩大、频繁的手部物体遮挡以及收集真实机器人数据的成本,将 VLA 策略扩展到具有高自由度 (DoF) 灵巧手的双手机器人仍然具有挑战性。我们提出了 GR-Dexter,这是一个整体硬件模型数据框架,用于在双手灵巧手机器人上进行基于 VLA 的通用操作。我们的方法结合了紧凑型 21 自由度机器人手的设计、用于真实机器人数据收集的直观双手遥控系统,以及利用遥控操作机器人轨迹以及大规模视觉语言和精心策划的跨实体数据集的训练方法。在涵盖长期日常操作和通用拾放的现实世界评估中,GR-Dexter 实现了强大的域内性能,并提高了对看不见的物体和看不见的指令的鲁棒性。我们希望 GR-Dexter 能够成为通向通用灵巧手机器人操作的实际一步 ...

0 0 0 0 2026/01/16 arXiv:2512.24210v2 匆匆点灯

通过强化学习 (RL) 调整大型语言模型 (LLM) 通常会遇到生成阶段的瓶颈,该阶段可能会消耗超过 75% 的训练时间。推测解码 (SD) 加速了服务系统中的自回归生成,但其在 RL 训练下的行为在很大程度上仍未被探索。我们发现了阻碍将 SD 简单集成到 RL 系统中的三个关键差距:大批量下加速速度的降低、持续参与者更新下的起草者陈旧性以及起草者引起的策略退化。为了解决这些差距,我们提出了 ReSpec,这是一个通过三种互补机制使 SD 适应 RL 的系统:动态调整 SD 配置、通过知识蒸馏发展起草者以及通过推出奖励来加权更新。在 Qwen 模型 (3B--14B) 上,ReSpec 实现了高达 4.5 倍的加速,同时保持奖励收敛和训练稳定性,为基于 RL 的高效 LLM 适应提供了实用的解决方案 ...

0 0 0 0 2026/01/16 arXiv:2510.26475v1 ktka_kaka_ka

阅读理解最近取得了快速进展,系统在最流行的任务数据集上与人类进行匹配。然而,大量的工作凸显了这些系统的脆弱性,表明还有很多工作要做。我们引入了一个新的英语阅读理解基准,DROP,它需要对段落内容进行离散推理。在这个众包、对抗性创建的 96k 问题基准测试中,系统必须解析问题中的引用(可能是多个输入位置),并对它们执行离散操作(例如加法、计数或排序)。与之前的数据集相比,这些操作需要对段落内容有更全面的理解。我们在此数据集上应用了阅读理解和语义解析文献中最先进的方法,结果表明,最好的系统在我们的广义准确度指标上仅达到 32.7% F1,而人类专家的表现为 96.0%。我们还提出了一种新模型,它将阅读理解方法与简单的数字推理相结合,以实现 47.0% F1 ...

0 0 0 0 2026/01/16 arXiv:1903.00161v2 lalaxiao

大型语言模型 (LLM) 进步的一个关键进步是混合专家 (MoE) LLM 的出现。与传统的 LLM 相比,MoE LLM 可以用更少的参数实现更高的性能,但由于参数量巨大,部署起来仍然很困难。与以往依赖专门设计的硬件的权值剪枝方法不同,本文主要旨在通过引入即插即用的专家级稀疏技术来提高MoE LLM的部署效率。具体来说,据我们所知,我们首次提出了用于与任务无关和特定于任务的专家修剪和跳过 MoE LLM 的训练后方法,旨在提高部署效率,同时在各种任务中保持模型性能。大量的实验表明,我们提出的方法可以同时减小模型大小并提高推理速度,同时保持令人满意的性能。数据和代码将在此 https URL 中提供 ...

0 0 0 0 2026/01/16 arXiv:2402.14800v2 15966829631

涉及工具集成的复杂任务对大型语言模型 (LLM) 提出了重大挑战,从而导致多代理工作流作为一种有前途的解决方案的出现。反射已成为纠正代理工作流程中错误轨迹的有效策略。然而,现有的方法仅在行动后阶段利用这种能力,其中代理观察执行结果。我们认为,像人类一样, LLM 也可以在行动执行之前进行反思:代理可以从自己的决策中预测不良结果,这不仅为评估决策提供了必要的补充视角,而且还可以防止错误在整个轨迹中传播。在本文中,我们提出了 MIRROR,一个由内部反射(在执行前严格评估预期行动)和内部反射(根据观察进一步调整轨迹)组成的框架。该设计系统地利用LLM反思能力,在更全面的范围内消除和纠正错误行为。对 StableToolBench 和 TravelPlanner 基准的评估证明了 MIRROR 的卓越性能,与现有方法相比,实现了最先进的结果 ...

0 0 0 0 2026/01/16 arXiv:2505.20670v2 蛙isme

智能辅导系统 (ITS) 通过提供个性化的学习体验彻底改变了教育。然而,随着强调有效实现特定目标的目标导向学习在专业环境中变得越来越重要,现有的 ITS 往往难以提供这种有针对性的学习体验。在本文中,我们提出了 GenMentor,这是一个由 LLM 支持的多代理框架,旨在在 ITS 内提供面向目标的个性化学习。 GenMentor 首先使用在自定义目标到技能数据集上训练的微调 LLM ,准确地将学习者的目标映射到所需技能。在确定技能差距后,它会在学习者多方面状态的全面动态概况的驱动下,使用不断发展的优化方法来安排有效的学习路径。此外,GenMentor 通过探索-起草-整合机制定制学习内容,以满足个人学习者的需求。广泛的自动化和人工评估证明了 GenMentor 在学习指导和内容质量方面的有效性。此外,我们已经在实践中部署了它,并将其实现为应用程序。与专业学习者一起进行的实践人类研究进一步凸显了其在目标调整和资源定位方面的有效性,从而增强了个性化。可以通过此 https URL 获取补充资源 ...

0 0 0 0 2026/01/16 arXiv:2501.15749v1 Zhiyu_Yin

大型推理模型(LRM)最近在具有可验证奖励的强化学习的帮助下,在复杂推理任务中取得了重大进展。然而,LRM 经常会出现过度思考的问题,在简单问题上花费过多的计算量并降低效率。现有的高效推理方法通常需要准确的任务评估来预设 Token 预算或选择推理模式,这限制了其灵活性和可靠性。在这项工作中,我们重新审视了过度思考的本质,并发现鼓励有效的步骤,同时惩罚无效的步骤是解决问题的关键。为此,我们提出了一种新颖的基于规则的可验证逐步奖励机制(VSRM),该机制根据推理轨迹中中间状态的表现来分配奖励。这种方法很直观,自然符合推理任务的循序渐进的性质。我们通过将 VSRM 与 PPO 和 Reinforce++ 集成,对标准数学推理基准(包括 AIME24 和 AIME25)进行了广泛的实验。结果表明,我们的方法在保持原始推理性能的同时实现了输出长度的大幅减少,在效率和准确性之间取得了最佳平衡。进一步分析训练前后的过度思考频率和pass@k分数表明,我们的方法确实有效地抑制了无效步骤并鼓励有效推理,从根本上缓解了过度思考问题。所有代码将在接受后发布 ...

0 0 0 0 2026/01/16 arXiv:2508.10293v2 13026155693