最近的推理增强视觉-语言-动作(VLA)模型通过生成中间推理轨迹提高了端到端自动驾驶的可解释性。然而,这些模型主要描述他们的感知和打算做什么,很少质疑他们计划的行动是否安全或适当。这项工作引入了 Counterfactual VLA (CF-VLA),这是一种自我反思的 VLA 框架,使模型能够在执行之前推理并修改其计划的操作。 CF-VLA 首先生成总结驾驶意图的时间分段元动作,然后根据元动作和视觉上下文执行反事实推理。此步骤模拟潜在结果,识别不安全行为,并输出指导最终轨迹生成的纠正元操作。为了有效地获得这种自我反思能力,我们提出了一个 rollout-filter-label 管道,该管道从基础(非反事实)VLA 的 rollout 中挖掘高价值场景,并为后续训练轮次标记反事实推理痕迹。在大规模驾驶数据集上的实验表明,CF-VLA 将轨迹精度提高了 17.6%,将安全指标提高了 20.5%,并表现出自适应思维:它只在具有挑战性的场景中实现反事实推理。通过将推理痕迹从一次性描述转变为因果自我校正信号,CF-VLA 向自我反思的自动驾驶代理迈出了一步,这些代理学会在行动之前思考 ...

0 0 0 0 2026/01/07 arXiv:2512.24426v1 liangl5

从社交媒体数据中早期发现抑郁症为及时干预提供了宝贵的机会。然而,这项任务提出了重大挑战,既需要专业的医学知识,又需要开发准确且可解释的模型。在本文中,我们提出了 LLM-MTD(多任务抑郁症检测大语言模型),这是一种利用预先训练的大语言模型同时对社交媒体帖子进行抑郁症分类并生成基于医学诊断标准的文本解释的新颖方法。我们使用多任务学习框架和组合损失函数来训练我们的模型,该框架可以优化分类准确性和解释质量。我们在基准 Reddit 自我报告抑郁症数据集 (RSDD) 上评估 LLM-MTD,并将其性能与几种有竞争力的基线方法(包括传统机器学习和微调 BERT)进行比较。我们的实验结果表明,LLM-MTD 在抑郁症检测方面实现了最先进的性能,在 AUPRC 和其他关键指标方面显示出显着改进。此外,对生成的解释的人工评估揭示了它们的相关性、完整性和医学准确性,突出了我们方法的增强的可解释性。这项工作为抑郁症检测提供了一种新颖的方法,它将大型语言模型的力量与可解释性的关键方面结合起来 ...

0 0 0 0 2026/01/07 arXiv:2503.14671v1 水木凌云

关于大型语言模型(LLM)安全性的大多数讨论都集中在单一代理设置上,但是多代理LLM系统现在会产生新颖的对抗风险,因为它们的行为取决于代理商和分散推理之间的交流。在这项工作中,我们专注于攻击具有限制的 Token 带宽,消息传递之间的延迟和防御机制等构成的务实系统。我们设计了一个$ \ textIt {置换不变的对抗攻击} $,可优化跨延迟和带宽构成网络拓扑的提示分布,以绕过系统内的分布式安全机制 ...

0 0 0 0 2026/01/07 arXiv:2504.00218v2 zsc962464

深度模型的大规模预训练,然后对其进行微调,已成为自然语言处理(NLP)的基石。数据的普及与计算资源的结合导致了具有大量参数的大型模型。虽然这些模型的巨大规模在许多 NLP 任务中取得了显着的成功,但其缺点是重新训练所有基础模型参数以适应每个任务或领域所需的费用。参数高效微调 (PEFT) 通过在保持模型质量的同时最大限度地减少需要微调的参数数量,为这一挑战提供了有效的解决方案。虽然现有方法取得了令人印象深刻的结果,但它们主要侧重于调整参数子集、权重重新参数化和即时工程。在本文中,我们研究了将层作为不同类型语言信息的提取器,这些信息在结合使用时非常有价值。然后,我们提出了混合层专家(MoLEx),这是一种新颖的稀疏专家混合(SMoE),其专家是预训练模型中的层。它在微调期间对混合层执行条件计算,为模型提供更多有关数据的结构知识。通过提供层间信息交换的途径,MoLEx 使模型能够对下游任务做出更明智的预测,从而使用相同数量的有效参数获得更好的微调结果。由于专家可以并行处理,MoLEx 引入的额外计算开销最小。我们根据经验证实了 MoLEx 与流行的 PEFT 基线方法在各种下游微调任务上结合时的优势,包括流行的 GLUE 基准测试以及端到端挑战 (E2E)。该代码可通过此 https URL 公开获取 ...

0 0 0 0 2026/01/07 arXiv:2503.11144v1 15966829631

由于任务的固有复杂性和上下文窗口约束,长期的视频理解(LVU)对当前多模式大型语言模型(MLLM)提出了重大挑战。人们普遍认为,解决LVU任务需要具有扩展上下文窗口,强大的视觉感知功能和熟练域专业知识的基础MLLM。在这项工作中,我们通过介绍VideodePresearch(一种新型的代理框架,供长期视频理解,我们挑战了这种共同的信念 ...

0 1 0 0 2026/01/07 arXiv:2506.10821v6 luke

推断人景接触 (HSC) 是了解人类如何与周围环境互动的第一步。虽然检测 2D 人与物体交互 (HOI) 和重建 3D 人体姿势和形状 (HPS) 取得了重大进展,但从单个图像推理 3D 人景接触仍然具有挑战性。现有的 HSC 检测方法仅考虑几种类型的预定义接触,通常将身体和场景简化为少量基元,甚至忽略图像证据。为了从单个图像预测人类场景接触,我们从数据和算法的角度解决了上述局限性。我们捕获了一个名为 RICH 的新数据集,用于“真实场景、交互、接触和人类”。 RICH 包含 4K 分辨率的多视图室外/室内视频序列、使用无标记运动捕捉捕获的真实 3D 人体、3D 人体扫描和高分辨率 3D 场景扫描。 RICH 的一个关键特性是它还包含身体上准确的顶点级接触标签。使用 RICH,我们训练了一个网络,该网络可以从单个 RGB 图像中预测密集的身体场景接触。我们的主要见解是,接触的区域总是被遮挡,因此网络需要能够探索整个图像以获取证据。我们使用 Transformer 来学习这种非局部关系,并提出了一种新的身体场景接触 TRansfOrmer (BSTRO)。很少有方法探索 3D 接触;那些只关注脚部,检测脚部接触作为后处理步骤,或者从身体姿势推断接触而无需查看场景。据我们所知,BSTRO 是第一种从单个图像直接估计 3D 身体场景接触的方法。我们证明 BSTRO 显着优于现有技术。代码和数据集可从此 https URL 获取 ...

0 0 0 0 2026/01/07 arXiv:2206.09553v1 小小卡拉米

注意力机制是基础模型的核心,但其二次复杂度仍然是扩展的关键瓶颈。这一挑战推动了有效注意力机制的发展,稀疏性成为主导范式。当前的方法通常保留或丢弃具有二进制掩码的整个键值块,导致高稀疏性下的大量信息丢失。为了弥补这一差距,我们提出了金字塔稀疏注意力(PSA),这是一个适用于视频理解和生成任务的多功能模块。 PSA 引入了多级池化 KV 表示,而不是二进制掩码,从而实现更精细的掩码粒度。具体来说,每个查询块动态地将较低的池化级别分配给关键的 KV 块,将较高的池化级别分配给不太重要的块,从而在完全保留和完全修剪之间创建信息插值。这种设计类似于计算机视觉中的定点量化和经典特征金字塔网络,可以有效减少信息丢失,同时在低计算预算下保持计算效率。它与本地硬件友好的内核配合使用,利用解耦的块瓦片设计来确保高效执行。在视频理解和生成基准中,PSA 保留了上下文信息和视觉保真度,始终优于现有的稀疏注意力基线或实现了与现有稀疏注意力基线相当的性能,并具有卓越的效率与质量权衡。我们的代码和模型权重可在以下位置公开获取:此 http URL ...

0 0 0 0 2026/01/07 arXiv:2512.04025v1 Daenerays

自动语音识别(ASR)近年来取得了显着的进步,这很大程度上是由基于 LLM 的 ASR 范式的出现推动的。尽管现有的基于 LLM 的 ASR 系统在各种开源基准测试中表现强劲,但仍然面临两个关键限制。首先,它们很容易出现幻觉错误,通常会生成过长且重复的输出,而这些输出在声学输入中没有很好的接地。其次,它们对灵活且细粒度的上下文定制提供有限的支持。为了应对这些挑战,我们提出了 Index-ASR,这是一种基于 LLM 的大规模 ASR 系统,旨在同时增强鲁棒性并支持可定制的热词识别。 Index-ASR的核心思想在于将LLM与富含背景噪声和上下文信息的大规模训练数据相结合。实验结果表明,我们的 Index-ASR 在开源基准测试和内部测试集上均取得了出色的性能,凸显了其对于实际 ASR 应用的鲁棒性和实用性 ...

0 0 0 0 2026/01/07 arXiv:2601.00890v1 zhangqi33

组相对策略优化 (GRPO) 通过根据共享公共输入前缀的候选输出之间的相对比较计算梯度来增强策略学习。尽管其有效性,GRPO 在处理长共享前缀时引入了大量的计算开销,必须对每个组成员进行冗余编码。这种低效率成为长上下文学习场景中的主要可扩展性瓶颈。我们提出了 Prefix Grouper,这是一种高效的 GRPO 训练算法,可通过共享前缀前向策略消除冗余前缀计算。特别是,通过将自注意力重构为两部分,我们的方法使共享前缀仅被编码一次,同时保留完全的可微性和与端到端训练的兼容性。我们提供了理论和经验证据,证明 Prefix Grouper 的训练与标准 GRPO 等效:它产生相同的前向输出和后向梯度,确保优化动态和最终策略性能保持不变。根据经验,我们的实验证实 Prefix Grouper 实现了一致的结果,同时显着降低了训练的计算成本,特别是在长前缀场景中。所提出的方法是完全即插即用的:它与现有的基于 GRPO 的架构兼容,并且可以作为直接替代品无缝集成到当前的训练管道中,不需要结构修改,只需对输入构造和注意力计算进行最小的更改。 Prefix Grouper 能够在相同的计算预算下使用更大的组大小,从而提高 GRPO 的可扩展性,以适应更复杂的任务和更大的模型。现在可在此 https URL 获取代码 ...

0 0 0 0 2026/01/07 arXiv:2506.05433v1 十门山几

我们推出了 SciEvalKit,这是一个统一的基准测试工具包,旨在评估跨广泛科学学科和任务能力的科学 AI 模型。与通用评估平台不同,SciEvalKit专注于科学智能的核心能力,包括科学多模态感知、科学多模态推理、科学多模态理解、科学符号推理、科学代码生成、科学假设生成和科学知识理解。它支持六个主要科学领域,从物理和化学到天文学和材料科学。 SciEvalKit 构建了专家级科学基准的基础,这些基准来自现实世界的特定领域数据集,确保任务反映真实的科学挑战。该工具包具有灵活、可扩展的评估管道,可以跨模型和数据集进行批量评估,支持自定义模型和数据集集成,并提供透明、可重复和可比较的结果。通过桥接基于能力的评估和学科多样性,SciEvalKit 提供了标准化但可定制的基础设施,以对下一代科学基础模型和智能代理进行基准测试。该工具包是开源的并积极维护,以促进社区驱动的 AI4Science 开发和进步 ...

0 0 0 0 2026/01/07 arXiv:2512.22334v3 erhaya