大型语言模型 (LLM) 是计算和内存高度密集型的,对高性能 GPU 提出了很高的要求。与此同时,晶体管尺寸的缩小和工作电压的降低推动了 GPU 技术的进步,使得这些设备越来越容易出现软错误。虽然之前的工作已经检验了 GPU 的可靠性,但大多数研究都集中在通用应用程序或主要用于分类和检测等视觉任务的传统神经网络上。相比之下,尽管现代大规模 LLM 在不同的应用场景中得到了快速采用,但对它们的系统分析仍然有限。鉴于 LLM 的独特特征,它们对软错误的恢复能力可能与早期模型有很大不同。为了弥补这一差距,我们进行了 LLM 推理的首次指令级故障注入研究。我们的方法从多个角度揭示了可靠性特征,突出了模型架构、参数规模和任务复杂性的影响。这些发现为 LLM 可靠性提供了新的见解,并为更有效的容错机制的设计提供了信息 ...

0 0 0 0 2026/03/30 arXiv:2601.19912v1 w.hat

大型语言模型 (LLM) 向超长上下文应用的演进面临着 Transformer 架构的高计算和内存成本带来的挑战。虽然现有的稀疏和线性注意力机制试图缓解这些问题,但它们通常涉及内存效率和模型性能之间的权衡。本文介绍了 MiniCPM-SALA,这是一种 9B 参数混合架构,它将稀疏注意力的高保真长上下文建模(InfLLM-V2)与线性注意力的全局效率(Lightning Attention)相结合。通过采用层选择算法以 1:3 的比例集成这些机制并利用混合位置编码 (HyPE),该模型保持了长上下文任务的效率和性能。此外,我们引入了一种经济高效的持续训练框架,将预训练的基于 Transformer 的模型转换为混合模型,与从头开始训练相比,训练成本降低了约 75%。大量实验表明,MiniCPM-SALA 保持了与全注意力模型相当的一般能力,同时提供了更高的效率。在单个 NVIDIA A6000D GPU 上,该模型在 256K token 的序列长度下实现了全注意力模型推理速度的 3.5 倍,并支持高达 1M token 的上下文长度,这是传统全注意力 8B 模型由于内存限制而失败的规模 ...

0 0 0 0 2026/03/30 arXiv:2602.11761v2 jessiewei7

机器取消学习是一个新兴领域,它有选择地从训练模型中删除特定的数据样本。此功能对于解决隐私问题、遵守数据保护法规以及纠正某些数据引入的错误或偏见至关重要。与传统的机器学习不同,传统的机器学习模型一旦训练后通常是静态的,而机器取消学习有利于动态更新,使模型能够“忘记”信息,而无需从头开始完全重新训练。有多种机器取消学习方法,其中一些在数据删除请求较少时更省时。为了减少此类机器取消学习方法的执行时间,我们的目标是基于删除某些数据不会产生可区分的重新训练模型的基本假设来减少数据删除请求的大小。我们首先提出不必要的取消学习的概念,这表明模型在删除一些数据点后不会发生明显改变。随后,我们回顾可用于解决我们的问题的现有解决方案。我们强调了它们在适应不同的遗忘场景方面的局限性以及它们对手动选择参数的依赖。因此,我们提出了 FUNU,一种识别导致不必要的遗忘的数据点的方法。 FUNU 规避了现有解决方案的局限性。这个想法是发现删除请求中与剩余数据集中具有相似邻居的数据点。受模型记忆领域的启发,我们利用参考模型来设置用于寻找邻居的参数。我们对 FUNU 提供的隐私保证进行了理论分析,并进行了大量的实验来验证其有效性 ...

0 0 0 0 2026/03/30 arXiv:2501.16614v1 hhhhh

基于对比学习(CL)的推荐系统在异构图(HG)的背景下获得了突出的地位,因为它们能够增强不同视图之间表示的一致性。然而,现有框架经常忽视这样一个事实,即 HG 内的用户-项目交互受到不同潜在意图(例如,项目受众的品牌偏好或人口统计特征)的控制,这对于捕获细粒度关系至关重要。对这些潜在意图的探索,特别是通过 HG 中的元路径的视角,给我们带来了两个主要挑战:i)如何将 CL 与意图相结合; ii) 如何减轻元路径驱动意图的噪音。为了应对这些挑战,我们提出了一个名为意图引导异构图对比学习(IHGCL)的创新框架,该框架旨在通过捕获元路径中包含的意图来增强基于 CL 的推荐。具体来说,IHGCL框架包括:i)基于元路径的双重对比学习(DCL)方法,将意图有效地整合到推荐中,构建意图-意图对比和意图-交互对比; ii) 瓶颈自动编码器(BAE),它将掩码传播与信息瓶颈原理相结合,以显着减少元路径引入的噪声扰动。对六个不同数据集进行的实证评估表明,我们的 IHGCL 框架相对于传统基线方法具有卓越的性能。我们的模型实现可以通过此 https URL 获得 ...

0 0 0 0 2026/03/30 arXiv:2407.17234v2 saya

在神经组合优化 (CO) 中,强化学习 (RL) 可以将深度神经网络转变为快速、强大的 NP 难题启发式求解器。这种方法在实际应用中具有巨大的潜力,因为它可以在没有具备丰富领域知识的专家指导的情况下找到接近最优的解决方案。我们引入了多重最优策略优化 (POMO),这是一种用于构建此类启发式求解器的端到端方法。 POMO 适用于广泛的 CO 问题。它旨在利用 CO 解决方案表示中的对称性。 POMO 使用修改后的 REINFORCE 算法,强制针对所有最佳解决方案进行不同的部署。根据经验,POMO 的低方差基线使得 RL 训练快速且稳定,并且与之前的方法相比,它更能抵抗局部极小值。我们还引入了一种新的基于增强的推理方法,它与 POMO 很好地配合。我们通过解决三个流行的 NP 难题来证明 POMO 的有效性,即旅行推销员 (TSP)、容量车辆路径 (CVRP) 和 0-1 背包 (KP)。对于这三个问题,我们基于 POMO 的求解器在性能上比所有最近学习的启发式方法都有显着提高。特别是,我们与 TSP100 实现了 0.14% 的最优性差距,同时将推理时间减少了一个数量级以上 ...

0 0 0 0 2026/03/30 arXiv:2010.16011v3 eatme

交错推理范例通过视觉反馈增强了多模态大型语言模型(MLLM),但受到重新编码像素密集图像的高昂计算成本的阻碍。一种有前景的替代方案——潜在视觉推理——绕过了这一瓶颈,但也面临着局限性:由于单步、非交错结构,方法要么无法捕获中间状态演化,要么因过度压缩特征而牺牲精确的感知建模。我们引入了交错潜在视觉推理(ILVR),这是一个将动态演化与精确感知建模相结合的框架。 ILVR 将文本生成与潜在的视觉表示交织在一起,作为后续推理的特定的、不断发展的线索。具体来说,我们采用一种自我监督策略,其中动量教师模型有选择地将相关特征从真实中间图像中提取为稀疏监督目标。这种自适应选择机制引导模型自主生成上下文感知的视觉信号。对多模态推理基准的大量实验表明,ILVR 优于现有方法,有效地弥合了细粒度感知和顺序多模态推理之间的差距。该代码可从此 https URL 获取 ...

0 0 0 0 2026/03/30 arXiv:2512.05665v3 qzfm

最近多功能大语言模型(LLM)的激增很大程度上取决于通过偏好学习将功能日益强大的基础模型与人类意图结合起来,从而增强LLM在广泛的上下文中具有出色的适用性和有效性。尽管进行了大量的相关研究,但关于如何将人类偏好引入 LLM 的观点仍然有限,这可能会妨碍人们更深入地理解人类偏好与 LLM 之间的关系以及认识到它们的局限性。在本次调查中,我们从以偏好为中心的角度回顾了 LLM 人类偏好学习的进展,涵盖偏好反馈的来源和格式、偏好信号的建模和使用,以及对一致的 LLM 的评估。我们首先根据数据源和格式对人类反馈进行分类。然后,我们总结了人类偏好建模的技术,并比较了不同模型流派的优缺点。此外,我们提出了按目标排序的各种偏好使用方法,以利用人类偏好信号。最后,我们总结了一些评估 LLM 与人类意图一致性的流行方法,并讨论了我们对 LLM 人类意图一致性的展望 ...

0 0 0 0 2026/03/30 arXiv:2406.11191v2 juehuang2660

世界模型学习预测环境的未来状态,从而实现规划和心理模拟。当前的方法默认使用在学习的潜在空间中运行的基于 Transformer 的预测器。这是有代价的:O(N^2) 计算并且没有显式的空间归纳偏差。本文提出了一个基本问题:自注意力对于预测世界建模是否必要,或者替代计算基底能否获得可比或更好的结果?我介绍 FluidWorld,这是一个概念验证的世界模型,其预测动力学由反应扩散类型的偏微分方程 (PDE) 控制。 PDE 积分本身会产生未来状态预测,而不是使用单独的神经网络预测器。在无条件 UCF-101 视频预测(64x64、~800K 参数、相同的编码器、解码器、损失和数据)上进行严格参数匹配的三向消融中,FluidWorld 与 Transformer 基线(自注意力)和 ConvLSTM 基线(卷积递归)进行比较。虽然所有三个模型都收敛到可比较的单步预测损失,但 FluidWorld 实现了 2 倍的较低重建误差,生成的表示形式的空间结构保留率提高了 10-15%,有效维度提高了 18-25%,并且在两个基线快速退化的情况下严格保持了连贯的多步推出。所有实验均在一台消费级 PC(Intel Core i5、NVIDIA RTX 4070 Ti)上进行,没有任何大规模计算。这些结果表明,基于偏微分方程的动力学本质上提供了 O(N) 空间复杂度、自适应计算和通过扩散的全局空间一致性,是世界建模中注意力和卷积递归的可行且参数高效的替代方案 ...

0 0 0 0 2026/03/30 arXiv:2603.21315v1 susu_kk

类人机器人的长视野、高动态运动跟踪仍然很脆弱,因为绝对关节命令无法补偿模型与设备的不匹配,从而导致误差累积。我们提出了 RobotDancing,这是一个简单的、可扩展的框架,可以预测残余关节目标以明确纠正动态差异。该管道是端到端的——训练、模拟到模拟验证和零样本模拟到真实——并使用具有统一观察、奖励和超参数配置的单阶段强化学习 (RL) 设置。我们主要使用重定向的 LAFAN1 舞蹈序列对 Unitree G1 进行评估,并在 H1/H1-2 上验证传输。 RobotDancing 可以跟踪多分钟、高能量的行为(跳跃、旋转、侧手翻),并将零射击部署到具有高运动跟踪质量的硬件 ...

0 0 0 0 2026/03/30 arXiv:2509.20717v1 qinhui_cici

专家混合 (MoE) 架构是一种用于扩展语言模型的强大技术,但它经常遭受专家同质化的困扰,即专家学习冗余功能,从而限制了 MoE 的全部潜力。为了解决这个问题,我们引入了专家分歧学习,这是一种新颖的预训练策略,明确鼓励专家之间的功能专业化。我们的方法结合了标签驱动的辅助损失,利用预训练语料库中固有的域标签来最大化不同数据域的专家路由分布之间的 Jensen-Shannon 分歧。这种优化目标指导模型为不同的域开发不同的路由策略,为同一域开发更接近的路由策略,从而导致出现紧急且有组织的专家专业化。我们通过从头开始预训练多达 150 亿个参数的 MoE 模型来验证我们的方法。实验结果表明,使用专家分歧学习训练的模型不仅实现了较低的语言建模损失,而且在各种下游基准测试中表现出显着的性能改进。进一步的分析证实,我们的方法有效地减轻了专家同质化并带来了更大的功能专业化,所有这些在训练期间的计算开销都可以忽略不计 ...

0 0 0 0 2026/03/30 arXiv:2603.00054v1 ziyanhuang