在离线增强学习中,加权回归是确保学习政策与行为策略保持接近并防止选择样本外动作的常见方法。在这项工作中,我们表明,由于政策模型的分布表达有限,以前的方法仍可能在培训期间选择看不见的动作,这会偏离其最初动机。为了解决这个问题,我们通过将学习的政策分解为两个部分:表达生成行为模型和动作评估模型,采用生成方法 ...
从非结构化和未经准备的数据中学习已成为语言和视觉生成方法的主要范式。这种非结构化和未指导的行为数据(通常称为游戏)也更容易在机器人技术中收集,但由于其固有的多模式,嘈杂和次优的性质,因此更难学习。在本文中,我们研究了从非结构化播放数据中学习目标指导的技能政策的问题,该数据在事后用语言标记 ...
大型语言模型(LLMS)可以以高准确性解决算术单词问题,但对它们对更复杂的问题的推广程度知之甚少。这很难研究,因为(i)在培训期间,最有能力的模型已经看到了许多可用的评估数据,并且(ii)现有的基准并未捕获如何以各种方式任意问题。在本文中,我们提出了一个数据生成框架,用于评估具有任意复杂算术证明的问题的LLM,称为MathGap ...
二重性优化在许多机器学习任务中起着至关重要的作用,范围从高参数优化到元学习。然而,现有关于双杆优化的研究集中在集中式或同步分布式设置上。集中式的双层优化方法需要向单个服务器收集大量数据,这不可避免地会产生巨大的通信费用,并可能引起数据隐私风险 ...
大多数现有的多跳数据集都是提取答案数据集,可以直接从提供的上下文中提取问题的答案。这通常会导致模型使用启发式或快捷方式,而不是执行真正的多跳推理。在本文中 ...
数据中毒攻击欺骗推荐系统,通过将具有精心设计的评分分数的虚假用户注入推荐系统,从而做出攻击者想要的任意推荐。我们设想针对此类数据中毒攻击及其防御进行猫捉老鼠的游戏,即... ...
大型多模型模型(LMMS)均匀地感知视频帧,从而使具有固有变化的时间信息密度的视频效率低下。本文呈现\ textbf {QuickSviewer},这是一种具有新的感知范式的LMM,使用Gumbel Softmax将不均匀密度的视频分为不同的立方体,然后为每个Cube进行统一的重新采样,以获得有效的视频理解。这种简单而直观的方法基于其时间密度动态压缩视频,从而大大降低了时空的冗余(总体45 $ \ ...
Qwen系列已成为开源大型语言模型(LLM)的领先家族,在自然语言理解任务中表现出了非凡的能力。随着QWEN3最近发布的QWEN3在各种基准方面表现出卓越的性能,对在资源受限环境中有效部署这些模型的兴趣越来越越来越大。低位量化提出了一个有希望的解决方案,但其对QWEN3性能的影响仍未得到充实 ...