受到DeepSeek-R1通过基于规则的强化学习(RL)提高推理能力的成功的启发,我们引入了Video-R1,作为首次尝试系统地探索R1范式来激励多模式大型语言模型(MLLM)中的视频推理的尝试。但是,直接将RL培训与GRPO算法应用于视频推理,提出了两个主要挑战:(i)缺乏视频推理的时间建模,以及(ii)缺乏高质量的视频 - 理论数据。为了解决这些问题,我们首先提出了T-GRPO算法,该算法鼓励模型在视频中利用时间信息进行推理 ...
受大型语言模型 (LLM) 在数学和编码等客观任务中取得的显着进步的推动,人们对其模拟人类行为的潜力越来越感兴趣,这种能力对于改变社会科学研究和以客户为中心的商业洞察力具有深远的影响。然而, LLM 通常缺乏对人类认知和行为的细致理解,限制了其在社会模拟和个性化应用中的有效性。我们认为这种限制源于一个根本性的偏差:对大量、无背景的网络数据进行的标准 LLM 预训练并不能捕捉到个人随着时间的推移做出的决策、想法和行为的连续的、情境背景。为了弥补这一差距,我们引入了 HumanLLM,这是一个专为个体的个性化理解和模拟而设计的基础模型。我们首先构建认知基因组数据集,这是一个根据 Reddit、Twitter、Blogger 和 Amazon 等平台上的真实用户数据整理的大型语料库。通过涉及数据过滤、合成和质量控制的严格、多阶段管道,我们自动提取超过 550 万条用户日志,以提炼出丰富的档案、行为和思维模式。然后,我们制定不同的学习任务并进行监督微调,使模型能够预测各种个性化的人类行为、思想和经验。综合评估表明,与基础模型相比,HumanLLM 在预测用户行为和内心想法方面取得了优异的性能,更准确地模仿了用户的写作风格和偏好,并生成了更真实的用户档案。此外,HumanLLM 在域外社交智能基准上显示出显着的进步,表明泛化能力增强 ...
为了开发用于心理评估的可靠人工智能,我们引入了 \texttt{PsychEval},这是一个多会话、多种治疗和高度现实的基准,旨在解决三个关键挑战:\textbf{1) 我们可以训练一个高度现实的人工智能咨询师吗?}现实咨询是一项纵向任务,需要持续记忆和动态目标跟踪。我们提出了一个多会话基准(跨越三个不同阶段的 6-10 个会话),该基准需要记忆连续性、自适应推理和纵向规划等关键功能。该数据集注释有广泛的专业技能,包括超过 677 种元技能和 4577 种原子技能。 \textbf{2) 如何训练多疗法人工智能咨询师?}虽然现有模型通常专注于单一疗法,但复杂的病例往往需要在各种疗法之间采取灵活的策略。我们构建了一个涵盖五种治疗方式(心理动力学、行为主义、CBT、人本主义存在主义和后现代主义)的多样化数据集,以及跨六个核心心理学主题的统一三阶段临床框架的综合治疗。 \textbf{3) 如何系统地评估人工智能咨询师?}我们建立了一个整体评估框架,其中包含跨客户级别和咨询师级别维度的 18 个治疗特定和治疗共享指标。为了支持这一点,我们还构建了 2,000 多个不同的客户档案。广泛的实验分析充分验证了我们数据集的卓越质量和临床保真度。至关重要的是, \texttt{PsychEval} 超越了静态基准测试,成为一个高保真强化学习环境,能够对临床责任和自适应人工智能顾问进行自我进化培训 ...
大型多模型(LMM)受益于训练有素训练的视觉编码器,在各种视觉感知任务中都取得了出色的性能。但是,对比度学习对总结描述的固有局限性从根本上限制了模型在细致的推理中的能力,尤其是在几何问题解决的关键情况下。为了增强几何理解,我们为视觉编码器提出了一个新型的硬性负面对比学习框架,该框架结合了基于图像的对比度学习,该学习使用基于生成的硬核剂来通过扰动图生成代码创建的基于世代的硬质量,以及基于基于规则的基于经文本的对比性学习,该基于基于规则的否定词是从修改后的几何描述和基于基于主角类似的基于基于主角的基于基于基于基于的基于基于基于基于的基础的负面的负面的 ...
Nano-Banana 和 Seedream 4.0 最近的流行度突显了社区对多图像合成任务的浓厚兴趣。与单图像编辑相比,多图像合成在一致性和质量方面提出了更大的挑战,但现有模型尚未公开实现高质量融合的具体方法细节。通过统计分析,我们将人机交互(HOI)确定为社区最抢手的类别。因此,我们系统地分析和实施了最先进的多图像合成解决方案,主要关注以 HOI 为中心的任务。我们推出了 Skywork UniPic 3.0,这是一个集成了单图像编辑和多图像合成的统一多模式框架。我们的模型支持任意 (1~6) 数量和分辨率的输入图像,以及任意输出分辨率(在 1024x1024 的总像素预算内)。为了解决多图像合成的挑战,我们设计了全面的数据收集、过滤和合成管道,仅用 70 万个高质量训练样本即可实现强大的性能。此外,我们引入了一种新颖的训练范例,将多图像合成表述为序列建模问题,将条件生成转化为统一的序列合成。为了加速推理,我们将轨迹映射和分布匹配集成到训练后阶段,使模型只需 8 个步骤即可生成高保真样本,并比标准合成采样实现 12.5 倍的加速。 Skywork UniPic 3.0 在单图像编辑基准上实现了最先进的性能,并在多图像合成基准上超越了 Nano-Banana 和 Seedream 4.0,从而验证了我们的数据管道和训练范例的有效性。代码、模型和数据集是公开的 ...
在本文中,我们揭示了当前大多数有效的多模态微调方法都受到一个关键限制的阻碍:它们直接借鉴于 LLM ,往往忽略了多模态场景的内在差异,甚至影响了所有模态的充分利用。受我们经验观察的启发,我们认为单模态适应和跨模态适应是有效微调 MLLM 的两个重要部分。从这个角度来看,我们提出了多模态低秩适应(MokA),这是一种考虑多模态特征的多模态感知高效微调策略。它通过特定于模态的参数压缩单模态信息,同时显式增强跨模态交互,确保单模态和跨模态适应。广泛的实验涵盖了三种代表性的多模式场景(音频-视觉-文本、视觉-文本和语音-文本)和多个LLM骨干(LLaMA2/3、Qwen2、Qwen2.5-VL等)。持续的改进表明了所提出方法的有效性和多功能性。还进行了消融研究和效率评估,以充分评估我们的方法。总体而言,我们认为 MokA 为 MLLM 的高效适应提供了更有针对性的解决方案,为进一步探索铺平了道路。项目页面位于此 https URL ...
事故严重程度预测在运输安全系统中起着至关重要的作用,但由于数据不完整、特征依赖性强以及严重的类别不平衡(其中罕见但严重程度高的案例代表性不足且难以检测),事故严重程度预测一直是一项艰巨的任务。现有的方法通常依赖于整体模型或黑盒提示,这些模型很难在嘈杂的现实环境中进行扩展,并且可解释性有限。为了应对这些挑战,我们提出了 MARBLE 一种基于多代理规则的 LLM 引擎,该引擎将严重性预测任务分解为一组专门的推理代理,包括可互换的 ML 支持的代理。每个智能体都专注于特征的语义子集(例如空间、环境、时间),从而实现范围推理和模块化提示,而无需担心提示饱和的风险。预测是通过基于规则或 LLM 指导的共识机制来协调的,这些机制考虑了类别的稀有性和置信动态。该系统保留代理级推理和协调结果的结构化跟踪,支持深入的可解释性和事后性能诊断。在英国和美国的数据集中,MARBLE 始终优于传统的机器学习分类器和最先进 (SOTA) 的基于提示的推理方法,包括思想链 (CoT)、从最少到最多 (L2M) 和思想树 (ToT),实现了近 90% 的准确率,而其他方法则低于 48%。这一性能重新定义了现实世界噪声和极端类别不平衡下事故严重程度分类的实际上限。我们的结果将 MARBLE 定位为一种可概括且可解释的框架,用于在安全关键型应用中的不确定性下进行推理 ...
人类可以利用符号推理和直观反应。相比之下,加强学习政策通常在依赖预定义符号和规则的不透明系统或符号系统等不透明系统中编码。这种脱节的方法严重限制了药物的能力,因为它们通常缺乏神经剂的柔性低水平反应特征或符号剂的可解释推理 ...
图像分割是将具有不同语义的像素分组,例如类别或实例成员资格,其中每个语义选择定义一个任务。虽然每个任务的语义有所不同,但当前的研究重点是为每个任务设计专门的架构。我们提出了 Masked-attention Mask Transformer (Mask2Former),这是一种能够解决任何图像分割任务(全景、实例或语义)的新架构。其关键组成部分包括屏蔽注意力,它通过限制预测屏蔽区域内的交叉注意力来提取局部特征。除了将研究工作量减少至少三倍之外,它在四个流行数据集上的性能也显着优于最好的专用架构。最值得注意的是,Mask2Former 为全景分割(COCO 上的 57.8 PQ)、实例分割(COCO 上的 50.1 AP)和语义分割(ADE20K 上的 57.7 mIoU)设定了新的最先进水平 ...
现代方法通常将语义分割制定为每像素分类任务,而实例级分割则通过替代掩模分类来处理。我们的主要见解:掩模分类足够通用,可以使用完全相同的模型、损失和训练过程以统一的方式解决语义级和实例级分割任务。根据这一观察,我们提出了 MaskFormer,这是一个简单的掩模分类模型,它预测一组二进制掩模,每个掩模与单个全局类标签预测相关联。总体而言,所提出的基于掩模分类的方法简化了语义和全景分割任务的有效方法的景观,并显示出出色的实证结果。特别是,我们观察到当类数量很大时,MaskFormer 的性能优于每像素分类基线。我们基于掩模分类的方法优于当前最先进的语义(ADE20K 上为 55.6 mIoU)和全景分割(COCO 上为 52.7 PQ)模型 ...