比较微调模型与加强学习(RL)和监督微调(SFT)的比较表明,尽管在新任务上进行了类似的性能,但RL仍能确保先验知识和能力明显更好。我们发现,遗忘程度取决于分配变化,以分配转移为衡量,是根据新任务评估的微调和基本策略之间的KL差异。我们的分析表明,在解决新任务的许多解决新任务之间,policy rl隐含地偏向KL-最低解决方案,而SFT可以收敛到远离基本模型的分布 ...
配备逐步思维功能的多模式大语言模型(MLLM)在复杂的推理问题上表现出色。但是,对于无需复杂推理即可解决的简单问题,此思维过程是多余的。为了解决这种效率低下,我们提出了一种自动思想的MLLM R-4B,可以根据问题的复杂性自适应地决定何时思考 ...
磁性Weyl Semimetal Co $ _3 $ sn $ _2 $ s $ _2 $中的多个结晶终端显示出独特的拓扑表面状态和微不足道的表面状态,这些状态已成功地进行了实验区分。但是,已知纯终止模型是不足的,因为这些表面表现出高度的空间异质性和点障碍。在这里,我们使用光发射测量与核心水平的第一原理计算相结合,对表面化学和表面电子结构进行了光谱显微镜研究 ...
我们提出GLM-4.1V思维,这是一种旨在推进通用多种模束推理的视觉模型(VLM)。 In this report, we share our key findings in the development of the reasoning-centric training framework. ...
自动GUI代理旨在通过在数字环境(例如Web,Mobile,台式设备)中自动执行复杂的任务来促进用户交互。它接收文本任务指令和GUI描述以生成可执行的操作(\ emph {例如 ...
构建图形用户界面(GUI)代理是一个有前途的研究方向,它模拟了与计算机或手机的人类互动以执行各种GUI任务。但是,开发广义GUI代理的主要挑战是在各种操作系统和应用程序中缺乏足够的轨迹数据,这主要是由于手动注释的高成本。在本文中,我们提出了TONGUI框架,该框架通过从丰富的多模式Web教程中学习来建立广义的GUI代理 ...
图形用户界面(GUI)代理为自动化复杂的数字任务提供跨平台解决方案,具有转换生产力工作流程的巨大潜力。但是,它们的性能通常受到高质量轨迹数据的稀缺性的限制。为了解决这一限制,我们在专门的中期训练阶段提出了培训视觉语言模型(VLM),推理密集型任务,然后研究如何纳入这些任务如何促进对GUI计划方案的概括 ...
我们建议使用移动GUI任务自动化代理V-Droid。与以前利用大型语言模型(LLM)作为发电机直接生成操作的移动代理不同,V-Droid在做出最终决策之前使用LLMS作为验证者来评估候选行动。为了实现这种新颖的范式,我们介绍了一个综合框架,用于构建验证者驱动的移动剂:离散的动作空间构建,再加上仅预填充的工作流程,以加速验证过程,配对进度偏好培训,以显着增强了验证能力,可衡量的验证能力,并有效地缩放了可伸缩的人类代理,以有效地收集量表 ...
大型语言模型(LLM)代理在多域任务中表现出显着的概括能力。现有的代理调整方法通常在整个专家轨迹上采用监督的固定。但是,全面轨迹的行为限制会引入专家偏见,并削弱专家数据所涵盖的状态 ...