bage的文档

RL's Razor: Why Online Reinforcement Learning Forgets Less

比较微调模型与加强学习（RL）和监督微调（SFT）的比较表明，尽管在新任务上进行了类似的性能，但RL仍能确保先验知识和能力明显更好。我们发现，遗忘程度取决于分配变化，以分配转移为衡量，是根据新任务评估的微调和基本策略之间的KL差异。我们的分析表明，在解决新任务的许多解决新任务之间，policy rl隐含地偏向KL-最低解决方案，而SFT可以收敛到远离基本模型的分布 ...

0 1 0 0 2025/09/09 arXiv:2509.04259v1 bage

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

配备逐步思维功能的多模式大语言模型（MLLM）在复杂的推理问题上表现出色。但是，对于无需复杂推理即可解决的简单问题，此思维过程是多余的。为了解决这种效率低下，我们提出了一种自动思想的MLLM R-4B，可以根据问题的复杂性自适应地决定何时思考 ...

0 1 0 0 2025/09/02 arXiv:2508.21113v1 bage

Mesoscale variations of chemical and electronic landscape on the surface of Weyl semimetal Co$_3$Sn$_2$S$_2$ visualized by ARPES and XPS

磁性Weyl Semimetal Co $ _3 $ sn $ _2 $ s $ _2 $中的多个结晶终端显示出独特的拓扑表面状态和微不足道的表面状态，这些状态已成功地进行了实验区分。但是，已知纯终止模型是不足的，因为这些表面表现出高度的空间异质性和点障碍。在这里，我们使用光发射测量与核心水平的第一原理计算相结合，对表面化学和表面电子结构进行了光谱显微镜研究 ...

0 0 0 0 2025/09/01 arXiv:2508.01826v1 bage

RL's Razor: Why Online Reinforcement Learning Forgets Less

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Mesoscale variations of chemical and electronic landscape on the surface of Weyl semimetal Co$_3$Sn$_2$S$_2$ visualized by ARPES and XPS

GLM-4.5V and GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

ScaleTrack: Scaling and back-tracking Automated GUI Agents

TongUI: Building Generalized GUI Agents by Learning from Multimodal Web Tutorials

Breaking the Data Barrier -- Building GUI Agents Through Task Generalization

Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment

ATLaS: Agent Tuning via Learning Critical Steps