强化学习(RL)使人形机器人的运动能够取得重大进展,但是由于模拟器支持封闭运动链的模拟器支持,大多数学习框架并未考虑嵌入并行致动机制的机械智能。这种遗漏会导致运动建模和次优政策不准确,特别是对于具有较高驱动复杂性的机器人。本文提出了Bruce的端到端课程RL RL框架,Bruce是一个儿童大小的类人机器人,其腿部具有三种不同的平行机制:差异皮带轮,5杆连接和4杆链接 ...
化学反应结果的准确预测是计算化学中的主要挑战。当前模型在很大程度上依赖于高度特定的反应模板或无模板方法,这两种方法都是局限性的。为了解决这些局限性,这项工作提出了广泛的反应集(BRS),该数据集具有20个通用反应模板,可有效探索化学空间 ...
变形文档图像纠正对于现实世界文档理解任务,例如布局分析和文本识别至关重要。但是,当前的多任务方法(例如背景删除,3D坐标预测和文本行分割)通常会忽略任务及其交互之间的互补特征。为了解决这一差距,我们提出了一个可自适应的可学习多任务融合整流网络,名为Salmrec ...
动态分析方法有效地识别了被炮击,包裹或混淆的恶意软件,从而阻止了它们入侵计算机。作为动态恶意软件行为的重要表示,由连续的API调用组成的API(应用程序编程接口)序列已逐渐成为动态分析方法的主要特征。尽管基于API序列有许多针对恶意软件检测的深度学习模型,但这些模型产生的API呼叫表示质量是有限的 ...
当代人工智能技术在解决几何问题和自动演绎证明方面的应用一直是对数学和人工智能的跨学科领域的巨大挑战。这是我们一系列作品中的第四篇文章,在我们以前的作品中,我们建立了一个名为正式的几何形式化系统。此外,我们注释了大约7000个几何问题,形成了正式的数据集 ...
流程奖励模型(PRM)最近成为了监督大语言模型(LLMS)中间推理步骤的有力框架。以前的PRM主要接受模型最终输出响应的训练,并难以牢固地评估中间思维轨迹,尤其是在Frontier推理模型(如DeepSeek-R1)产生的轨迹响应输出的新兴环境中。在这项工作中,我们介绍了Reasonflux-prm,这是一种新型的轨迹感知的PRM,旨在评估推理轨迹的轨迹反应类型 ...
具有可验证奖励(RLVR)的强化学习已成为推进大语言模型(LLMS)推理能力的有希望的范式。然而,一个关键的悖论掩盖了其功效:RLVR调节的模型通常在$ PASS@k $公制上的基本模型以进行解决方案找到的基础模型,从而导致假设RLVR仅以推理多样性为代价,而RLVR仅重新进行了现有的推理路径。在这项工作中,我们通过确定问题的根源来解决这一矛盾:$ PASS@k $ metric本身是一种有缺陷的 ...
CAD-Llama: Leveraging Large Language Models for Computer-Aided Design Parametric 3D Model Generation
最近,大型语言模型(LLMS)取得了巨大的成功,促使人们对将其生成能力扩展到一般文本以外的领域的兴趣增加。这项研究研究了使用LLMS的计算机辅助设计(CAD)模型的参数序列的生成。这项工作代表了用LLM创建参数3D形状的初步步骤,因为CAD模型参数与三维空间中的形状直接相关 ...