强化学习(RL)最近在增强大语言模型(LLMS)的推理能力方面具有强大的潜力。特别是,DeepSeek-R1-Zero引入的“零”强化学习可以直接对基本LLM进行直接培训,而无需依靠中间监督的微调阶段。尽管有这些进步,但当前用于LLM推理的作品主要集中于数学和编码域,这主要是由于数据丰度和易于答案验证 ...
人工智能(AI)代理是自主执行任务或基于预定义的目标和数据输入做出决定的软件实体。能够感知用户输入,推理和计划任务以及执行操作的AI代理在算法开发和任务性能方面取得了显着进步。但是,它们所带来的安全挑战仍然易于探索和尚未解决 ...
我们提出了ruckig,这是一种在线轨迹生成(OTG)的算法,尊重三阶约束和完整的运动靶状态。鉴于具有多个自由度(DOF)的系统的任何初始状态,ruckig可以计算出由其位置,速度和加速度定义的任意目标状态的时间优势轨迹,该目标状态受速度,加速度和混蛋约束的限制。提出的算法和实施允许三个贡献:(1)据我们所知,我们为任意多维目标状态(尤其是包括非零目标加速度)提供了第一个最佳的OTG OTG算法 ...
由于任务的固有复杂性和上下文窗口约束,长期的视频理解(LVU)对当前多模式大型语言模型(MLLM)提出了重大挑战。人们普遍认为,解决LVU任务需要具有扩展上下文窗口,强大的视觉感知功能和熟练域专业知识的基础MLLM。在这项工作中,我们通过介绍VideodePresearch(一种新型的代理框架,供长期视频理解,我们挑战了这种共同的信念 ...
(kgqa)(kg)(kg)中寻找自然语言问题的答案实体。为了更好地对知识图谱进行推理,plm)(plm)来对问题进行建模,并采用基于图神经网络( gnn)的模块对知识图谱进行多跳推理。尽管有效,但由于模型架构的差异 ...
近几十年来,时间序列模型和跨各种单独任务的基准取得了实质性进展,例如时间序列预测、分类和异常检测。同时,时间序列中的组合推理在现实世界的应用中很普遍(例如 ...
卫星技术发展的进步最近看到了大量的小型卫星被发射到低地轨道(LEO)上,以收集大量的数据,例如地球观测图像。由于带宽限制和LEO卫星与GS之间的间歇性连通性,因此将此类数据下载到地面站(GS)训练机器学习(ML)模型的传统方式是不可取的。另一方面,卫星边缘计算(SEC)允许每个卫星在车载上训练ML模型,并仅将模型上传到GS上,这似乎是一个有前途的概念 ...
目前,各种私人和公共实体计划和部署小型低地轨道(LEO)卫星的大型低地球(LEO)卫星的巨型构造。尽管全球连通性是主要的基本原理,但这些星座也提供了收集大量数据的潜力,例如 ...