大型语言模型(LLM)的最新进步见证了先进的推理范式的发展,这些范式现在已整合到多模式大语模型(MLLMS)中。但是,现有方法通常会掉落很短:仅采用强化学习(RL)的方法可能会与样本效率低下和完全没有推理能力激活,而在RL之前以冷启动监督的微调(SFT)阶段启动的传统管道可能会限制该模型的探索能力和面对次要的转化。在这项工作中,我们介绍了\ textbf {metis-rise}(\ textbf ...
自动回归偏微分方程(PDE)基础模型在处理时间依赖数据方面表现出巨大的潜力。但是,这些模型遭受了深深植根于自动回归预测的快捷问题,导致错误积累。对于分布数据的数据,挑战尤为明显,因为预处理的性能可能接近具有长期动态的下游任务的随机模型初始化 ...
部分微分方程(PDE)控制着广泛的物理系统,但是有效地解决它们仍然是一个主要挑战。科学基础模型(SCCIFM)的想法正在成为一种有前途的工具,用于学习跨不同领域的可转移表示。但是,SciFM需要大量的解决方案数据,这可能很少或计算昂贵 ...
时空系统的自回旋替代模型(或\ textit {仿真器})为快速,近似预测提供了途径,并在科学和工程上进行了广泛的应用。但是,在推论时,由于误差的积累导致轨迹分歧,这些模型通常无法在长期推出中提供预测。从本质上讲,模拟器无法分配,并且在大规模设置中控制在线分布很快就变得棘手 ...
为了提高基于视觉的深度增强学习(RL)的样本效率,我们提出了一种称为Spirl的新方法,以自动从输入图像中提取重要的斑块。遵循掩盖的自动编码器,Spirl基于以自我监督的方式预先训练的视觉 Transformer 模型,以从随机采样的补丁中重建图像。然后可以利用这些预训练的模型来检测和选择显着贴片,该贴片被定义为难以从相邻贴片重建 ...
为了追求检测超出预定类别的未构成的对象,开放式对象检测(OVD)的先前艺术通常诉诸于审前的视觉语言模型(VLMS),以进行基础 - 网络类别类别的概括。但是,为了减轻上游图像文本预处理和下游区域级别感知之间的错位,其他的监督是必不可少的,例如,通过自我训练策略产生的图像文本对或伪注释。在这项工作中,我们提出了接受培训的CCKT-DET,而无需任何额外的监督 ...
建模可变形物体的动力学是由于其多样化的物理特性以及从有限的视觉信息中估算状态的难度而具有挑战性的。我们通过神经动力学框架来解决这些挑战,该框架将对象颗粒和空间网格结合在混合表示中。我们的粒子网格模型在预测密集的粒子运动的同时捕获了全局形状和运动信息,从而实现了具有多种形状和材料的对象的建模 ...
轨迹预测在自动驾驶堆栈中发挥着至关重要的作用,它使自动驾驶车辆能够预测周围智能体的运动。近年来,基于目标的预测模型因解决未来轨迹的多模态性质而受到关注。基于目标的预测模型通过首先预测智能体的,2d目标位置,然后预测基于每个目标的轨迹来简化多模态预测... ...