最近,DeepSeek R1表明,加强学习(RL)可以通过简单而有效的设计实质上提高大语言模型(LLM)的推理能力。 R1的核心在于其基于规则的奖励公式,该公式通过确定性的基础真实答案来利用任务,以实现精确稳定的奖励计算。在视觉域中,我们同样观察到,广泛的视觉理解任务固有地配备了定义明确的地面真相注释 ...
实现量化模型大小和准确性之间最佳权衡的最佳位宽度一直是持续辩论的主题。一些人主张进行4位量化,而另一些人则建议1.58位提供了卓越的结果 ...
文本到3D场景的一代具有游戏,电影和建筑领域的巨大潜力。尽管取得了重大进展,但现有的方法却努力保持高质量,一致性和编辑灵活性。在本文中,我们提出了DreamsCene,这是一个基于3D高斯的小说《 To To To-3D场景生成框架》,以解决上述三个挑战,主要是通过两种策略 ...
轨迹计划对于自动驾驶至关重要,可确保在复杂环境中安全有效的航行。尽管最近基于学习的方法,尤其是强化学习(RL),在特定方案中表现出了希望,但RL计划者在培训效率低下和管理大型现实世界驾驶场景方面挣扎。在本文中,我们介绍了\ textbf {carplanner},a \ textbf {c} onsistent \ textbf {a} uto- \ textbf {r} egrescement ...
使用传统的3D建模工具来创建针对用户规格的复杂3D场景的创建一直是一项繁琐而艰巨的任务。尽管某些开创性方法已经实现了自动的文本到3D代,但它们通常仅限于小型场景,并且对形状和纹理的控制有限。我们介绍了Scenecraft,这是一种新的方法,用于生成详细的室内场景,该场景遵循用户提供的文本描述和空间布局偏好 ...
过去几十年来,时间序列预测的深度学习取得了重大进展。然而,尽管大规模预训练在语言和视觉领域取得了成功,但预训练时间序列模型的规模仍然有限,并且运行成本很高,阻碍了在实际应用中开发更强大的预测模型。为此,我们引入了 Time-MoE,这是一种可扩展且统一的架构,旨在预训练更大、能力更强的预测基础模型,同时降低推理成本 ...
3D点云表示在保留物理世界的几何忠诚度中起着至关重要的作用,从而实现了更准确的复杂3D环境。尽管人类自然地通过多感官系统理解对象与变化之间的复杂关系,但人工智能(AI)系统尚未完全复制这种能力。为了弥合这一差距,必须结合多种方式 ...
文本到视频(T2V)一代的最新进展是由两个竞争范式驱动的:自回归语言模型和扩散模型。但是,每个范式都有内在的局限性:语言模型在视觉质量和错误积累中挣扎,而扩散模型缺乏语义理解和因果建模。在这项工作中,我们提出了Landiff,这是一个混合框架,通过粗到精细的一代协同范围 ...