过去几十年来,时间序列预测的深度学习取得了重大进展。然而,尽管大规模预训练在语言和视觉领域取得了成功,但预训练时间序列模型的规模仍然有限,并且运行成本很高,阻碍了在实际应用中开发更强大的预测模型。为此,我们引入了 Time-MoE,这是一种可扩展且统一的架构,旨在预训练更大、能力更强的预测基础模型,同时降低推理成本 ...
3D点云表示在保留物理世界的几何忠诚度中起着至关重要的作用,从而实现了更准确的复杂3D环境。尽管人类自然地通过多感官系统理解对象与变化之间的复杂关系,但人工智能(AI)系统尚未完全复制这种能力。为了弥合这一差距,必须结合多种方式 ...
文本到视频(T2V)一代的最新进展是由两个竞争范式驱动的:自回归语言模型和扩散模型。但是,每个范式都有内在的局限性:语言模型在视觉质量和错误积累中挣扎,而扩散模型缺乏语义理解和因果建模。在这项工作中,我们提出了Landiff,这是一个混合框架,通过粗到精细的一代协同范围 ...
基于视觉的3D占用预测在深度估计中受到单眼视力的固有局限性的挑战。本文介绍了CVT-OCC,这是一种新型方法,通过随着时间的推移,通过体素的几何对应关系来利用时间融合,以提高3D占用预测的准确性。通过沿着每个体素的视线对点进行采样,并从历史框架中整合了这些点的特征,我们构建了一个成本量特征映射,该图可以完善当前卷特征,以改善预测结果 ...
在3D场景中的整体理解和推理对于自动驾驶系统的成功至关重要。与传统的3D检测方法相比,3D语义占用预测作为自动驾驶和机器人应用的一项预处理的任务可捕获更精细的3D细节。基于视觉的3D语义占用预测越来越多地忽略了基于激光雷达的方法,近年来表现出卓越的性能 ...
在本文中,我们介绍了 ProtoOcc,这是一种新颖的 3D 占用预测模型,旨在通过对场景的深入语义理解来预测 3D 体素的占用状态和语义类别。 ProtoOcc 由两个主要组件组成:双分支编码器 (DBE) 和原型查询解码器 (PQD)。 DBE 通过双分支结构将多个尺度的 3D 体素和 BEV 表示相结合,生成新的 3D 体素表示 ...
搜索引擎传统上是信息搜索的主要工具。然而,新的大型语言模型(LLM)最近在多项任务中表现出了卓越的能力,特别是它们作为问答系统的采用正变得越来越普遍。预计基于LLM的会话系统和传统的Web引擎未来将继续共存,以多种方式支持最终用户 ...
3D语义场景完成对于自主系统中的多个下游任务至关重要。它估计了获得的场景数据中缺少几何和语义信息。由于现实世界中的具有挑战性,此任务通常需要复杂的模型来处理多模式数据以实现可接受的性能 ...