一译 —— 文档和论文翻译、对照阅读、讨论和社区

Time-MoE: Billion-Scale Time Series Foundation Models with Mixture of Experts

过去几十年来，时间序列预测的深度学习取得了重大进展。然而，尽管大规模预训练在语言和视觉领域取得了成功，但预训练时间序列模型的规模仍然有限，并且运行成本很高，阻碍了在实际应用中开发更强大的预测模型。为此，我们引入了 Time-MoE，这是一种可扩展且统一的架构，旨在预训练更大、能力更强的预测基础模型，同时降低推理成本 ...

0 1 0 2025/04/15 arXiv:2409.16040v4 zzr613

Foundational Models for 3D Point Clouds: A Survey and Outlook

3D点云表示在保留物理世界的几何忠诚度中起着至关重要的作用，从而实现了更准确的复杂3D环境。尽管人类自然地通过多感官系统理解对象与变化之间的复杂关系，但人工智能（AI）系统尚未完全复制这种能力。为了弥合这一差距，必须结合多种方式 ...

0 0 0 2025/04/15 arXiv:2501.18594v1 漏视野

The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation

文本到视频（T2V）一代的最新进展是由两个竞争范式驱动的：自回归语言模型和扩散模型。但是，每个范式都有内在的局限性：语言模型在视觉质量和错误积累中挣扎，而扩散模型缺乏语义理解和因果建模。在这项工作中，我们提出了Landiff，这是一个混合框架，通过粗到精细的一代协同范围 ...

0 0 0 2025/04/15 arXiv:2503.04606v2 tuxiaolv

CVT-Occ: Cost Volume Temporal Fusion for 3D Occupancy Prediction

基于视觉的3D占用预测在深度估计中受到单眼视力的固有局限性的挑战。本文介绍了CVT-OCC，这是一种新型方法，通过随着时间的推移，通过体素的几何对应关系来利用时间融合，以提高3D占用预测的准确性。通过沿着每个体素的视线对点进行采样，并从历史框架中整合了这些点的特征，我们构建了一个成本量特征映射，该图可以完善当前卷特征，以改善预测结果 ...

0 0 0 2025/04/15 arXiv:2409.13430v3 chenhualin

A Spatiotemporal Approach to Tri-Perspective Representation for 3D Semantic Occupancy Prediction

在3D场景中的整体理解和推理对于自动驾驶系统的成功至关重要。与传统的3D检测方法相比，3D语义占用预测作为自动驾驶和机器人应用的一项预处理的任务可捕获更精细的3D细节。基于视觉的3D语义占用预测越来越多地忽略了基于激光雷达的方法，近年来表现出卓越的性能 ...

0 0 0 2025/04/15 arXiv:2401.13785v3 chenhualin

ProtoOcc: Accurate, Efficient 3D Occupancy Prediction Using Dual Branch Encoder-Prototype Query Decoder

在本文中，我们介绍了 ProtoOcc，这是一种新颖的 3D 占用预测模型，旨在通过对场景的深入语义理解来预测 3D 体素的占用状态和语义类别。 ProtoOcc 由两个主要组件组成：双分支编码器 (DBE) 和原型查询解码器 (PQD)。 DBE 通过双分支结构将多个尺度的 3D 体素和 BEV 表示相结合，生成新的 3D 体素表示 ...

0 0 0 2025/04/15 arXiv:2412.08774v2 chenhualin

Evaluating Search Engines and Large Language Models for Answering Health Questions

搜索引擎传统上是信息搜索的主要工具。然而，新的大型语言模型（LLM）最近在多项任务中表现出了卓越的能力，特别是它们作为问答系统的采用正变得越来越普遍。预计基于LLM的会话系统和传统的Web引擎未来将继续共存，以多种方式支持最终用户 ...

0 0 0 2025/04/15 arXiv:2407.12468v3 lisaZ

Skip Mamba Diffusion for Monocular 3D Semantic Scene Completion

3D语义场景完成对于自主系统中的多个下游任务至关重要。它估计了获得的场景数据中缺少几何和语义信息。由于现实世界中的具有挑战性，此任务通常需要复杂的模型来处理多模式数据以实现可接受的性能 ...

0 0 0 2025/04/15 arXiv:2501.07260v1 chenhualin

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）