这本书是为了帮助学生将量子力学的所有概念转变为具体的计算机表示,这些量子可以在更深层次的水平上构建,评估,分析和希望在更深层次的水平上理解。它是为瑞士巴塞尔大学每年举行的硕士和博士学位演讲而撰写的。目的是给学生提供一种语言,在该语言中可以更详细地谈论量子物理,并以这种语言的流利性开始学生 ...
长期的视频生成从根本上是一个漫长的上下文记忆问题:模型必须保留和检索远距离的显着事件,而不会崩溃或漂移。但是,将扩散 Transformer 缩放为生成长篇小说视频的缩放量受到自我注意的二次成本的限制,这使得记忆和计算很难进行,并且难以为长序列进行优化。我们将长篇小说视频生成重新铸造为内部信息检索任务,并提出了一个简单,可学习的稀疏注意路由模块,上下文(MOC)的混合物,作为有效的长期内存检索引擎 ...
3d语义占用预测是自动驾驶领域的一项关键任务。最近的方法在单一模态的3d语义占用预测方面取得了巨大进展。然而,多模态语义占用预测方法在处理不同模态数据融合过程中出现的模态异质性、模态错位和模态交互不足等方面遇到了困难,这可能导致重要的几何和语义信息的丢失... ...
视觉接地旨在根据自然语言描述识别场景中的对象或区域,这对于自主驾驶中空间意识的感知至关重要。但是,现有的视觉接地任务通常取决于通常无法捕获细粒细节的边界框。并非占据边界框中的所有体素都被占据,从而导致对象表示不准确 ...
我们提出了Magi-1,这是一个世界模型,通过自动调查来预测一系列视频块,该模型定义为连续帧的固定长度段。 MAGI-1经过训练以随着时间的流逝而单调增加的DeNoise每块噪声,可实现因果时间建模,并且自然支持流的生成。它在基于文本说明的条件下的图像到视频(I2V)任务上实现了强劲的性能,提供了高度的时间一致性和可扩展性,这些算法创新和专用的基础架构堆栈使得它们成为可能 ...
基于摄像机的3D语义场景完成(SSC)为自动驾驶提供了密集的几何和语义感知。但是,图像提供了有限的信息,使该模型容易受到遮挡和透视失真引起的几何歧义。现有方法通常缺乏对象之间的明确语义建模,从而限制了它们对3D语义上下文的看法 ...
机器学习中的许多应用程序涉及表示为概率分布的数据。此类数据的出现需要从根本上进行新颖的技术来设计这种(无限维)对象的概率分布的可拖动梯度流。例如,能够流动标记的数据集是从域适应到传输学习或数据集蒸馏的应用程序的核心任务 ...
重量振荡是量化感知训练的不良副作用,其中量化权重经常在两个量化水平之间跳跃,从而导致训练不稳定性和最佳的最终模型。我们发现,可学习的缩放因子,一种广泛使用的$ \ textit {de exto} $设置在量化中会加剧重量振荡。在这项研究中,我们研究了可学习的缩放系数与量化重量振荡之间的联系,并使用VIT作为案例驱动因素来说明发现和补救措施 ...