3D 高斯溅射 (3D-GS) 已成为计算机图形学领域的一项重大进步,它提供了明确的场景表示和新颖的视图合成,而无需依赖神经网络,例如神经辐射场 (NeRF)。这项技术在机器人、城市测绘、自主导航和虚拟现实/增强现实等领域有着广泛的应用,仅举几例。鉴于 3D 高斯分布的日益普及和研究的不断扩大,本文对过去一年的相关论文进行了全面的调查 ...
时空点过程(STPP)是伴随着时间和空间的事件的随机集合。由于计算复杂性,现有的 STPP 解决方案妥协于时间和空间之间的条件独立性,分别考虑时间和空间分布。未能对联合分布进行建模导致在给定过去事件的情况下描述时空纠缠相互作用的能力有限 ...
近年来,交通流量预测在智能交通系统的管理中发挥着至关重要的作用。然而,传统的预测方法往往受到静态空间建模的限制,难以准确捕捉动态且复杂的时间和空间关系,从而影响预测精度。本文提出了一种创新的交通流预测网络 SFADNet,该网络根据时空特征矩阵将交通流分类为多种交通模式 ...
在大数据时代,获取丰富的数据对于推动研究前进至关重要。然而,由于隐私问题或高昂的成本,这些数据通常无法访问,特别是在医疗保健领域。生成合成(表格)数据可以解决这个问题,但现有模型通常需要大量数据才能有效训练,这与我们解决数据稀缺问题的目标相矛盾 ...
由于交通系统的复杂性和许多影响因素不断变化的性质,长期交通预测极具挑战性。在本文中,我们关注时空因素,并提出了一种图多注意网络(GMAN)来预测道路网络图上不同位置的提前时间步的交通状况。 GMAN 采用编码器-解码器架构,其中编码器和解码器均由多个时空注意力块组成,以模拟时空因素对交通状况的影响 ...
视觉语言预训练(VLP)模型已被证明在许多计算机视觉应用中是有效的。在本文中,我们考虑在医学领域开发一种 VLP 模型,用于根据电子健康记录中的图像扫描和文本描述进行计算机辅助诊断 (CAD),正如实践中所做的那样。为了实现我们的目标,我们提出了一个轻量级 CAD 系统 MedBLIP,这是一种从现成的冻结预训练图像编码器和冻结大型语言模型引导 VLP 的新范例 ...
自然语言解释(NLE)旨在通过用自然语言提供详细的、人性化的解释来阐明决策过程。它通过使用语言模型帮助揭开大型视觉语言模型 (LVLM) 决策过程的神秘面纱。虽然创建自然语言解释视觉问答 (VQA-NLE) 数据集的现有方法可以提供解释,但它们严重依赖人工注释,既耗时又昂贵 ...
我们提出了 Samba ASR,这是第一个最先进的自动语音识别 (ASR) 模型,利用新颖的 Mamba 架构作为编码器和解码器,建立在状态空间模型 (SSM) 的基础上。与基于 Transformer 的 ASR 模型不同,它依赖于自我- 捕获依赖关系的注意力机制,Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖关系,实现了卓越的性能,此 http URL 解决了转换器的局 ...