这项工作介绍了Flashgs,这是一个开源的Cuda Python库,旨在促进通过算法和内核级优化的3D高斯分裂的有效微分栅格化。 FlashGS是根据对渲染过程的全面分析的观察结果开发的,以提高计算效率并将该技术带到广泛采用。本文包括一套优化策略,包括消除冗余,有效的管道,精致的控制和调度机制以及内存访问优化,所有这些都是精心集成的,以扩大射击过程的性能 ...
我们介绍了DualMap,这是一个在线开放式摄影映射系统,它使机器人能够通过自然语言查询理解和导航动态变化的环境。 DualMap专为有效的语义映射和对不断变化的环境的适应性而设计,满足了现实世界机器人导航应用程序的基本要求。我们提出的混合细分前端和对象级状态检查消除了先前方法所需的昂贵的3D对象合并,从而实现了有效的在线场景映射 ...
培训后语言模型(LMS)具有加固学习(RL)可以增强其复杂的推理能力而无需监督微调,如DeepSeek-R1-Zero所证明的那样。但是,有效利用RL进行LM需要显着平行于扩大推理,这引入了非平凡的技术挑战(例如, ...
近年来,自动语音识别(ASR)目睹了由三个互补范式驱动的变革性进步:数据扩展,模型大小缩放和与大语言模型(LLMS)的深入集成。但是,LLM易于幻觉,这可能会大大降低现实世界中ASR应用程序中的用户体验。在本文中,我们提出了Funaudio-ASR,这是一种基于LLM的大规模ASR系统,可以协同结合大量数据,大型模型容量,LLM集成和增强学习,以实现跨多种和复杂的语音识别场景的最新性能 ...
对于固定参数大小,大型模型的功能主要取决于其训练数据的质量和数量。因此,培训数据集现在增长的速度快于网络上索引的新数据的速度,这导致了未来十年的数据耗尽。作为用户生成的内容存在更多的数据,这些数据没有公开索引,但是包含此类数据的数据具有很大的风险,例如泄漏私人信息和其他不良内容 ...
无人机跟踪在现实世界中面临重大挑战,例如小型目标和遮挡,这限制了基于RGB的跟踪器的性能。捕获其他光谱信息的多光谱图像(MSI)为这些挑战提供了有希望的解决方案。但是,缺乏相关数据集阻碍了这一领域的进展 ...
时间序列数据可以用时域和频域来表示,时域强调局部依赖性,频域强调全局依赖性。为了利用两个域的优势来捕获本地和全局依赖性,我们提出了频域和时域混合器(FTMixer)。为了利用频域的全局特征,我们引入了频率通道卷积(FCC)模块,旨在捕获全局系列间依赖性 ...
Transformer 模型(例如大型语言模型(LLM))的最新进展带来了各种人工智能(AI)任务的巨大突破,从而导致了许多在许多关键安全领域中的广泛应用 ...