3D高斯脱落(3DGS)已成为新型视图合成的有前途的框架,以高忠诚度具有快速渲染速度。但是,实质性的高斯及其相关属性需要有效的压缩技术。然而,高斯云(或我们论文中的锚)的稀疏和无组织的性质给压缩带来了挑战 ...
表是表示结构化关系数据的基本格式。尽管当前的语言模型(LMS)在许多基于文本的任务上都表现出色,但由于表格数据的复杂特征(例如它们的结构化性质),它们仍然在桌子理解中面临挑战。在本文中,我们旨在增强LMS以改善表面理解 ...
可以优化神经辐射场(NERF),以获得对象和大规模场景的高保真3D场景重建。但是,NERF需要准确的相机参数作为输入 - 不准确的相机参数会导致渲染模糊。通常使用结构 - 运动(SFM)方法估算外部和内在的摄像机参数,作为对NERF的预处理步骤,但是这些技术很少产生完美的估计 ...
大多数最先进的口语标识模型都是封闭式的。换句话说,他们只能从培训的一组课程中输出语言标签。但是,开放设定的口语标识系统可以获得检测输入何时没有任何原始语言的能力。在本文中,我们实施了一种新颖的方法来使用MFCC和音调功能,TDNN模型来提取有意义的功能嵌入,对SoftMax输出的置信度阈值以及LDA和PLDA进行学习来分类新的未知语言 ...
我们引入了mq-det,一种高效的架构和预训练策略设计,利用具有开放集泛化的文本描述和具有丰富描述粒度的视觉样本作为类别查询,即多模态查询对象检测,用于现实,用于现实世界检测具有开放词汇类别和各种粒度。mq-det将视觉查询合并到现有完善的仅语言查询检测器中。提出了一种基于冻结检测器的即插即用门控类可扩展感知器模块,以通过类视觉信息来增强类别文本... ...
实际上,用户在不同时期,地区,场景等方面都有不同的兴趣。这种兴趣的变化非常剧烈,以至于很难被推荐人捕获。现有的多域学习可以减轻此问题 ...
我们提出了深度压缩自动编码器(DC-AE),这是一个新的自动编码器模型系列,用于加速高分辨率扩散模型。现有的自动编码器模型在适度的空间压缩比下表现出了令人印象深刻的结果(例如 ...
尽管遥感图像在有助于实现可持续发展目标和应对气候变化方面的广泛应用,但尚未受益于最近的多功能,任务不可知的视觉语言模型(VLMS)的进步。一个关键的原因是,对于遥感图像,仍然没有开发VLM所需的大规模,语义上不同的图像文本数据集。与自然图像不同,遥感图像及其相关的文本说明不能大规模从公共互联网上有效收集 ...