Panoptic和实例分割网络通常经过专门的对象检测模块,复杂的损耗功能以及临时的后处理步骤来管理实例掩码的置换不变性。这项工作以稳定的扩散为基础,并提出了一种潜在的扩散方法,以进行全景分割,从而产生了一种简单的体系结构,从而省略了这些复杂性。我们的培训包括两个步骤:(1)培训浅自动编码器,将细分面罩投射到潜在空间; (2)训练一个扩散模型,以允许在潜在空间中进行图像条件的采样 ...
类人自动演绎推理一直是数学与人工智能交叉学科中最具挑战性的开放问题之一。本文是我们系列作品中的第三篇。我们构建了一个名为fgeodrl的神经符号系统,可以自动执行类似人类的几何演绎推理... ...
随着大语言模型(LLM)的整合,具体的代理具有强大的能力来理解和计划复杂的自然语言指示。但是,一个可以预见的问题是,这些体现的代理商也可以完美地执行一些危险的任务,并可能在现实世界中造成损害。现有的基准主要忽略了关键安全风险,仅关注计划绩效,而少数人仅评估LLMS的安全意识仅在非相互作用的图像文本数据上 ...
视频序列之间的时空信息对于视频超分辨率(SR)很重要。但是,现有视频SR方法无法完全使用时空信息,因为通常会顺序执行空间特征提取和时间运动补偿。在本文中,我们提出了一个可变形的3D卷积网络(D3DNET),以合并来自视频SR的时空和时间维度的时空信息 ...
Transformer 体系结构已成为自然语言处理中的首选模型,现在正在引入计算机视觉任务,例如图像分类,对象检测和语义分段。但是,在人类姿势估计领域,卷积架构仍然保持主导地位。在这项工作中,我们提出了PoseFormer,这是一种纯粹基于 Transformer 的方法,可在不涉及卷积架构的情况下进行3D人体姿势估算 ...
本文的目的是提高图像中开放式视频对象的通用性和准确性。为了提高一般性,我们为计数任务重新利用了一个开放式视频计检测基础模型(接地),并通过引入模块来使目标对象通过视觉示例来计数来扩展其功能。反过来,这些新功能 - 能够通过多模式(文本和示例)指定目标对象 - 可提高计数准确性 ...
3D高斯裂(3DGS)最近对高质量和有效的视图合成引起了人们的关注,使其在AR/VR,机器人技术和自主驾驶等领域中广泛采用。尽管具有令人印象深刻的算法性能,但由于电力和区域预算的严格,对资源受限设备的实时渲染仍然是一个重大挑战。本文提出了一个架构 - 算法共同设计,以解决这些效率低下 ...
最近,3D高斯脱落(3DGS)为新型视图综合提供了一个新的框架,并在神经渲染和相关应用方面飙升了新的研究浪潮。随着3DGS成为许多模型的基本组成部分,3DGS本身的任何改进都可以带来巨大的好处。为此,我们旨在改善3DGS的基本范式和配方 ...