由于其广泛的应用要求,空中对象检测一直是一个热门话题。但是,大多数现有的方法只能处理预定义的类别,这限制了其对现实世界中公开方案的适用性。在本文中,我们通过利用图像和文本之间的关系扩展了空中对象检测到打开场景,并提出了OVA-DRET,这是一种高效的空中图像开放式视频检测器 ...
0 0 0 2025/02/15 arXiv:2408.12246v1 liushibo
从文本或单个图像斗争中,具有有限的高质量3D数据集以及2D多视图生成的不一致的最新进展。我们介绍了DIFFSPLAT,这是一种新颖的3D生成框架,该框架本来通过驯服大规模的文本对图像扩散模型来生成3D高斯的碎片。它通过有效利用Web规模的2D先验,同时保持统一模型中的3D一致性,与以前的3D生成模型不同 ...
0 0 0 2025/02/15 arXiv:2501.16764v1 泪子
在这项研究中,我们研究了最初用于图像生成的denoisis扩散模型(DDM)的表示能力。我们的哲学是解构DDM,将其逐渐将其转换为经典的Denoising自动编码器(DAE)。这种解构过程使我们能够探讨现代DDM的各种组成部分如何影响自我监督的表示学习 ...
0 0 0 2025/02/15 arXiv:2401.14404v1 19396386025
在深度学习中,神经网络是输入数据及其表示之间的嘈杂渠道。这种观点自然地将深度学习与追求在信息传输和表示方面具有最佳性能构建渠道的追求。尽管在网络优化期间,大量的努力集中在实现最佳的信道特性上,但我们研究了可以将神经网络朝向最佳渠道初始化的可能性 ...
0 0 0 2025/02/15 arXiv:2212.01744v1 parsifalster
为一般低级视觉任务建立统一模型具有重要的研究和实用价值。当前的方法遇到几个关键问题。多任务恢复方法可以解决多个从降级到干净的恢复任务,同时它们适用于具有不同目标域(例如,目标域)的任务... ... ...
0 0 0 2025/02/15 arXiv:2408.08601v1 aiwalker-happy
人类解析的目的是将人类的形象中的人分为组成部分。此任务涉及根据类标记人类形象的每个像素。由于人体包括层次结构化的部分,因此图像的每个身体部分都具有其唯一的位置分布特征 ...
0 0 0 2025/02/15 arXiv:2111.14173v3 18867104601
单图视图综合允许给定单个输入图像的场景的新视图。这是具有挑战性的,因为它需要从单个图像中全面了解3D场景。结果,当前方法通常使用多个图像,在地面深度上训练或仅限于合成数据 ...
0 0 0 2025/02/15 arXiv:1912.08804v2 wonglliam
我们提出了可区分的表面碎片(DSS),这是一种用于点云的高保真渲染器。仔细设计了点位置和正常的梯度,以处理渲染函数的不连续性。引入正则化项以确保在基础表面上的点均匀分布 ...
0 0 0 2025/02/15 arXiv:1906.04173v3 wonglliam

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)