在本文中,我们为3D视觉接地提出了有效的多级卷积体系结构。由于两阶段或基于点的体系结构,传统方法很难满足实时推断的要求。受到3D对象检测中多层完全稀疏卷积架构的成功的启发,我们旨在在此技术路线之后构建一个新的3D视觉接地框架 ...
0 1 0 2025/05/03 arXiv:2502.10392v2 yyyyyyyyy
大多数现有的跨模式检索方法的成功在很大程度上取决于以下假设:给定查询遵循源域的相同分布。但是,由于查询的复杂性和多样性,在实际情况下很容易违反这种假设,从而导致了查询转移问题。具体而言,查询偏移是指在线查询流源自与源源的不同分布之后的域 ...
0 1 0 2025/05/03 arXiv:2410.15624v1 likelc
扩散模型被广泛用于图像编辑任务。现有的编辑方法通常通过策划文本嵌入或分数空间中的编辑方向来设计表示操作过程。但是,这样的过程面临着一个关键的挑战:高估编辑强度会损害视觉一致性,而低估其未能使编辑任务失败 ...
0 0 0 2025/05/03 arXiv:2504.02828v1 assvga
最近的3d大型重建模型通常采用两阶段过程,包括首先通过多视图扩散模型生成多视图图像,然后利用前馈模型将图像重建为,3d内容。然而,多视图扩散模型通常会产生低质量且不一致的图像,从而对最终,3d重建的质量产生不利影响。为了解决这个问题,我们提出了一个名为循环3d的统一3d生成框架,它在多步扩散过程中循环利用基于2d扩散的生成模块和前馈3d3d重建模块... ...
0 0 0 2025/05/03 arXiv:2407.19548v1 hyx
Generative AI具有新颖和令人印象深刻的能力来帮助人们进行日常任务。有许多AI工作流程通过将AI输出与人类相互作用一起链接来解决真实和复杂的问题。尽管AI有不可否认的诱饵,但新颖性消失后,尚不确定生成的AI工作流程如何有用 ...
0 0 0 2025/05/03 arXiv:2402.09894v2 jomei
口语处理的领域正在从培训定制的,特定于任务的模型转变为使用和优化语言模型(SLM),这些模型(SLM)充当通用语音处理系统。这种趋势类似于在(文本)自然语言处理领域发生的通用语言模型的发展。 SLM包括语音的“纯”语言模型 -  Token 化语音序列的分布模型,以及将语音编码器与文本语言模型相结合的模型,通常包括口语和书面输入或输出 ...
0 1 1 2025/05/03 arXiv:2504.08528v1 weanhear
提出了一种在设计图,绘图或计划布局中查找和分类各种组件和对象的方法。该方法会自动找到传奇表中存在的对象,并借助多个深神经网络找到其位置,计数和相关信息。该方法已在多个图纸或设计模板上进行了预训练,以学习可能有助于表示新模板的功能集 ...
0 0 0 2025/05/03 arXiv:2204.13277v1 eFang
NNU-NET的发布标志着3D医疗图像分割的范式转移,表明正确配置的U-NET体系结构仍然可以实现最新的结果。尽管如此,对新型架构的追求以及与U-NET基线相比优越性能的主张继续。在这项研究中,我们证明,当对常见验证缺点进行审查时,例如使用不足的基线,数据集和忽视的计算资源时,许多最近的主张都无法坚持 ...
0 0 0 2025/05/03 arXiv:2404.09556v2 JackWang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)