基于张量的多视图聚类由于其出色的跨视图高阶相关性探索了其出色的能力,因此最近受到了极大的关注。但是,大多数现有方法仍然遇到一些局限性。 (1)他们中的大多数探索了不同亲和力矩阵之间的相关性,使其对大规模数据不可占 ...
0 0 0 2025/04/30 arXiv:2411.07685v1 FOUR_A
最近的单视图3D生成方法通过利用从广泛的3D对象数据集中提取的知识来取得了重大进步。但是,从单个视图中综合3D场景的挑战仍然存在,这主要是由于现实世界环境的复杂性和高质量的先验资源的有限可用性。在本文中,我们介绍了一种名为Pano2Room的新方法,该方法旨在自动从单个全景图像中自动重建高质量的3D室内场景 ...
0 0 0 2025/04/30 arXiv:2408.11413v2 wonglliam
大型机器学习模型在各种任务上实现了前所未有的绩效,并且已经发展为首选技术。但是,在资源约束环境上部署这些计算和内存模型会带来新的挑战。在这项工作中,我们提出了数学上可证明的代表草图,这是一组简洁的计数数组,可以通过简单的哈希计算和聚合近似推理过程 ...
0 0 0 2025/04/30 arXiv:2106.11426v1 Daenerays
随着虚拟现实应用程序的广泛使用,3D场景的生成已成为一个新的挑战性研究前沿。 3D场景具有高度复杂的结构,需要确保输出密集,相干,并且包含所有必要的结构。当前的许多3D场景生成方法依赖于预先训练的文本对图像扩散模型和单眼深度估计器 ...
0 0 0 2025/04/30 arXiv:2501.10462v1 wonglliam
大型重建和生成模型的最新进展已显着改善了场景的重建和新颖的视野产生。但是,由于计算局限性,使用这些大型模型的每个推断都局限于一个小区域,从而使远程一致的场景产生具有挑战性。为了解决这个问题,我们提出了Stargen,这是一个新颖的框架,该框架以自动回归方式采用了预训练的视频扩散模型,以产生长期场景的一代 ...
0 0 0 2025/04/30 arXiv:2501.05763v4 wonglliam
可控的3D室内场景综合位于技术进步的最前沿,提供了各种应用,例如游戏,电影和增强/虚拟现实。在这些方案中进行样式化和解开对象的样式化和脱离式对象的能力是至关重要的因素,在整个编辑过程中提供了高级控制水平。该控件不仅扩展到操纵几何属性(如翻译和缩放),还包括管理外观,例如风格化 ...
0 0 0 2025/04/30 arXiv:2401.13203v1 wonglliam
图形神经网络(GNN)在各种图形学习任务中显示出令人鼓舞的结果,但它们通常会同性化,这可能会导致异性图的性能差。连接的节点可能来自不同的类别或异性图上具有不同特征。在本文中,我们提出了一种新颖的GNN,该GNN通过使用对流扩散方程(CDE)对节点的信息流进行建模,从而结合了异质的原理 ...
0 0 0 2025/04/29 arXiv:2305.16780v2 晚餐杀手
文本到语音(TTS)模型的最新进展是由大语言模型(LLM)的整合,增强语义理解和改善语音自然性的驱动的。但是,现有的基于LLM的TTS模型通常缺乏开源培训代码和有效的推理加速框架,从而限制了它们的可访问性和适应性。此外,没有针对播客方案专门优化公开可用的TTS模型,这些模型对语音交互应用的需求很高 ...
0 0 0 2025/04/29 arXiv:2504.19146v1 luffy

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)