可控的图像字幕是一个新兴的多模式主题,旨在用人类目的以自然语言描述图像,$ \ textit {e.g。} $,查看指定区域或以特定的文本样式讲述 ...
0 0 0 2025/04/25 arXiv:2305.02677v3 argbunint256
在本文中,我们提出了基于高斯 Splatting 的文本转 3D 生成 (GSGEN),这是一种生成高质量 3D 对象的新方法。由于缺乏 3D 事先和正确的表示,以前的方法存在几何不准确和保真度有限的问题。我们利用 3D 高斯分布(3D Gaussian Splatting)(一种最近最先进的表示方法),通过利用能够合并 3D 先验的显式性质来解决现有的缺点 ...
0 0 0 2025/04/25 arXiv:2309.16585v4 happy
许多稀疏的注意机制(例如邻里注意力)通常未能始终如一地在自我注意力基线上提供加速。这主要是由于注意力基础架构的复杂程度以及AI硬件体系结构的快速发展。同时,许多最先进的基础模型,尤其是在计算机视觉中,受到关注的严重束缚,需要可靠的稀疏性来逃避O(n^2)的复杂性 ...
0 0 0 2025/04/25 arXiv:2504.16922v1 ggggggsm
强大的先验使我们能够使用不足的信息进行推理。在本文中,我们提出了3D形状的自回归先验,以求解多模式3D任务,例如形状完成,重建和发电。我们将3D形状上的分布建模为非顺序自回归分布,这是3D形状的离散,低维,类似于符号网格的潜在表示 ...
0 0 0 2025/04/25 arXiv:2203.09516v3 泪子
通过优化模型的最差案例性能,基于分布的强大优化(DRO)的图形神经网络方法改善了推荐系统的分布(OOD)概括。但是,这些研究未能考虑嘈杂样本在训练数据中的影响,从而导致概括能力降低和准确性降低。通过实验和理论分析,本文表明,当前基于DRO的图形建议方法为噪声分布分配了更大的权重,从而导致模型参数学习由其主导 ...
0 0 0 2025/04/25 arXiv:2501.15555v1 pumpkin
视觉语言模型(VLM)的最新进展显着增强了其处理复杂的图形用户界面(GUI)交互任务的能力。尽管有这些改进,但当前的框架通常很难在挑战性的GUI环境中产生正确的行动。最先进的商业VLM是黑盒,用于GUI任务的微调开源VLM需要大量资源 ...
0 0 0 2025/04/25 arXiv:2504.16073v1 dqyzhwk
对比性语言图像预训练(剪辑)框架已成为多模式表示学习的一种广泛使用的方法,尤其是在图像文本检索和聚类中。但是,其功效受到三个关键局限性的限制:(1)文本 Token 截断,(2)隔离的图像文本编码,以及(3)由于词袋行为而引起的缺陷组成性。尽管最近的多模式大型语言模型(MLLM)在广义视觉理解方面表现出了重大进步,但它们学习可转移的多模式表示的潜力仍然是这项工作的HTTP URL,但我们展示了Un ...
0 0 0 2025/04/25 arXiv:2504.17432v1 15370090936
尽管在3D视觉中广泛使用了点云,但相对有限的数据可用于培训深层神经网络。尽管数据增强是弥补数据稀缺性的标准方法,但在Point Cloud文献中,它的探索较少。在本文中,我们提出了一种称为Pointwolf的简单有效的增强方法,用于增强点云 ...
0 0 0 2025/04/25 arXiv:2110.05379v1 Boooil

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)