一译 —— 文档和论文翻译、对照阅读、讨论和社区

Caption Anything: Interactive Image Description with Diverse Multimodal Controls

可控的图像字幕是一个新兴的多模式主题，旨在用人类目的以自然语言描述图像，$ \ textit {e.g。} $，查看指定区域或以特定的文本样式讲述 ...

0 0 0 2025/04/25 arXiv:2305.02677v3 argbunint256

Text-to-3D using Gaussian Splatting

在本文中，我们提出了基于高斯 Splatting 的文本转 3D 生成 (GSGEN)，这是一种生成高质量 3D 对象的新方法。由于缺乏 3D 事先和正确的表示，以前的方法存在几何不准确和保真度有限的问题。我们利用 3D 高斯分布（3D Gaussian Splatting）（一种最近最先进的表示方法），通过利用能够合并 3D 先验的显式性质来解决现有的缺点 ...

0 0 0 2025/04/25 arXiv:2309.16585v4 happy

Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light

许多稀疏的注意机制（例如邻里注意力）通常未能始终如一地在自我注意力基线上提供加速。这主要是由于注意力基础架构的复杂程度以及AI硬件体系结构的快速发展。同时，许多最先进的基础模型，尤其是在计算机视觉中，受到关注的严重束缚，需要可靠的稀疏性来逃避O（n^2）的复杂性 ...

0 0 0 2025/04/25 arXiv:2504.16922v1 ggggggsm

AutoSDF: Shape Priors for 3D Completion, Reconstruction and Generation

强大的先验使我们能够使用不足的信息进行推理。在本文中，我们提出了3D形状的自回归先验，以求解多模式3D任务，例如形状完成，重建和发电。我们将3D形状上的分布建模为非顺序自回归分布，这是3D形状的离散，低维，类似于符号网格的潜在表示 ...

0 0 0 2025/04/25 arXiv:2203.09516v3 泪子

Distributionally Robust Graph Out-of-Distribution Recommendation via Diffusion Model

通过优化模型的最差案例性能，基于分布的强大优化（DRO）的图形神经网络方法改善了推荐系统的分布（OOD）概括。但是，这些研究未能考虑嘈杂样本在训练数据中的影响，从而导致概括能力降低和准确性降低。通过实验和理论分析，本文表明，当前基于DRO的图形建议方法为噪声分布分配了更大的权重，从而导致模型参数学习由其主导 ...

0 0 0 2025/04/25 arXiv:2501.15555v1 pumpkin

Guiding VLM Agents with Process Rewards at Inference Time for GUI Navigation

视觉语言模型（VLM）的最新进展显着增强了其处理复杂的图形用户界面（GUI）交互任务的能力。尽管有这些改进，但当前的框架通常很难在挑战性的GUI环境中产生正确的行动。最先进的商业VLM是黑盒，用于GUI任务的微调开源VLM需要大量资源 ...

0 0 0 2025/04/25 arXiv:2504.16073v1 dqyzhwk

Breaking the Modality Barrier: Universal Embedding Learning with Multimodal LLMs

对比性语言图像预训练（剪辑）框架已成为多模式表示学习的一种广泛使用的方法，尤其是在图像文本检索和聚类中。但是，其功效受到三个关键局限性的限制：（1）文本 Token 截断，（2）隔离的图像文本编码，以及（3）由于词袋行为而引起的缺陷组成性。尽管最近的多模式大型语言模型（MLLM）在广义视觉理解方面表现出了重大进步，但它们学习可转移的多模式表示的潜力仍然是这项工作的HTTP URL，但我们展示了Un ...

0 0 0 2025/04/25 arXiv:2504.17432v1 15370090936

Point Cloud Augmentation with Weighted Local Transformations

尽管在3D视觉中广泛使用了点云，但相对有限的数据可用于培训深层神经网络。尽管数据增强是弥补数据稀缺性的标准方法，但在Point Cloud文献中，它的探索较少。在本文中，我们提出了一种称为Pointwolf的简单有效的增强方法，用于增强点云 ...

0 0 0 2025/04/25 arXiv:2110.05379v1 Boooil

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）