一译 —— 文档和论文翻译、对照阅读、讨论和社区

SQL-Factory: A Multi-Agent Framework for High-Quality and Large-Scale SQL Generation

高质量的SQL语料库对于智能数据库至关重要。例如，文本到SQL需要SQL查询，并且作为培训样本的相应自然语言问题。但是，由于手动注释的高成本，在实践中收集此类查询语料库仍然具有挑战性，这突出了自动SQL生成的重要性 ...

0 0 0 2025/04/26 arXiv:2504.14837v2 ifzz

MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism

Experts（MOE）的混合物展示了具有增强性能和降低计算复杂性的大型语言模型（LLM）的巨大潜力。但是，其稀疏激活的体系结构将进料前向网络（FFN）转移到推理期间的计算密集型到内存密集型，从而导致GPU利用率降低并增加了运营成本。我们提出了Megascale-Infer，这是一种用于提供大规模MOE型号的高效且具有成本效益的系统 ...

0 0 0 2025/04/25 arXiv:2504.02263v3 tea5

HO-Gaussian: Hybrid Optimization of 3D Gaussian Splatting for Urban Scenes

3D高斯脱落（3DGS）的快速增长彻底改变了神经渲染，从而实现了高质量渲染的实时生产。但是，由于依赖初始结构 - 摄影（SFM）点（SFM）点（SFM）点以及遥远，遥远，天空和低文本区域的困难，因此前面的基于3DGS的方法在城市场景中存在局限性。为了克服这些挑战，我们提出了一种名为Ho-Gaussian的混合优化方法，该方法将基于网格的体积与3DGS管道结合在一起 ...

0 0 0 2025/04/25 arXiv:2403.20032v1 zhanguanglun

MolXPT: Wrapping Molecules with Text for Generative Pre-training

生成的预训练 Transformer （GPT）证明了其在自然语言处理中的巨大成功，相关技术已改编为分子建模。考虑到文本是科学发现的最重要记录，在本文中，我们提出了Molxpt，这是通过文本包裹的微笑（分子序列表示）预先训练的文本和分子的统一语言模型。简而言之，我们在每个序列中检测到分子名称，然后将其替换为相应的微笑 ...

0 0 0 2025/04/25 arXiv:2305.10688v2 frank642

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting

我们提出CAT-V（视频中的标题上的任何内容），这是一个无训练的框架，用于以细粒度为中心的视频字幕，可以详细描述用户选择的对象。 CAT-V集成了三个关键组件：基于武士的细分器，用于跨帧的精确对象分割，由Trace-Uni供电的临时分析仪用于准确的事件边界检测和时间分析，以及使用Internvl-2.5的字幕仪，用于生成详细的对象以对象为中心的描述 ...

0 0 0 2025/04/25 arXiv:2504.05541v2 argbunint256

Caption Anything: Interactive Image Description with Diverse Multimodal Controls

可控的图像字幕是一个新兴的多模式主题，旨在用人类目的以自然语言描述图像，$ \ textit {e.g。} $，查看指定区域或以特定的文本样式讲述 ...

0 0 0 2025/04/25 arXiv:2305.02677v3 argbunint256

Text-to-3D using Gaussian Splatting

在本文中，我们提出了基于高斯 Splatting 的文本转 3D 生成 (GSGEN)，这是一种生成高质量 3D 对象的新方法。由于缺乏 3D 事先和正确的表示，以前的方法存在几何不准确和保真度有限的问题。我们利用 3D 高斯分布（3D Gaussian Splatting）（一种最近最先进的表示方法），通过利用能够合并 3D 先验的显式性质来解决现有的缺点 ...

0 0 0 2025/04/25 arXiv:2309.16585v4 happy

Generalized Neighborhood Attention: Multi-dimensional Sparse Attention at the Speed of Light

许多稀疏的注意机制（例如邻里注意力）通常未能始终如一地在自我注意力基线上提供加速。这主要是由于注意力基础架构的复杂程度以及AI硬件体系结构的快速发展。同时，许多最先进的基础模型，尤其是在计算机视觉中，受到关注的严重束缚，需要可靠的稀疏性来逃避O（n^2）的复杂性 ...

0 0 0 2025/04/25 arXiv:2504.16922v1 ggggggsm

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）