一译 —— 文档和论文翻译、对照阅读、讨论和社区

Vector Quantized Diffusion Model for Text-to-Image Synthesis

我们介绍了文本对图像生成的矢量量化扩散（VQ-扩散）模型。该方法基于量化的量化变量自动编码器（VQ-VAE），其潜在空间是由最近开发的denoising扩散概率模型（DDPM）的条件变体建模的。我们发现，这种潜在空间方法非常适合文本图像生成任务，因为它不仅消除了使用现有方法的单向偏差，而且还使我们能够将掩盖和重新定位的扩散策略纳入避免错误的积累，这是一个严重的问题，这是现有方法的严重问题 ...

0 0 0 2025/03/16 arXiv:2111.14822v3 11123

Unveiling Linguistic Regions in Large Language Models

大型语言模型（LLM）表现出相当大的跨语性对准能力和概括能力。当前的研究主要集中于提高LLMS的跨语性概括能力。但是，仍然缺乏关于LLMS如何实现跨语性对准的内在机制的研究 ...

0 0 0 2025/03/16 arXiv:2402.14700v3 muzhi

PoIFusion: Multi-Modal 3D Object Detection via Fusion at Points of Interest

在这项工作中，我们提出了Poifusion，这是一种概念上简单而有效的多模式3D对象检测框架，可在感兴趣的点（POI）融合RGB图像和LIDAR点云的信息。从迄今为止，将多传感器数据转换为统一的视图或利用全局注意机制以促进融合的最准确的方法不同，我们的方法保持了每种模式的视图，并通过计算友好的投影和插值获得了多模式特征。特别是，我们的poifusion遵循基于查询的对象检测的范式，将对象查询作为动 ...

0 0 0 2025/03/16 arXiv:2403.09212v2 oneyhu

VACE: All-in-One Video Creation and Editing

扩散 Transformer 在生成高质量的图像和视频方面表现出强大的功能和可扩展性。进一步追求生成和编辑任务的统一在图像内容创建的领域取得了重大进展。 However, due to the intrinsic demands for consistency across both temporal and spatial dynamics, achieving a unified approa ...

0 0 0 2025/03/16 arXiv:2503.07598v2 viczn

WinCLIP: Zero-/Few-Shot Anomaly Classification and Segmentation

视觉异常分类和分割对于自动化工业质量检测至关重要。该领域先前研究的重点是为每个质量检查任务训练自定义模型，这需要特定于任务的图像和注释。在本文中，我们摆脱了这种机制，解决了零样本和少量正常样本的异常分类和分割问题... ...

0 2 0 2025/03/16 arXiv:2303.14814v1 aura

Gradient Matching for Domain Generalization

机器学习系统通常假定培训和测试集的分布密切匹配。但是，在现实世界中，此类系统的关键要求是它们推广到看不见的领域的能力。在这里，我们提出了一个域间梯度匹配目标，该目标通过最大化不同域的梯度之间的内部产物来靶向域的概括 ...

0 0 0 2025/03/16 arXiv:2104.09937v3 Harry3790

OminiControl: Minimal and Universal Control for Diffusion Transformer

在本文中，我们介绍了 OminiControl，这是一种高度通用且参数高效的框架，它将图像条件集成到预先训练的扩散 Transformer  (DiT) 模型中。 OminiControl 的核心利用了参数重用机制，使 DiT 能够使用自身作为强大的骨干对图像条件进行编码，并使用其灵活的多模式注意处理器来处理它们。与严重依赖具有复杂架构的附加编码器模块的现有方法不同，OminiControl (1 ...

0 0 0 2025/03/16 arXiv:2411.15098v5 liushibo

Predicting Semantic Map Representations from Images using Pyramid Occupancy Networks

自动驾驶汽车通常依赖于其环境的高度详细的鸟眼视线图，它们捕获了场景的两个静态元素，例如道路布局以及其他汽车和行人等动态元素。即时生成这些地图表示形式是一个复杂的多阶段过程，其中包含许多基于视觉的元素，包括地面平面估计，道路分割和3D对象检测。在这项工作中，我们提出了一种简单的，统一的方法，可以使用单一端到端的深度学习体系结构直接从单眼图像估算地图 ...

0 0 0 2025/03/16 arXiv:2003.13402v1 hao0o0

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）