一译 —— 文档和论文翻译、对照阅读、讨论和社区

MIDI: Multi-Instance Diffusion for Single Image to 3D Scene Generation

本文介绍了MIDI，这是一种新颖的范式，用于从单个图像中产生构图3D场景。与依赖重建或检索技术或采用多阶段对象生成对象的方法的现有方法不同，MIDI将预训练的图像到3D对象生成模型扩展到多稳态扩散模型，从而使多个3D实例同时生成具有准确的空间关系和高通用性。 MIDI的核心结合了一种新型的多构度注意机制，该机制可有效地捕获对象间的相互作用和空间连贯性，而无需复杂的多步骤过程 ...

0 0 0 2025/09/10 arXiv:2412.03558v3 wonglliam

A Knowledge-Driven Diffusion Policy for End-to-End Autonomous Driving Based on Expert Routing

端到端的自主驾驶仍受到产生多模式作用，保持时间稳定并在各种情况下概括的必要性的限制。现有的方法通常会崩溃多模式，与长马的一致性挣扎或缺乏模块化适应性。本文提出了KDP，这是一种知识驱动的扩散策略，将生成扩散建模与稀疏的专家混合物的路由机制集成在一起 ...

0 0 0 2025/09/10 arXiv:2509.04853v1 longgangganggang

Customizing the Inductive Biases of Softmax Attention using Structured Matrices

注意力的核心成分是评分函数，它将输入转换为低维查询和键，并将每对的点产物占据。虽然低维投影提高了效率，但它会导致某些具有本质上高维输入的任务的信息损失。此外，注意对所有输入对使用相同的评分函数，而不会在序列中对相邻 Token 施加距离依赖的计算偏置 ...

0 0 0 2025/09/10 arXiv:2509.07963v1 漏视野

POET: Prompt Offset Tuning for Continual Human Action Adaptation

As extended reality (XR) is redefining how users interact with computing devices, research in human action recognition is gaining prominence.通常，部署在沉浸式计算设备上的模型是静态的，并且仅限于其默认类别集。我们研究的目的是通过不断向设备模型添加新的动作类， ...

0 0 0 2025/09/10 arXiv:2504.18059v1 1939058274

Instruct-ReID: A Multi-purpose Person Re-identification Task with Instructions

人类智能可以根据视觉和语言描述来检索任何人。然而，当前的计算机视觉社区分别研究不同场景下的特定行人重新识别（ReID）任务，这限制了其在现实世界中的应用。本文试图通过提出一种新的指令-ReID任务来解决这个问题，该任务要求模型根据给定的图像或语言指令来检索图像 ...

0 0 0 2025/09/10 arXiv:2306.07520v5 19396386025

Q-ViT: Fully Differentiable Quantization for Vision Transformer

在本文中，我们提出了一种称为Q-Vit的视觉 Transformer （VIT）的完全可区分的量化方法，其中两个量级尺度和位宽度都是可学习的参数。具体而言，根据我们的观察，即VIT显示出不同的量化鲁棒性，我们利用头部宽度的位宽度来挤压Q-Vit的大小，同时保持性能。此外，我们提出了一种名为“可切换量表”的新技术，以解决量级和位宽度的联合训练中的收敛问题 ...

0 0 0 2025/09/10 arXiv:2201.07703v2 felixslu

Unsupervised Corpus Aware Language Model Pre-training for Dense Passage Retrieval

最近的研究表明，使用微调语言模型〜（LM）进行致密检索的有效性。但是，密集的猎犬很难训练，通常需要大量设计的微调管道才能实现其全部潜力。在本文中，我们识别并解决了两个茂密检索器的两个潜在问题：i）〜训练数据噪声的脆弱性和ii）〜需要大批量来鲁棒地学习嵌入空间 ...

0 0 0 2025/09/10 arXiv:2108.05540v1 15775773518

VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

长期的视频理解给多模式大型语言模型（MLLM）带来了重大挑战，主要是由于巨大的数据量表。一个至关重要且广泛采用的策略，可以使此任务计算可处理，这是钥匙帧检索，该检索旨在识别一组稀疏的视频框架集，这些视频帧最为特定的文本查询。但是，这种方法的疗效受到文本查询和视觉内容之间的多模式对齐的阻碍，并且无法捕获精确推理所需的复杂的时间语义信息 ...

0 0 0 2025/09/10 arXiv:2508.06869v2 13370405169

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）