一译 —— 文档和论文翻译、对照阅读、讨论和社区

A Unified View of Masked Image Modeling

蒙面的图像建模表现出巨大的潜力，可以消除培训大规模视觉 Transformer 的渴望标签问题，从而在各种下游任务上取得了令人印象深刻的性能。在这项工作中，我们在重新审视现有方法后提出了掩盖图像建模的统一视图。在统一的视图下，我们引入了一种简单而有效的方法，称为MaskDistill，该方法从掩盖位置的教师模型中重建了标准化的语义特征，以损坏的输入图像进行调节 ...

0 1 0 2025/05/15 arXiv:2210.10615v1 韩池

LoRI: Reducing Cross-Task Interference in Multi-Task Low-Rank Adaptation

低级适应性（LORA）已成为大型语言模型（LLMS）的流行参数效率微调（PEFT）方法，但它仍然引起了鲜明的开销，并且在多任务场景中受到参数干扰的影响。我们建议使用减少干扰（Lori）的洛拉（Lora），这是一种简单而有效的方法，可以将投影矩阵$ a $冻结，因为随机预测，并使用特定于任务的掩码对矩阵$ b $散布。这种设计大大减少了可训练参数的数量，同时保持了强大的任务性能 ...

0 1 1 2025/05/15 arXiv:2504.07448v1 jackson118

CORAL: Learning Consistent Representations across Multi-step Training with Lighter Speculative Drafter

投机解码是一种强大的技术，它通过利用轻量级投机性草案模型来加速大型语言模型（LLM）推断。但是，由于训练和推理之间的不对对准，现有的设计遭受了性能的影响。最近的方法试图通过采用多步培训策略来解决这个问题，但是不同培训步骤的复杂输入使模型草案更难收敛 ...

0 0 0 2025/05/15 arXiv:2502.16880v2 jessiewei7

SceneCraft: Layout-Guided 3D Scene Generation

使用传统的3D建模工具来创建针对用户规格的复杂3D场景的创建一直是一项繁琐而艰巨的任务。尽管某些开创性方法已经实现了自动的文本到3D代，但它们通常仅限于小型场景，并且对形状和纹理的控制有限。我们介绍了Scenecraft，这是一种新的方法，用于生成详细的室内场景，该场景遵循用户提供的文本描述和空间布局偏好 ...

0 0 0 2025/05/15 arXiv:2410.09049v3 wonglliam

Adapting Language Models via Token Translation

现代大型语言模型使用固定的 Token 器来有效地压缩从源域中绘制的文本。但是，将相同的 Token 施加到新的目标域通常会导致劣质的压缩，更昂贵的推断和降低语义一致性。为了解决这种缺陷，我们引入了稀疏的sndhorn Token 翻译（S2T2） ...

0 0 0 2025/05/15 arXiv:2411.00593v2 snowpigppp

Robust Orthogonal NMF with Label Propagation for Image Clustering

非负基质分解（NMF）是一种流行的无监督学习方法，广泛用于图像聚类中。但是，在现实世界的聚类场景中，大多数现有的NMF方法对噪声腐败高度敏感，并且无法有效利用有限的监督信息。为了克服这些缺点，我们提出了一个统一的非凸框架，其标签传播称为鲁棒正交非负矩阵分解（RONMF） ...

0 0 0 2025/05/15 arXiv:2504.21472v1 FOUR_A

Unified Keyword Spotting and Audio Tagging on Mobile Devices with Transformers

对于大多数现代智能助手而言，关键字斑点（KWS）是人机交流的核心前端任务。最近，已经提出了一个统一的（UNIKW-AT）框架，该框架以音频标记（AT）形式增加了KWS模型的形式。但是，以前的工作并未考虑Unikw-at模型的现实部署，其中诸如模型大小和推理速度之类的因素比单独的性能更重要 ...

0 0 0 2025/05/15 arXiv:2303.01812v1 irving

From Association to Generation: Text-only Captioning by Unsupervised Cross-modal Mapping

随着视觉语言预训练模型（VLPM）的开发，以剪辑和对齐为代表，已经通过零件的零拍功能在没有微调的情况下通过零拍的能力来实现基于关联的视觉任务（例如图像分类和图像文本检索）的显着突破。但是，剪辑很难应用于基于一代的任务。这是由于缺乏解码器体系结构和生成预训练任务 ...

0 0 0 2025/05/15 arXiv:2304.13273v3 hynj

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）