一译 —— 文档和论文翻译、对照阅读、讨论和社区

Lillama: Large Language Models Compression via Low-Rank Feature Distillation

当前的LLM结构化修剪方法通常涉及两个步骤：（1）带有校准数据的压缩以及（2）对数十亿个 Token 的持续预测，以恢复损失的性能。第二步是必要的，因为第一步会显着影响模型的准确性。先前的研究表明，经过预估计的 Transformer 权重与其激活不同，这可能解释了这种下降 ...

0 0 0 2025/05/27 arXiv:2412.16719v2 garming

Locality-Aware Zero-Shot Human-Object Interaction Detection

零拍摄的人类相互作用（HOI）检测的最新方法通常利用了看不见的类别的大视觉模型（即VLM）（即夹子）的概括能力，在各种零弹药设置上显示出令人印象深刻的结果 ...

0 0 0 2025/05/27 arXiv:2505.19503v1 yiyi07

Discrete Audio Representations for Automated Audio Captioning

离散的音频表示（称为音频 Token ）大致分为语义和声音 Token ，通常通过无监督的连续音频表示形式产生。但是，它们适用于自动化音频字幕（AAC）的适用性尚未得到充实。本文通过对各种 Token 化方法的比较分析，系统地研究了 Token 驱动模型的AAC的可行性 ...

0 0 0 2025/05/27 arXiv:2505.14989v1 ka

Towards Holistic Evaluation of Large Audio-Language Models: A Comprehensive Survey

随着大型音频模型（LALMS）的进步，增强了具有听觉功能的大型语言模型（LLM），这些模型有望证明各种听觉任务的普遍熟练程度。尽管已经出现了许多基准来评估LALMS的性能，但它们仍然分散，缺乏结构化的分类法。为了弥合这一差距，我们进行了一项全面的调查，并提出了针对LALM评估的系统分类法，将它们根据其目标分为四个维度：（1）一般听觉意识和处理，（2）知识和推理，（3）面向对话的能力，以及（4）公平 ...

0 0 0 2025/05/27 arXiv:2505.15957v2 ka

SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration

 Transformer 架构在各种模型中占主导地位。作为 Transformer 的核心，注意力的计算复杂度为 O(N^2)，而线性变换的计算复杂度为 O(N)。当处理大序列长度时，注意力成为主要耗时的组成部分 ...

0 0 0 2025/05/27 arXiv:2410.02367v6 colin66

PLAID: An Efficient Engine for Late Interaction Retrieval

预训练的语言模型越来越重要的组成部分（IR）范式中的组成部分。与Colbert Model一起引入并最近在ColbertV2中提出的后期互动是一种流行的范式，在许多基准测试中都具有最先进的地位。为了极大地加快晚期互动的搜索延迟，我们介绍了性能优化的后期互动驱动器（格子） ...

0 0 0 2025/05/27 arXiv:2205.09707v1 leec

Enhancing Visibility in Nighttime Haze Images Using Guided APSF and Gradient Adaptive Convolution

朦胧的夜间场景中的可见性经常被多种因素降低，包括低光，强烈的光芒，光散射以及五彩光源的存在。现有的夜间飞行方法通常在处理光芒或弱光条件方面遇到困难，导致过度黑暗的视觉效果或未抑制的发光输出。在本文中，我们通过抑制光芒并增强弱光区域来增强单个夜间雾霾图像的可见性 ...

0 0 0 2025/05/27 arXiv:2308.01738v4 jiajia233

Thanos: A Block-wise Pruning Algorithm for Efficient Large Language Model Compression

本文介绍了Thanos，Thanos是一种新型的宽松算法，旨在减少记忆足迹，并通过删除冗余权重的同时保持准确性，从而提高大语模型（LLMS）的计算效率。 Thanos引入了一种宽松的修剪策略，并具有自适应面罩，该掩模会动态调整重量的重要性，从而实现灵活的稀疏模式和结构化格式，例如$ n：m $ sparsity，用于硬件加速。实验评估表明，Thanos在结构化修剪方面实现了最新的性能，并且在非结构 ...

0 0 0 2025/05/27 arXiv:2504.05346v1 garming

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）