我们介绍了GPTAQ,这是一种新颖的无芬量量化方法,用于压缩大型 Transformer 体系结构。与以前独立校准每层校准的GPTQ方法不同,我们始终将量化层的输出与完整模型中的精确输出匹配,从而导致了一种我们称为不对称校准的方案。这样的方案可以有效地减少先前层中累积的量化误差 ...
0 0 0 2025/07/14 arXiv:2504.02692v3 xiximayou
矢量量化的变分自动编码器(VQ-VAE)是将连续视觉数据压缩为离散 Token 的基本模型。现有方法试图改善量化策略以提高重建质量,但是,VQ-VAE和VAE之间仍然存在很大的差距。为了缩小这一差距,我们提出了\ nickname,这是一种增强离散代码书的表示能力的新颖方法,促进了对代码书的更轻松优化并最大程度地减少信息丢失,从而提高了重建质量 ...
0 0 0 2025/07/14 arXiv:2507.07997v1 13724122396
图像 Token 在塑造后续生成模型的性能中起着至关重要的作用。自从引入VQ-GAN以来,离散图像 Token 化已经取得了显着的进步。建筑,量化技术和培训配方的改进已经显着提高了图像重建和下游的生成质量 ...
0 0 0 2025/07/14 arXiv:2412.01762v1 Lydia1317
尽管端到端(E2E)自动语音识别(ASR)的进展很快,但已表明将外部语言模型(LMS)纳入解码可以进一步提高E2E ASR系统的识别性能。为了与E2E ASR系统中采用的建模单元保持一致,子词级(例如, ...
0 0 0 2025/07/14 arXiv:2201.01995v1 simple_666
由自动驾驶,机器人技术和沉浸式环境的应用驱动的3D点云数据的快速增长导致对有效的压缩和质量评估技术的需求。与传统的2D媒体不同,Point Cloud由于其不规则结构,高数据量和复杂属性而带来了独特的挑战。本文对点云压缩(PCC)和点云质量评估(PCQA)的最新进展进行了全面的调查,强调了它们对实时和感知相关应用的重要性 ...
0 0 0 2025/07/14 arXiv:2506.22902v1 1150501302
视频字幕旨在自动生成视频内容的自然语言描述,这引起了近年来的很多关注。生成准确且细粒度的字幕不仅需要了解视频的全局内容,还需要捕获详细的对象信息。同时,视频表示对生成的字幕的质量产生了很大的影响 ...
0 0 0 2025/07/14 arXiv:1906.04375v1 meme
奖励模型是语言模型训练后和推理管道的关键。方便的,最近的工作表明,每个语言模型都定义了隐性奖励模型(IM-RM),而无需任何建筑更改。但是,与明确的奖励模型(EX-RMS)相比,这种IM-RMS倾向于概括更糟,尤其是分发量,这些模型(EX-RMS)在语言模型的隐藏表示上应用了专用的线性头 ...
0 0 0 2025/07/14 arXiv:2507.07981v1 树叶无声
这里引入了一组新的硬件合并排序设备,该设备以快速有效的方式将多个分类的输入列表合并为单个排序的输出列表。在每个合并分类器中,从分类的输入列表中的值安排在输入2-D设置数组中,但是每个排序的输入列表的顺序偏移了每个其他排序输入列表的顺序。在这些新设备中,称为列表偏移合并分子(LOMS),一组最小的列排序阶段与行排序阶段交替交替使用输入设置数组到最终输出数组中,现在按定义的排序顺序 ...
0 0 0 2025/07/14 arXiv:2507.08658v1 jane88

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)