一译 —— 文档和论文翻译、对照阅读、讨论和社区

Learning Low-rank Deep Neural Networks via Singular Vector Orthogonality Regularization and Singular Value Sparsification

现代深层神经网络（DNN）通常需要高度的记忆消耗和较大的计算负载。为了在边缘或移动设备上有效部署DNN算法，已经探索了一系列DNN压缩算法，包括分解方法。分解方法与两个或多个低级矩阵的乘法近似DNN层的重量矩阵 ...

0 0 0 2025/03/15 arXiv:2004.09031v1 smallz

AutoScraper: A Progressive Understanding Web Agent for Web Scraper Generation

Web刮擦是一种强大的技术，可从网站中提取数据，启用自动数据收集，增强数据分析功能并最大程度地减少手动数据输入工作。现有方法，基于包装纸的方法在面对新网站时具有有限的适应性和可伸缩性，而由大语言模型（LLMS）授权的语言代理在不同的网络环境中的可重复使用性较差。在这项工作中，我们介绍了使用LLMS生成Web刮刀的范式，并提出了AutoScraper，这是一个两阶段的框架，可以更有效地处理多样化和更 ...

0 0 0 2025/03/15 arXiv:2404.12753v2 jueli

Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions

在最近的文本视频检索中，使用视觉模型的其他字幕显示了对性能的有希望的影响。但是，使用其他字幕的现有模型通常努力捕获视频中固有的富有语义（包括时间变化）。此外，由生成模型引起的错误信息可能导致检索不正确 ...

0 0 0 2025/03/15 arXiv:2503.05186v3 hynj

Why Vision Language Models Struggle with Visual Arithmetic? Towards Enhanced Chart and Geometry Understanding

视觉语言模型（VLM）在多模式任务中取得了显着的进步，但是它们经常在视觉算术，看似简单的功能（例如对象计数或长度比较）上挣扎，这对于相关的复杂任务（例如图表理解和几何理解和几何推理）至关重要。在这项工作中，我们首先通过一系列探测任务，重点关注基本的视觉算术。我们的分析表明，尽管预训练的视力编码通常会捕获足够的信息，但文本解码器通常无法正确解码算术推理 ...

0 0 0 2025/03/15 arXiv:2502.11492v2 LittleHenry

MrT5: Dynamic Token Merging for Efficient Byte-level Language Models

依靠子字 Token 化的模型具有重要的缺点，例如对角色级别噪声（例如拼写错误）的敏感性，以及不同语言和脚本之间的不一致的压缩率。尽管字符或字节级模型（例如BYT5）试图解决这些问题，但它们尚未获得广泛的采用 - 处理没有 Token 化的原始字节流导致序列长度明显更长，从而使训练和推断效率低下。这项工作引入了MRT5（Merget5），这是BYT5的更有效的变体，该变体在其编码中集成了 Toke ...

0 0 0 2025/03/15 arXiv:2410.20771v1 uu2222

SkyByte: Architecting an Efficient Memory-Semantic CXL-based SSD with OS and Hardware Co-design

基于CXL的固态驱动器（CXL-SSD）提供了一种有前途的方法，可以低成本扩展主要存储容量。但是，由于长期的闪光访问延迟和不可预测的事件，例如SSD设备中的垃圾收集，使主机处理器陷入停滞和浪费计算周期，因此CXL-SSD面临性能挑战。尽管CXL接口启用了对SSD的字节粒数据访问，但由于物理限制，访问闪存芯片仍处于页面粒度 ...

0 1 0 2025/03/15 arXiv:2501.10682v1 李大人

GenDR: Lightning Generative Detail Restorator

最新的研究将文本对图像（T2I）扩散模型用于现实世界超级分辨率（SR）取得了巨大的成功。但是，T2i和SR目标之间的基本未对准导致推理速度和细节保真度之间存在困境。具体而言，T2I任务优先考虑多步反转，以合成与文本提示对齐的相干输出并收缩潜在空间以降低生成复杂性 ...

0 0 0 2025/03/15 arXiv:2503.06790v1 flynnamy

Graph2text or Graph2token: A Perspective of Large Language Models for Graph Learning

图是用于表示不规则网络的数据结构，并且在众多现实世界应用中很普遍。先前的方法直接建模图结构并取得了重大成功。但是，由于图的固有不规则性，这些方法遇到了瓶颈 ...

0 0 0 2025/03/15 arXiv:2501.01124v1 ShuoHanai

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）