一译 —— 文档和论文翻译、对照阅读、讨论和社区

DCAD-2000: A Multilingual Dataset across 2000+ Languages with Data Cleaning as Anomaly Detection

多语言大语言模型（LLM）的快速发展凸显了需要高质量，多样化和清洁多语言数据集的需求。在本文中，我们介绍了DCAD-2000（数据清洁作为异常检测），这是一种使用新提取的常见爬网数据和现有多语言数据集构建的大规模多语种语料库。 DCAD-2000包括2,282多种语言，46 ...

0 0 0 2025/03/03 arXiv:2502.11546v1 sr

Nonlinear Transform Coding

我们审查了一类可根据名称非线性转换编码（NTC）收集的方法，在过去的几年中，这些方法已与图像的最佳线性变换编解码器竞争，并以速率（在既定的感知质量质量指标（例如MS-SSIM））（如MS-SSIM）的速率绩效取代了它们。我们评估了经验率 - 借助于简单的示例来源，NTC的延伸性能是，矢量量化器的最佳性能比自然数据源更容易估计。为此，我们引入了一种新型的熵受限矢量量化的变体 ...

0 0 0 2025/03/03 arXiv:2007.03034v2 fcqfcq

WanJuan-CC: A Safe and High-Quality Open-sourced English Webtext Dataset

本文提出了 WanJuan-CC，一个源自 Common Crawl 数据的安全且高质量的开源英语网络文本数据集。该研究解决了为语言模型构建大规模预训练数据集的挑战，这需要大量高质量的数据。设计了一套全面的流程来处理Common Crawl数据，包括提取、启发式规则过滤、模糊去重、内容安全过滤和数据质量过滤 ...

0 0 0 2025/03/03 arXiv:2402.19282v6 hzy

StegaStamp: Invisible Hyperlinks in Physical Photographs

印刷和数字显示的照片具有隐藏可以通过Internet连接成像系统访问的不可察觉的数字数据的能力。考虑到这一点的另一种方法是物理照片，它们在其中嵌入了独特的QR码。本文介绍了一种架构，算法和针对该愿景的原型实现 ...

0 0 0 2025/03/03 arXiv:1904.05343v2 zer

LLM Post-Training: A Deep Dive into Reasoning Large Language Models

大型语言模型（LLMS）改变了自然语言处理景观，并使多样化的应用栩栩如生。在大量的网络规模数据上进行了预处理为这些模型奠定了基础，但是研究界现在越来越多地转移到训练后技术方面，以实现进一步的突破。虽然预处理提供了广泛的语言基础，但培训后方法使LLMS能够完善其知识，提高推理，提高事实准确性，并更有效地与用户的意图和道德注意事项更有效地保持一致 ...

0 2 0 2025/03/03 arXiv:2502.21321v1 liuweitang

Humanoid-VLA: Towards Universal Humanoid Control with Visual Integration

本文解决了当前的类人形机器人控制框架的局限性，该框架主要依赖于反应性机制，并且由于数据稀缺而缺乏自主互动能力。我们提出了人形vla，这是一个新颖的框架，该框架整合了语言的理解，以当时的场景感知和运动控制，从而实现了普遍的人形生物控制。人类VLA始于语言 - 动作前使用与文本描述配对的非中心人体运动数据集的预先对准，从而使模型可以学习通用运动模式和动作语义 ...

0 0 0 2025/03/03 arXiv:2502.14795v2 jane88

Light3R-SfM: Towards Feed-forward Structure-from-Motion

我们提出了Light3R-SFM，这是一种从无约束的图像收集中从无约束的图像收集中有效的大规模结构（SFM）的端到端学习框架。与现有的SFM解决方案依靠昂贵的匹配和全球优化来实现准确的3D重建，Light3R-SFM通过一种新型的潜在全球对齐模块来解决这一限制。该模块用可学习的注意机制代替了传统的全局优化，从而有效地捕获了图像跨图像的多视图约束，从而获得了稳健和精确的相机姿势估计 ...

0 0 0 2025/03/03 arXiv:2501.14914v1 lucian_p

Plan-over-Graph: Towards Parallelable LLM Agent Schedule

大型语言模型（LLMS）在为任务计划推理方面表现出了出色的能力。但是，对于并行时间表，挑战仍然不足。本文介绍了一种新颖的范式，计划范围的范围，其中模型首先将真实的文本任务分解为可执行的子任务并构造抽象任务图 ...

0 0 0 2025/03/03 arXiv:2502.14563v1 swtuser

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）