一译 —— 文档和论文翻译、对照阅读、讨论和社区

Knowledge Bridger: Towards Training-free Missing Multi-modality Completion

以前的成功方法完成的方法取决于精心设计的融合技术和对完整数据的大量预培训，这可能会限制其在室外（OOD）方案中的普遍性。在这项研究中，我们提出了一个新的挑战：我们能否开发一个缺失的模式完成模型，既资源效率又强大？为了解决这个问题，我们提出了一个无训练的框架，用于缺少模式完成，该框架利用大型多模型（LMMS）。我们的方法称为“知识布里奇”，是模态敏捷的，并整合了缺失模态的产生和排名 ...

0 0 0 2025/04/09 arXiv:2502.19834v4 xyj

DeepNet: Scaling Transformers to 1,000 Layers

在本文中，我们提出了一种简单而有效的方法来稳定极深的 Transformer 。具体而言，我们引入了一个新的归一化函数（DeepNorm），以修改 Transformer 中的残差连接，并伴随理论得出的初始化。深入的理论分析表明，模型更新可以稳定地界定 ...

0 0 0 2025/04/09 arXiv:2203.00555v1 Ethan_Liu

DeepGEMM: Accelerated Ultra Low-Precision Inference on CPU Architectures using Lookup Tables

最近在超低量化中取得了许多进展，有望在边缘设备上的潜伏期，内存足迹和能源消耗得到显着改善。诸如学习的步长量化之类的量化方法可以实现与完全精确的浮点基线相媲美的模型精度，即使使用子字节量化。但是，在主流CPU设备上部署这些超低量化模型是极其挑战的，因为商品SIMD（单个指令，多个数据）硬件通常支持不少于8位精度 ...

0 0 0 2025/04/09 arXiv:2304.09049v1 remaper

SkyReels-A2: Compose Anything in Video Diffusion Transformers

本文介绍了Skyreels-A2，这是一个可控制的视频生成框架，该框架能够根据文本提示将任意的视觉元素（例如字符，对象，背景）组装成综合视频，同时与每个元素的参考图像保持严格的一致性 ...

0 0 0 2025/04/09 arXiv:2504.02436v1 daddysuperjam

Less-to-More Generalization: Unlocking More Controllability by In-Context Generation

尽管由于其广泛的应用，因此在图像生成中已经广泛探索了受试者驱动的生成，但它仍然在数据可扩展性和扩展性方面面临挑战。对于第一个挑战，从策划单人物数据集转移到多个受试者的数据集并缩放它们特别困难。在第二个单个主体生成上的第二个方法中，最新方法使得在处理多主体方案时很难应用 ...

0 1 0 2025/04/09 arXiv:2504.02160v1 jeft

Learning from Polar Representation: An Extreme-Adaptive Model for Long-Term Time Series Forecasting

在水文学领域，时间序列预测对于有效的水资源管理，改善洪水和干旱的控制以及提高普通人群的安全和生活质量至关重要。但是，由于极端事件的存在，预测长期流量是一项复杂的任务。它需要捕获远程依赖性和稀有但重要的极端价值的建模 ...

0 0 0 2025/04/09 arXiv:2312.08763v2 kkx

A Unified Pairwise Framework for RLHF: Bridging Generative Reward Modeling and Policy Optimization

从人类反馈（RLHF）中学习的强化已成为将大语言模型（LLMS）与培训期间人类偏好保持一致的重要范式。该框架通常涉及两个阶段：首先，在人类偏好数据上培训奖励模型，然后使用增强学习算法优化语言模型。但是，当前的RLHF方法可能受到两个限制的约束 ...

0 0 0 2025/04/09 arXiv:2504.04950v1 leec

WorldScore: A Unified Evaluation Benchmark for World Generation

我们介绍了世界分类基准，这是世界一代的第一个统一基准。我们将世界一代分解为一系列隔壁的生成任务，具有明确的基于相机轨迹的布局规范，从而可以对从3D和4D场景生成到视频生成模型的各种方法进行统一的评估。 WorldScore的基准分配了一个策划的数据集，其中包含3,000个测试示例，这些数据集涵盖了各种世界：静态和动态，室内和室外，室内和室外，具有现实主义和风格化 ...

0 0 0 2025/04/09 arXiv:2504.00983v1 13031102548

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）