一译 —— 文档和论文翻译、对照阅读、讨论和社区

FlexiViT: One Model for All Patch Sizes

视觉 Transformer 通过将图像切成斑块将图像转换为序列。这些补丁的大小控制速度/准确性权衡，较小的贴片会在更高的计算成本下导致更高的精度，但是更改补丁的大小通常需要重新训练模型。在本文中，我们证明，仅在训练时间内随机将贴片大小随机化会导致一组重量，这些权重在各种贴片尺寸上都可以很好地表现，从而使模型在部署时可以定制模型以不同的计算预算 ...

0 0 0 2025/03/10 arXiv:2212.08013v2 shiwei

Earthformer: Exploring Space-Time Transformers for Earth System Forecasting

通常，地球系统（例如天气和气候）的预测依赖于具有复杂物理模型的数值模拟，因此计算既昂贵又对领域专业知识的要求很高 ...

0 0 0 2025/03/10 arXiv:2207.05833v2 maxwill

SVD-LLM: Truncation-aware Singular Value Decomposition for Large Language Model Compression

大型语言模型（llm）的进步因其巨大的规模而受到阻碍，llm压缩方法来进行实际部署。奇异值分解（svd）为llm压缩提供了一种有前景的解决方案。然而，最先进的基于svd llm压缩方法有两个关键限制：截断较小的奇异值可能会导致更高的压缩损失：截断较小的奇异值可能会导致更高的压缩损失，以及svd截断后压缩权重缺乏更新... ...

0 0 0 2025/03/10 arXiv:2403.07378v4 18729395978

DeepPhysiNet: Bridging Deep Learning and Atmospheric Physics for Accurate and Continuous Weather Modeling

准确的天气预报对人类活动至关重要。当前，天气预报有两个范例：数值天气预测（NWP）和基于深度学习的预测（DLP）。 NWP利用大气物理学进行天气建模，但数据利用率不佳和高计算成本，而DLP可以直接从大量数据中学习天气模式，但要努力纳入物理定律 ...

0 0 0 2025/03/10 arXiv:2401.04125v1 maxwill

Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation

无监督的域改编（UDA）旨在利用从标记的源数据集中学到的知识来解决新的未标记域中的类似任务。先前的UDA方法通常需要在学习适应模型时访问源数据，从而使它们具有风险和无效的分散私人数据。这项工作可以解决一个实际的环境，在该设置中，只有一个训练有素的源模型，并研究了我们如何在没有源数据的情况下有效地利用此类模型来解决UDA问题 ...

0 0 0 2025/03/10 arXiv:2002.08546v6 LJH

EAGLE-3: Scaling up Inference Acceleration of Large Language Models via Training-Time Test

现代LLM的顺序性质使它们变得昂贵且缓慢，并且投机性抽样已被证明是解决此问题的有效解决方案。诸如Eagle之类的方法在特征级别执行自动降低，重复使用目标模型的顶层特征，以获得比香草投机采样更好的结果。 LLM社区的增长趋势正在扩大培训数据，以改善模型智能而不增加推理成本 ...

0 0 0 2025/03/10 arXiv:2503.01840v1 wufeifan

NAVCON: A Cognitively Inspired and Linguistically Grounded Corpus for Vision and Language Navigation

我们提出了NAVCON，这是一个大规模注释的视觉导航（VLN）语料库，建立在两个流行数据集（R2R和RXR）之上。本文介绍了四个核心，具有认知动机和语言基础的导航概念和一种算法，用于在导航说明中对这些概念的自然语言实现产生大规模的银注释。我们将带注释的说明与按照这些说明作用的代理商的视频片段相结合 ...

0 0 0 2025/03/10 arXiv:2412.13026v2 小胖猴

L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning

推理语言模型表明，通过“思考更长”来提高测试时间的性能的不可思议的能力，也就是说，通过生成更长的经过思考序列的序列，从而使用更多的计算。但是，他们的经营推理的长度是不可控制的，因此无法分配测试时间计算以达到所需的性能水平。我们介绍了长度受控策略优化（LCPO），这是一种简单的增强学习方法，可优化准确性和遵守用户指定的长度约束 ...

0 0 0 2025/03/10 arXiv:2503.04697v1 liuweitang

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）