一译 —— 文档和论文翻译、对照阅读、讨论和社区

CoLA: Collaborative Low-Rank Adaptation

大语言模型（LLMS）的缩放定律揭示了幂律的关系，显示出随着模型量表的增加而表现的减少。虽然从头开始培训LLM是资源密集的，但针对特定任务进行了细微培训的模型已成为一种实用的选择。完整的微调（FFT）实现了强劲的性能；但是，它在计算上昂贵且效率低下 ...

0 0 0 2025/06/09 arXiv:2505.15471v1 ee_zhuy

MemOS: An Operating System for Memory-Augmented Generation (MAG) in Large Language Models

大型语言模型（LLM）已成为追求人工通用智能（AGI）的基础基础设施。尽管在语言感知和产生方面具有显着的能力，但目前的LLM从根本上缺乏处理记忆的统一和结构化的体系结构。它们主要依赖于参数内存（在模型权重编码的知识）和短暂的激活内存（上下文限制的运行时状态） ...

0 0 12 2025/06/09 arXiv:2505.22101v1 15010256463

Why Gradients Rapidly Increase Near the End of Training

在长期大型语言模型（LLM）培训期间，梯度规范在培训结束结束时迅速增加。在此简短说明中，我们表明，这种增加是由于体重衰减，标准化层和学习率计划之间的意外相互作用。我们提出了一种简单的校正，可以解决此行为，同时也导致整个训练中的损失值较低 ...

0 0 0 2025/06/09 arXiv:2506.02285v1 odenkkk

DiffFNO: Diffusion Fourier Neural Operator

我们介绍了Difffno，这是一个新型的扩散框架，用于由加权傅立叶神经操作员（WFNO）加强的任意超级分辨率。 WFNO中的模式重新平衡有效地捕获了关键的频率组件，从而显着改善了高频图像细节的重建，这对于超分辨率任务至关重要。封闭式的融合机制（GFM）可以适应WFNO的光谱特征，并具有基于注意力的神经操作员（ATTNNO）的空间特征 ...

0 0 0 2025/06/09 arXiv:2411.09911v2 duvkzzh.us

ServeGen: Workload Characterization and Generation of Large Language Model Serving in Production

随着大型语言模型（LLM）的广泛采用，服务LLM推理请求已成为越来越重要的任务，吸引了积极的研究进步。实际工作量在此过程中起着至关重要的作用：它们对于激励和基准测试服务技术和系统至关重要。但是，由于缺乏全面的工作负载表征，现有对现实世界中LLM服务工作量的理解受到限制 ...

0 0 0 2025/06/09 arXiv:2505.09999v2 Atlas2001

LLM-hRIC: LLM-empowered Hierarchical RAN Intelligent Control for O-RAN

尽管在应用大型语言模型（LLM）和机器学习（ML）技术方面取得了进步，但仍然存在关键挑战，例如无线电访问网络（RAN）智能控制器（RICS）之间的合作不足，高度计算需求，阻碍实时决策以及缺乏域特异性命名。因此，本文介绍了LLM授权的分层RIC（LLM-HIR）框架，以改善O-Ran RIC之间的协作。 LLM授权的非实时RIC（非RT RIC）充当指导，使用全球网络信息为近实时的RIC（近RT R ...

0 0 0 2025/06/09 arXiv:2504.18062v2 little_mac

Large Language Models as Annotators: Enhancing Generalization of NLP Models at Minimal Cost

最先进的监督NLP模型具有很高的精度，但也容易遭受低数据制度的投入的失败，例如培训数据中未表示的域。作为为特定领域收集地面真实标签的近似值，我们研究了大语模型（LLM）的使用来注释输入并改善NLP模型的概括。具体而言，鉴于LLM注释的预算，我们提出了一种算法，用于对注释和重新训练NLP模型进行最有用的输入 ...

0 0 0 2025/06/08 arXiv:2306.15766v1 jecc

Bilinear CNNs for Fine-grained Visual Recognition

我们提出了一种简单有效的架构，用于细粒的视觉识别，称为双线性卷积神经网络（B-CNN）。这些网络将图像表示为从两个CNN衍生的特征的汇总外部产品，并以翻译不变的方式捕获局部特征交互。 B-CNN属于无订单纹理表示的类别，但与先前的工作不同，它们可以以端到端的方式进行培训 ...

0 0 0 2025/06/08 arXiv:1504.07889v6 SGN001

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）