在过去的十年中,深度学习技术已经前所未有地发展,并且已成为许多应用领域的主要选择。这一进展主要归因于系统的合作,在该协作中,快速增长的计算资源鼓励先进的算法处理大量数据。但是,以有限的计算能力来处理数据的无限增长逐渐变得具有挑战性 ...
0 0 0 2025/03/21 arXiv:2301.05603v4 zhuyuanxiang
深度学习技术在许多领域都取得了巨大的成功,而深度学习模型的计算变得越来越复杂和昂贵。它严重阻碍了这些模型的广泛应用。为了减轻此问题,模型蒸馏是一种有效的手段,将大型模型压缩到较小模型的情况下而没有明显的准确性下降 ...
0 0 0 2025/03/21 arXiv:2104.08448v1 zhuyuanxiang
许多甲骨文 (OBS) 起源于大约 3000 年前的中国商代,是语言史史上的基石,早于已建立的书写系统。 尽管发现了数千个铭文,但大量 OBS 未破译,给了这种古老的语言蒙上了一层神秘的面纱。现代人工智能技术的出现为OBS解密提供了一个新的前沿,挑战了严重依赖大规模文本语言资料库的传统NLP方法,这是历史语言无法提供的奢侈。  ...
0 0 0 2025/03/21 arXiv:2406.00684v2 bnexx
近年来,已经对推荐系统的模型方法进行了广泛的研究。但是,在具有较大语料库的系统中,学习模型预测所有用户项目偏好的计算成本是巨大的,这使得完整的语料库检索极为困难。为了克服计算障碍,诸如基质分解之类的模型诉诸于内部产品形式(i ...
0 0 0 2025/03/21 arXiv:1801.02294v5 hrunpeng
我们研究了自动回归机器学习任务的数据蒸馏,其中输入和输出具有严格的从左因果结构。更具体地说,我们提出了Farzi,该Farzi将事件序列数据集汇总到少数合成序列(FARZI数据)中,这些序列与完整数据集中的培训相比,已对其进行优化,以维护(如果不改善)模型性能。在引擎盖下,Farzi通过(i)通过利用Hessian-Vector产品来得出ADAM优化器的有效反向模式分化来进行记忆有效的数据蒸馏;  ...
0 0 0 2025/03/21 arXiv:2310.09983v1 zhuyuanxiang
数据集蒸馏旨在通过创建一组与完整数据集相似的概括性能的少量合成图像来最大程度地减少训练大数据集中深网所需的时间和内存。但是,当前的数据集蒸馏技术缺乏,与原始数据的培训相比,表现出显着的性能差距。在这项工作中,我们第一个认为仅使用一个合成子集进行蒸馏不会产生最佳的概括性能 ...
0 0 0 2025/03/21 arXiv:2310.06982v1 zhuyuanxiang
我们介绍了探针修剪(PP),这是一个以批量方式应用的大型语言模型(LLMS)在线,动态,结构化修剪的新型框架。 PP利用了并非所有样本和 Token 都对模型的输出的贡献,并探测每个批次的一小部分有效地识别关键权重,从而为不同的批次定制动态修剪。它包括三个主要阶段:探测,历史知识修剪和完整推断 ...
0 0 0 2025/03/21 arXiv:2502.15618v1 youkbok
自从DeepSeek-R1普及以来,小组相对政策优化(GRPO)已成为推理LLMS培训的核心部分。但是,我们发现一些影响RL稳定性和推理效率的缺陷。因此,我们提出了自适应组策略优化(AGPO),其中包含两个简单但有效的修改:一种修订的优势估计方法,以减轻零变量的情况;基于长度的奖励,激励模型以避免过度思考 ...
0 0 0 2025/03/21 arXiv:2503.15952v1 liuweitang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)