在线内容的指数增长对工业推荐系统中的基于ID的模型提出了重大挑战,范围从极高的基数和动态增长的ID空间到高度偏斜的参与分布,再到自然ID寿命周期的预测不稳定(例如,由于新ID和旧ID的诞生和旧IDS的诞生)。为了解决这些问题,许多系统依靠随机哈希来处理ID空间并控制相应的模型参数(i ...
0 1 0 2025/04/05 arXiv:2504.02137v1 macianzhi
基于 Transformer 的架构彻底改变了深度学习的景观。在计算机视觉域中,视觉 Transformer 在与卷积神经网络相当甚至超过卷积神经网络方面表现出色。但是,其自我发项机制的二次计算复杂性对经典计算构成了挑战,从而使模型训练具有高维输入数据,e ...
0 0 0 2025/04/05 arXiv:2504.02730v1 oracle
扩散模型已成为流行的文本到图像生成模型,可以产生以文本提示为指导的高质量和内容丰富的图像。但是,当输入提示是简洁的叙述时,在现有模型中的语义理解和常识性推理存在局限性,从而导致图像生成低。为了提高叙事提示的能力,我们提出了一种简单有效的参数有效的微调方法,称为语义理解和推理适配器(Sur-Adapapter),用于预训练的扩散模型 ...
0 0 0 2025/04/05 arXiv:2305.05189v4 xuan
知识蒸馏涉及使用基于温度的共享softmax函数将软标签从教师转移到学生。然而,教师和学生之间共享温度的假设意味着他们的逻辑在逻辑范围和方差方面必须完全匹配。考虑到学生之间的能力差异以及教师固有的逻辑关系足以让学生学习,这种副作用限制了学生的表现... ...
0 0 0 2025/04/05 arXiv:2403.01427v1 pyl67
最先进的蒸馏方法主要基于中间层的深层特征,而logit蒸馏的重要性被极大地忽略了。为了提供研究逻辑蒸馏的新观点,我们将经典的KD损失重新分为两个部分,即 ...
0 0 0 2025/04/05 arXiv:2203.08679v2 smallz
Experts(MOE)的混合物展示了具有增强性能和降低计算复杂性的大型语言模型(LLM)的巨大潜力。但是,其稀疏激活的体系结构将进料前向网络(FFN)转移到推理期间的计算密集型到内存密集型,从而导致GPU利用率降低并增加了运营成本。我们提出了Megascale-Infer,这是一种用于提供大规模MOE型号的高效且具有成本效益的系统 ...
0 0 0 2025/04/05 arXiv:2504.02263v1 anhao
图像和视频综合方面的最新进展为生成游戏开辟了新的希望。一个特别有趣的应用程序是将角色从动漫电影转变为互动,可玩的实体。这使玩家可以通过语言说明将自己沉浸在动态动漫世界中,作为他们最喜欢的生活模拟角色 ...
0 0 0 2025/04/05 arXiv:2504.01014v1 王德发
视觉模型(VLM)的零拍功能已被广泛利用以提高预测性能。但是,先前关于跨传输或测试时间适应(TTA)的工作通常对数据分布(例如所有类别的存在)做出了强烈的假设。我们的工作对这些有利的部署方案提出了挑战,并引入了更现实的评估框架,包括:(i)单个批次内适应的有效类数量可变,以及(ii)non-i ...
0 0 0 2025/04/05 arXiv:2501.03729v1 likelc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)