预训练的语言模型越来越重要的组成部分(IR)范式中的组成部分。与Colbert Model一起引入并最近在ColbertV2中提出的后期互动是一种流行的范式,在许多基准测试中都具有最先进的地位。为了极大地加快晚期互动的搜索延迟,我们介绍了性能优化的后期互动驱动器(格子) ...
0 0 0 2025/05/27 arXiv:2205.09707v1 leec
朦胧的夜间场景中的可见性经常被多种因素降低,包括低光,强烈的光芒,光散射以及五彩光源的存在。现有的夜间飞行方法通常在处理光芒或弱光条件方面遇到困难,导致过度黑暗的视觉效果或未抑制的发光输出。在本文中,我们通过抑制光芒并增强弱光区域来增强单个夜间雾霾图像的可见性 ...
0 0 0 2025/05/27 arXiv:2308.01738v4 jiajia233
本文介绍了Thanos,Thanos是一种新型的宽松算法,旨在减少记忆足迹,并通过删除冗余权重的同时保持准确性,从而提高大语模型(LLMS)的计算效率。 Thanos引入了一种宽松的修剪策略,并具有自适应面罩,该掩模会动态调整重量的重要性,从而实现灵活的稀疏模式和结构化格式,例如$ n:m $ sparsity,用于硬件加速。实验评估表明,Thanos在结构化修剪方面实现了最新的性能,并且在非结构 ...
0 0 0 2025/05/27 arXiv:2504.05346v1 garming
Alpha是股票市场中捕获交易信号的股票预测模型。一组有效的alpha可以产生微弱相关的高回报,以使风险多样化。现有的alpha可以分为两个类:公式化的alpha是标量特征的简单代数表达式,因此可以很好地推广并被挖掘为弱相关的集合 ...
0 0 0 2025/05/27 arXiv:2103.16196v2 leec
长期以来,扩大高质量的轨迹数据一直是开发类似人类的计算机使用剂的关键瓶颈。我们介绍了PC Agent-E,这是一个有效的代理训练框架,可显着降低对大型人类示范的依赖。从仅312个人类注销的计算机使用轨迹开始,我们通过用Claude 3合成各种动作决策进一步提高了数据质量 ...
0 0 0 2025/05/27 arXiv:2505.13909v1 leec
大型语言模型(LLMS)在许多任务中提供了最先进的功能,但是它们的巨大规模和推理成本对实际部署构成了重大的计算挑战。尽管结构化的修剪为模型压缩提供了有希望的途径,但现有方法通常会在侵略性,同时宽度和深度降低的有害影响方面遇到困难,从而导致大量的性能退化。本文认为,使这种积极的联合修剪可行的关键,经常被忽视的方面是战略性的重新定位和剩余权重调整以改善模型后的固定后培训精确度 ...
0 0 0 2025/05/27 arXiv:2505.20155v1 garming
在信息过载的时代,推荐系统在过滤数据和提供个性化内容方面起着关键作用。功能交互和用户行为建模方面的最新进展显着增强了这些系统的回忆和排名过程。随着大语言模型(LLM)的兴起,已经出现了新的机会,以进一步改善推荐系统 ...
0 0 0 2025/05/27 arXiv:2502.13783v1 sadbb
专家(MOE)模型的稀疏激活混合物为传统密集激活(致密)模型提供了有希望的替代品,从而提高了质量和计算效率。但是,从头开始培训MOE模型需要大量的数据和计算资源。此外,像蒂姆(Timm)这样的公共存储库主要提供预先训练的密集检查站,缺乏类似的MOE模型资源,从而阻碍了其采用 ...
0 0 0 2025/05/27 arXiv:2406.04801v1 jingxi

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)