开发有效增强学习(RL)管道的主要挑战通常是设计和调整奖励功能。精心设计的塑造奖励会导致学习速度明显更快。但是,天真的表述奖励可能与所需的行为相抵触,如果不正确调整,则会导致过度拟合甚至不稳定的性能 ...
0 0 0 2025/06/18 arXiv:2307.10142v1 hanzhuo
Experts(MOE)模型在计算机视觉和自然语言处理方面的各种任务中获得了最先进的性能,在实现最先进的表现方面已获得了普及。他们有效地扩大了模型能力,同时培训期间计算成本的增加最小。但是,由于其较大的尺寸和复杂的通信模式,将这种模型部署用于推理是困难的 ...
0 0 0 2025/06/18 arXiv:2303.06182v2 aloha
背包问题(KPS)在行业中很常见,但是解决KPS是NP-HARD的,并且仅在相对较小的规模上才能进行处理。本文以略有概括的形式研究了KP,并表明它们可以通过分布式算法在大小上几乎最佳地求解。通过现成的分布式计算框架可以很容易地实现所提出的方法(e ...
0 0 0 2025/06/18 arXiv:2002.00352v1 tufeiyuancaier
大型语言模型(LLMS)表现出在一系列自然语言处理任务中的熟练程度。部署后,LLMS会遇到具有个性化事实知识的用户,并且通过用户与LLMS的互动来反映这种个性化知识。为了增强用户体验,实时模型个性化至关重要,允许LLMS根据人类交互期间的用户反馈来调整用户特定知识 ...
0 0 0 2025/06/18 arXiv:2405.19686v1 sally2016
排名集合是实际推荐系统中的关键组件。当用户访问平台时,系统将准备多个项目列表,每个项目列表通常来自单个行为目标建议模型。作为多种行为意图,e ...
0 0 0 2025/06/18 arXiv:2304.07450v1 hitleo
Openai Whisper是一个在680,000小时的音频训练的良好自动语音识别(ASR)模型的家族。但是,它的编码器架构进行了序列到序列目标训练,因此缺乏对流媒体流的本地支持。在本文中,我们通过采用统一的两通道(U2)结构来微调用于使用WENET工具包流式ASR的耳语 ...
0 0 0 2025/06/18 arXiv:2506.12154v1 fucs
最近,集成视频基础模型和大型语言模型来构建视频理解系统可以克服特定的预定义视力任务的局限性。但是,现有方法要么采用复杂的时空模块,要么严重依赖其他感知模型来提取时间特征以供视频理解,并且它们只能在短视频中表现良好。对于长期视频,与长期时间连接相关的计算复杂性和记忆成本显着增加,从而提出了Atkinson-Shiffrin内存模型的此额外的HTTP URL优势,并且在 Transformer 中使用 ...
0 0 0 2025/06/18 arXiv:2404.17176v1 Leonliu022
在本文中,我们为拓扑空间的水平功能引入了弱版和题词收敛。在拓扑组的特定情况下,我们能够在一组级别函数中定义卷积,并表明任何此类功能都是稳健函数的级别和层次的限制 ...
0 0 0 2025/06/18 arXiv:2002.00408v1 DrowXG

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)