基于模型的增强学习(RL)被认为是一种有前途的方法,可以减少阻碍无模型RL的样本复杂性。但是,对这种方法的理论理解是相当有限的。本文介绍了一种新颖的算法框架,用于设计和分析具有理论保证的基于模型的RL算法 ...
0 0 0 2025/05/10 arXiv:1807.03858v5 打笨蛋
时间序列建模面临着历史序列和标签序列中自相关的独特挑战。当前的研究主要集中于处理历史序列中的自相关,但通常忽略它在标签序列中的。具体来说,新兴的存在预测主要模型符合直接预测(DF)范式,在标签序列内条件独立的假设下生成多步预测 ... ...
0 0 0 2025/05/10 arXiv:2402.02399v2 迟楷元
在本文中,我们提出了一种新型的神经网络结构,即\ emph {feedforward顺序存储网络(FSMN)},以在不使用复发反馈的情况下对时间序列的长期依赖性进行建模。拟议的FSMN是标准完全连接的馈电神经网络,配备了其隐藏层中一些可学习的内存块。存储器块使用窃听的延迟线结构将长上下文信息编码为固定尺寸表示形式,作为短期内存机制 ...
0 0 0 2025/05/10 arXiv:1512.08301v2 Harry3790
我们提出了Flow-GRPO,这是将在线增强学习(RL)集成到流匹配模型中的第一种方法。我们的方法采用了两种关键策略:(1)将确定性的普通微分方程(ODE)转换为等效的随机微分方程(SDE)的ode到SDE转换,该方程(SDE)与所有时间段的原始模型的边际分布相匹配,从而实现RL探索的统计抽样; (2)一种降低策略,可在保留原始推理时间段数量的同时减少培训deno的步骤,从而显着提高采样效率而不会 ...
0 0 0 2025/05/10 arXiv:2505.05470v1 wenzhanwujian
生成式人工智能的最新进展使得大型语言模型 (LLM) 的访问变得无处不在。凭借其理解和生成类人文本的卓越能力,这些模型正日益融入我们的社会。与此同时,人们还担心这种强大技术可能被滥用,促使服务提供商采取防御措施 ...
0 0 0 2025/05/10 arXiv:2403.17336v2 0x211
言语增强已从深度学习的成功中受益,从可理解性和感知质量方面受益。常规的时频(TF)域方法着重于通过天真的卷积神经网络(CNN)或经常性神经网络(RNN)预测TF面罩或语音频谱。一些最近的研究使用复杂值谱图作为训练目标,但在实现的网络中进行训练,分别预测了相位成分或实际和虚构部分 ...
0 0 0 2025/05/10 arXiv:2008.00264v4 Harry3790
在这项研究中,我们揭示了雾化降解与JPEG压缩之间的相互作用引入了复杂的关节损失效应,这显着使图像恢复复杂化。现有的飞行模型通常会忽略压缩效应,从而限制了它们在实际应用中的有效性。为了应对这些挑战,我们介绍了三个关键贡献 ...
0 0 0 2025/05/10 arXiv:2501.12832v1 ZeHeru
从广告网络的角度来看,用户的活动是由事件类型和时间间隔组成的时间事件的多类序列。了解广告网络中的用户模式已受到机器学习社区的越来越多的关注。特别是,欺诈检测,转换率(CVR)和点击率(CTR)预测的问题引起了人们的关注 ...
0 0 0 2025/05/10 arXiv:2104.03428v2 fc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)