顺序建议旨在预测用户在大规模推荐系统中的下一个操作。尽管传统方法通常遭受信息交互的不足,但最近的生成建议模型通过直接生成项目预测来部分解决此问题。为了更好地捕获用户意图,最近的研究将推理过程引入了生成建议中,从而大大提高了建议性能 ...
0 0 0 2025/09/22 arXiv:2508.15308v2 dogtai
神经音频编解码器是现代生成音频管道的基本组成部分。尽管最近的编解码器实现了强大的低焦酸重建并为下游任务提供强大的表示,但大多数是不可流的,从而限制了它们在实时应用中的使用。我们介绍了基于焦点调制的混合编解码器焦距 - 二元组,该焦点调制将语音压缩到0的单个二进制代码书中 ...
0 0 0 2025/09/22 arXiv:2509.16195v1 13724122396
大型语言模型(LLM)在开放式对话中取得了重大进展,但是他们无法从长期互动中保留和检索相关信息限制了它们在需要持续个性化的应用中的有效性。已经提出了外部记忆机制来解决此限制,从而使LLMS能够保持对话连续性。但是,现有的方法面临两个主要挑战 ...
0 0 0 2025/09/22 arXiv:2503.08026v2 elonmusk
在学习的视频压缩(LVC)中,改善相互预测,例如增强时间上下文挖掘和缓解累积错误,对于提高利率延伸性能至关重要。现有的LVC主要集中于挖掘时间运动,同时忽略了框架之间的非本地相关性。此外,当前的上下文视频压缩模型使用单个参考框架,这不足以处理复杂的运动 ...
0 0 0 2025/09/22 arXiv:2410.09706v4 1150501302
我们提出了Voxtream,这是一种完全自动回归的,零击的流媒体传输语音(TTS)系统,用于实时使用,从一个单词开始讲话。 Voxtream使用单调比对方案和动态的外观直接将传入的音素映射到音频 Token ,并不会延迟开始。据我们所知,围绕增量音素 Transformer ,一种预测语义和持续时间 Token 的颞 Transformer ,可预测语义和持续时间 Token ,并产生声音 Tok ...
0 0 0 2025/09/22 arXiv:2509.15969v1 13724122396
遥感变更检测的目的是在不同时间捕获的同一位置的图像之间定位语义变化。在过去的几年中,较新的方法将增强的性能归因于现有建筑的新成分。大多数人无法衡量基本设计选择的性能贡献,例如骨干选择,训练前策略和培训配置 ...
0 0 0 2025/09/22 arXiv:2507.03367v1 ppbc
3D高斯脱衣舞达到了高保真的小说视图综合,但其在线长期情景中的应用仍然有限。现有方法要么依赖于每场局部优化缓慢,要么无法提供有效的增量更新,从而阻碍了连续的性能。在本文中,我们提出了longsplat,这是一个在线实时3D高斯重建框架,旨在长期图像输入 ...
0 0 0 2025/09/22 arXiv:2507.16144v1 xubiao
在许多应用程序中,检测两个图像之间的对象级变化是涉及视觉检查或相机监视的许多应用程序的核心任务。现有的变更检测方法遭受了三个主要局限性:(1)图像对缺乏评估,没有变化,导致未报告的假阳性率; (2)缺乏对应关系(即 ...
0 0 0 2025/09/22 arXiv:2501.05555v2 ppbc

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)