强化学习领域提供了各种概念和方法来解决顺序决策问题。这种品种变得如此之大,以至于为手头任务选择算法可能具有挑战性。在这项工作中,我们简化了选择强化学习算法和行动分配家庭的过程 ...
0 0 0 2025/09/09 arXiv:2407.20917v1 13026155693
了解多模式视频广告对于改善查询AD匹配和相关性排名至关重要,从而增强了广告效率和用户体验。但是,具有高商业价值的多模式信息的有效利用仍然在很大程度上受到依赖高度压缩的视频嵌入 - 长期以来不足的限制。为了解决这个问题,我们提出了summa(总结多模式广告的缩写),这是一个多模式模型,将视频广告自动处理为摘要,突出了最高商业价值的内容,从而提高了其在Douyin Search-Vertvertver ...
0 0 0 2025/09/09 arXiv:2508.20582v1 hokirn
我们发现,在低频区域和高频区域内不一致地收敛的EPE评估指标,在迭代过程中导致高频降解(例如边缘和薄物体) ...
0 0 0 2025/09/09 arXiv:2505.18024v1 KingXHJ
利用大型语言模型 (LLM) 将自然语言问题转换为 SQL 查询(文本到 SQL)是一种有前途但具有挑战性的方法,特别是当应用于具有复杂和广泛模式的现实数据库时。特别是,有效地合并数据目录和数据库值以生成 SQL 仍然是一个障碍,导致解决方案不理想。我们通过提出一个新的管道来解决这个问题,该管道可以有效地检索相关数据和上下文,选择有效的模式,并综合正确且高效的 SQL 查询 ...
0 0 0 2025/09/09 arXiv:2405.16755v3 zkq
现有的2到3D人类姿势估计(HPE)方法通过在举重阶段丰富了诸如时间和视觉提示之类的信息,以困扰遮挡问题。在本文中,我们认为这些方法忽略了稀疏骨架2D输入表示的局限性,该表示从根本上限制了2d-3d的提升,并使闭塞问题恶化。为了解决这些问题,我们提出了一种新型的两阶段生成致密方法,称为层次姿势自回归 Transformer (HIPART),以从原始的稀疏2D姿势中生成分层的2D密集姿势 ...
0 0 0 2025/09/09 arXiv:2503.23331v1 yanyu
我们介绍了Stream3R,这是一种新型3D重建方法,将尖端图预测重新定义为仅解码器的 Transformer 问题。多视图重建的现有最新方法要么取决于昂贵的全局优化,要么依赖于随着序列长度缩小尺度较差的简单记忆机制。相比之下,Stream3R引入了一个流框架,该框架灵感来自现代语言建模的进步,从而有效地使用因果关注来处理图像序列 ...
0 0 0 2025/09/09 arXiv:2508.10893v1 陆三七
深度学习(例如 Transformer)已广泛且成功地应用于多元时间序列预测(MTSF) ...
0 0 0 2025/09/08 arXiv:2403.07300v3 haoyb22
视频生成的最新进展导致视觉质量和时间连贯性的显着改善。为此,已经出现了可控制的视频,可以通过明确定义的空间路径来启用精确的对象运动控制。但是,现有的方法与复杂的对象运动和多对象运动控制障碍,从而导致轨迹依从性不精确,对象一致性差和视觉质量受损 ...
0 1 0 2025/09/08 arXiv:2503.16421v2 yisinoya

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)