交互式视频一代的最新进展通过捕获复杂的物理动力和交互式行为来证明扩散模型作为世界模型的潜力。但是,现有的交互式世界模型取决于双向关注和冗长的推理步骤,从而严重限制了实时性能。因此,它们很难模拟现实世界动态,在这些动态中,结果必须基于历史上下文和当前动作即时更新 ...
0 0 0 2025/08/25 arXiv:2508.13009v1 liuyibo
交通信号灯之间的配合使车辆能够更快地通过路口。传统的交通方式通过预先计算两个交叉口之间的偏移量来实现合作。这种预先计算的偏移量不适合动态交通环境... ...
0 0 0 2025/08/25 arXiv:1905.05717v2 yeekay
可控的人力语音产生,特别是对于诸如唱歌之类的富有表现力领域,仍然是一个重大挑战。本文介绍了VEVO2,这是一个统一的框架,用于可控语音和唱歌语音生成。为了解决诸如带注释的唱歌数据稀缺的问题并启用灵活的可控性,VEVO2引入了两个音频引物:(1)一种无音乐通用的韵律引物,从而捕获了韵律和旋律,从语音,唱歌,唱歌,甚至器乐的声音以及(2)(2)速率(2)速率(12) ...
0 0 0 2025/08/25 arXiv:2508.16332v1 zhangqi33
在表格数据范围内进行监督学习的深度学习体系结构,从简单的多层感知器(MLP)到复杂的 Transformer 和检索效果。这项研究突出了一个主要但忽视的机会,可以设计出基于MLP的基于MLP的基于更好的表格体系结构。也就是说,我们的新模型TABM依赖于有效的结合,其中一个TABM有效地模仿了MLP的集合并产生每个对象的多个预测 ...
0 0 0 2025/08/25 arXiv:2410.24210v3 alex666

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)