在2023年,我们使用GPT-4的最新型号来推进程序合成。为此,大型语言模型已大大改善了最新的模型。为了使这些进步更容易访问,我们创建了一个将这些模型与Huamn评估联系起来的存储库 ...
0 0 0 2025/03/04 arXiv:2402.14852v1 15966829631
传统的推荐系统通常采用用户平台范式,在该范围内,用户直接在平台推荐算法的控制下暴露。但是,建议算法的缺陷可能使用户在此范式下处于非常脆弱的位置。首先,许多复杂的模型通常都考虑到商业目标,重点关注平台的好处,这可能会阻碍他们保护和捕捉用户真正兴趣的能力 ...
0 0 0 2025/03/04 arXiv:2502.14662v1 小砾往前冲
大型语言模型(LLM)的进步现在允许用户与对话推荐系统(CRS)积极互动,并为其独特的需求和目标量身定制自己的个性化推荐服务。与传统RS相比,这种体验为用户提供了更高的可控性水平,从而使建议体验的全新维度。在这种情况下,本研究探讨了LLM驱动的CRS与传统RS相比提供的独特体验 ...
0 0 0 2025/03/04 arXiv:2502.15229v2 小砾往前冲
我们总结了使用巨大的自动语音识别(ASR)模型的大量努力的结果,该模型使用包含大约一百万小时音频的大型,多样的未标记数据集进行了预训练。我们发现,即使对于具有数万个小时的标记数据的非常大的任务,预训练,自我培训和扩大模型大小的组合也大大提高了数据效率。特别是,在具有34K小时标记数据的ASR任务上,通过微调80亿个参数预训练的构象异构体模型,我们可以匹配最先进的(SOTA)性能(SOTA)的性能, ...
0 0 0 2025/03/04 arXiv:2109.13226v3 simple_666
时间序列预测总是面临概念漂移的挑战,在这种挑战中,数据分布会随着时间的流逝而发展,从而导致预测模型性能下降。现有的解决方案基于在线学习,该解决方案不断组织最新的时间序列观察作为新的培训样本,并根据对最新数据的预测反馈更新模型参数。但是,他们忽略了一个关键问题:获得每个样本的地面真相的未来值,应延迟到预测范围之后 ...
0 0 0 2025/03/04 arXiv:2412.08435v3 kkkkk
我们研究了直觉物理学理解的出现,以通用的深度神经网络模型,该模型训练有素,可以预测自然视频中的掩盖区域。利用违反预测框架,我们发现经过训练的视频预测模型,可以预测在学会的表示空间中的结果,这表明了对各种直观物理属性的理解,例如对象的永久性和形状一致性。相比之下,像素空间和多模式大语言模型中的视频预测,这些模型通过文本进行推理,可以实现更接近机会的性能 ...
0 0 0 2025/03/04 arXiv:2502.11831v1 lcs
多模式大语言模型(MLLM)的最新进展已在各种多模式上下文中表现出显着的功能。但是,它们在机器人场景中的应用,特别是在长跑操纵任务中,揭示了重大局限性。这些局限性是由于当前缺乏三个必需机器人脑功能的MLLM出现的:计划能力,涉及将复杂的操作指令分解为可管理的子任务;负担能力,识别和解释交互对象的负担能力的能力;和轨迹预测,预见成功执行所需的完整操纵轨迹的远见 ...
0 0 0 2025/03/04 arXiv:2502.21257v1 jane88
扩散 Transformer 在图像和视频合成方面显示出显着的有效性,但代价是巨大的计算成本。为了解决这个问题,引入了特征缓存方法,通过缓存先前时间步中的特征并在接下来的时间步中重用它们来加速扩散变换器。然而,以前的缓存方法忽略了不同的 Token 对特征缓存表现出不同的敏感性,并且与其他 Token 相比,某些 Token 上的特征缓存可能会对整体生成质量造成 10$\times$ 的破坏 .. ...
0 0 0 2025/03/04 arXiv:2410.05317v4 Daenerays

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)