尽管生成的视频的内容通常包括不自然的运动或变形,反向播放和一动不动的场景,但文本到视频扩散模型的显着进度使人可以逼真的世代。最近,一个对齐问题引起了极大的关注,我们根据一定数量的数量来指导扩散模型的输出。由于沿着框架方向有一个很大的改善感知质量的空间,因此我们应该解决我们应该优化的指标以及如何在视频生成中优化它们 ...
0 0 0 2025/02/21 arXiv:2501.19252v1 alex666
大多数最先进的天气和气候建模方法都是基于基于物理的大气数值模型。这些方法旨在对非线性动力学和多个变量之间的复杂相互作用进行建模,这很难进行近似。,这很难进行近似。此外,许多此类数值模型的计算量很大,尤其是在以细粒度的空间和时间分辨率对大气现象进行建模时... ...
0 0 0 2025/02/21 arXiv:2301.10343v5 vchou
一个人如何代表行动?如何描述我们从未见过的动作?此类问题是由零射击学习范式解决的,其中模型仅在一部分课程上训练,并根据其正确对以前从未见过的班级正确分类的示例进行评估。在这项工作中,我们提出了一个基于身体姿势的零射击动作识别网络,并在NTU RGB-D数据集上演示了其性能。我们的模型学会了根据动作表演者的姿势特征以及在看不见的动作类名称的自然语言描述中共同封装视觉相似性 ...
0 0 0 2025/02/20 arXiv:1911.11344v1 Xiaoxia_3
在电子商务快速发展的领域中,搜索重新排行模型的有效性对于提高用户体验和推动转换率至关重要。尽管功能表示和模型体系结构取得了重大进步,但多模式信息的集成仍然没有得到充实的态度。这项研究通过在重新排列的背景下研究文本和视觉信息的计算和融合来解决这一差距 ...
0 0 0 2025/02/20 arXiv:2408.05751v1 Zophe
多模式建议旨在全面地对用户和项目表示形式进行对多媒体内容的参与以进行有效建议。现有的研究表明,建议性能将(用户和项目 - )ID嵌入具有多模式显着特征的嵌入是有益的,表明ID的值。但是,缺乏对文献中特征语义方面的ID嵌入的透彻分析 ...
0 0 0 2025/02/20 arXiv:2311.05956v2 Zophe
虽然大型语言模型(LLM)在各种应用中取得了巨大的成功,但它们经常与幻觉作斗争,特别是在需要深入且负责任的推理的场景中。通过在 LLM 推理中集成外部知识图(KG)可以部分缓解这些问题。然而,它们的结合方法仍然很大程度上未被探索 ...
0 0 0 2025/02/20 arXiv:2405.13873v3 瓶子
后门攻击已被证明是对深度学习系统(例如生物识别验证和自动驾驶)的严重威胁。有效的后门攻击可能会在某些预定义条件下强制执行该模型的行为不佳,即 ...
0 0 0 2025/02/20 arXiv:2111.10991v2 zer
为了减轻大语言模型(LLMS)的幻觉和知识缺乏,知识图(KG)基于检索的增强生成(RAG)通过利用KG作为外部资源来增强LLMS推理,这表明了有希望的潜力。但是,现有的kg-rag方法在灵活性和检索质量之间的权衡方面挣扎。模块化方法通过避免在检索过程中避免使用KG-Fine模型来确定灵活性,从而导致固定的检索策略和次优的检索质量 ...
0 0 0 2025/02/20 arXiv:2501.09957v2 瓶子

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)