现实世界的视频包括事件序列。具有精确时间控制的这种序列与依赖单个文本段落作为输入的现有视频生成器是不可行的。当任务使用单个提示所描述的多个事件时,此类方法通常会忽略某些事件或无法按正确的顺序排列它们 ...
0 0 0 2025/08/29 arXiv:2412.05263v2 smallz
大型语言模型(LLMS)通过增强内容的产生和决策过程来改变各个部门,包括教育,金融和医学。但是,由于幻觉,它们融入医学领域的整合是谨慎的,即产生内容偏离事实准确性的实例,可能导致不良结果。为了解决这个问题,我们引入了Hyper-Rag,这是一种由超图驱动的检索增强生成方法,可以全面捕获特定于域特异性知识中的成对和二线相关性,从而减轻幻觉 ...
0 0 0 2025/08/29 arXiv:2504.08758v1 lpfgss
最近的视频扩散模型已经证明了它们在产生视觉上令人愉悦的结果方面的极大能力,同时综合生成的视频中正确的物理效果仍然具有挑战性。从数据学习物理学时,现实世界动作,互动和动态的复杂性引起了巨大的困难。在这项工作中,我们提出了Diffphy,这是一个通用框架,可以通过微调预训练的视频扩散模型来实现物理校正和照片现实的视频生成 ...
0 0 0 2025/08/29 arXiv:2505.21653v1 陆三七
随着NLP和图像语言任务的最新培训技术的最新成功,一些视频语言前训练作品逐渐开发出来,以改善与视频文本相关的下游任务。但是,大多数现有的多模式模型都是为了理解任务的预训练,从而导致对生成任务的预处理差异。本文提出了Univl:一种统一的视频和语言预训练模型,用于多模式理解和产生 ...
0 0 0 2025/08/28 arXiv:2002.06353v3 陆三七
统一的理解和生成建模方面的显着突破导致了图像理解,推理,生产和编辑的显着进步,但目前的基础模型主要集中在处理图像上,从而在开发统一模型的视频理解和生成方面造成了差距。该报告介绍了Omni-Video,这是一个有效有效的统一框架,用于视频理解,生成以及基于教学的编辑。我们的主要见解是教授现有的多模式大语模型(MLLM),以产生连续的视觉线索,这些线索用作扩散解码器的输入,这些线索会产生以这些视觉线索 ...
0 0 0 2025/08/28 arXiv:2507.06119v3 陆三七
社交媒体中对进攻内容的广泛使用导致在检测诸如仇恨言论,网络欺凌和网络攻击之类的语言方面进行了丰富的研究。最近的工作介绍了OLID数据集,该数据集遵循了进攻性语言标识的分类法,该分类学提供了有意义的信息,以了解进攻性信息的类型和目标。但是,它的大小有限,并且由于使用关键字收集,它可能会偏向进攻性语言 ...
0 0 0 2025/08/28 arXiv:2004.14454v2 abala
现代应用商店推荐系统与多类应用程序斗争,因为传统分类法无法捕获重叠的语义,从而导致了次优的个性化。我们提出了PCR-CA(对比度对齐的并行代码书表示),这是一个改进CTR预测的端到端框架。 PCR-CA首先从App Text提取紧凑的多模式嵌入,然后引入并行代码Book Book Book Book Book Book Book Book Book Book Booke Booke Book Bo ...
0 0 0 2025/08/28 arXiv:2508.18166v3 missbear
基于ID的嵌入被广泛用于网络尺度在线推荐系统中。但是,它们对过度拟合的敏感性,尤其是由于数据分布的长尾性质,通常将训练限制为一个时代,这种现象称为“单位问题”。这项挑战促使研究工作促进了通过提高收敛速度或特征稀疏性来优化第一个时代的性能的工作 ...
0 0 0 2025/08/28 arXiv:2508.18700v1 Leeyhom

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)