文本排毒是将文本风格从毒性转移到中性的任务。虽然这是在单语设置中产生有希望的结果的方法,例如 ...
生成时间相干的高保真视频是生成建模研究的一个重要里程碑。我们通过提出一种视频生成扩散模型,在这一里程碑方面取得了进展,该模型显示了非常有希望的初步结果。我们的模型是标准图像扩散架构的自然扩展,它能够对图像和视频数据进行联合训练,我们发现这可以减少小批量梯度的方差并加速优化... ...
我们提出了一种新型的神经网络结构,即标准化 Transformer (NGPT),并在超晶体上进行了表示。在NGPT中,所有形成嵌入,MLP,注意矩阵和隐藏状态的向量均为单位规范。 Token 的输入流在超晶表面上行进,每一层都会导致目标输出预测的位移 ...
近年来,大型语言模型(LLMS)在各种任务中都表现出了显着改进,其中之一是长篇文化功能。改善长期绩效的关键在于有效的数据组织和管理策略,这些策略将来自多个领域的数据集成并在培训过程中优化上下文窗口。通过广泛的实验分析,我们确定了设计有效的数据管理策略的三个关键挑战,这些策略使该模型能够实现长篇小说能力,而无需牺牲其他任务的绩效:(1)多个领域的长期文档短缺,(2)有效地构建上下文窗口,以及(3)大 ...
尽管近年来图像文本表示学习变得非常流行,但现有模型倾向于缺乏空间意识,并且在密集理解任务方面的直接适用性有限。因此,仅自我监管的仅图像预处理仍然是许多密集视力应用的首选方法(例如 ...
深度换脸的泛滥对我们的日常生活造成了巨大的潜在负面影响。尽管这些年来深度伪造检测取得了巨大进步,但针对来自未见过的数据集或新兴生成模型创建的伪造的现有方法的通用性仍然受到限制。在本文中,受视觉语言模型(VLM)零样本优势的启发,我们提出了一种新颖的方法,将训练有素的 VLM 重新用于一般的深度伪造检测 ...
人们越来越关注大型语言模型(LLM)与人类价值观的一致性。然而,它们与视觉模块或视觉语言模型 (VLM) 集成的安全问题仍然相对未得到充分研究。在本文中,我们提出了一种针对 VLM 的新型越狱攻击,旨在当用户输入有害指令时绕过其安全屏障 ...
本文介绍了对视觉语言动作(VLA)模型的AI生成的回顾,总结了关键方法,发现和未来的方向。内容是使用大语言模型(LLM)生产的,仅用于演示目的。这项工作并不代表原始研究,而是强调了AI如何帮助自动化文献评论 ...