文本引导的生成扩散模型解锁强大的图像创建和编辑工具。虽然这些已扩展到视频生成,但是当前的方法编辑了现有素材的内容,而保留结构需要为每个输入进行昂贵的重新训练或依赖于跨帧的图像编辑的易行传播。在这项工作中,我们提出了一个结构和内容引导的视频扩散模型,该模型根据所需输出的视觉或文本描述编辑视频 ...
本文以单个艺术目标为重点介绍面部风格化。这项任务的现有作品通常无法在实现几何变化的同时保留源内容。在这里,我们提出了一种新颖的Styo模型,即 ...
脑电图(EEG)表示学习的自我监督方法面临脑电图固有的三个特定挑战:(1)低信噪比的比例低,挑战了所学的代表质量的挑战,(2)(2)幅度从非常小的幅度到相对较大的因素,例如,较大的因素,例如,较高的差异,较高的模型,较高的模型,即构成较高的模型,构成距离,并构成了较高的态度,并且是在较高的范围内,构成了距离,并且是在较高的范围内,构成了势力,并且是在较大的范围连续值序列中的分割,这可能导致信息不足 ...
本文为区域风格转移领域做出了新的贡献。现有的方法通常会遭受整个图像均匀应用样式的缺点,从而导致风格上的不一致或前景对象扭曲了与前景元素(例如人物)的图像。为了解决这一限制,我们提出了一种新方法,该方法利用分割网络来精确隔离输入图像中的前景对象 ...
在实际识别/分类任务(受各种客观因素的限制)中,通常很难收集培训样本来填补识别器或分类器时的所有课程。一个更现实的场景是开放式识别(OSR),在训练时间内存在不完整的世界知识,并且可以在测试过程中将未知类别提交给算法,要求分类器不仅可以准确地分类所见类,而且还可以有效地与未见的类分类。本文对现有的开放式识别技术进行了全面的调查,涵盖了相关定义,模型,数据集,评估标准和算法比较的各个方面 ...
Gatys的开创性工作等人展示了卷积神经网络(CNN)在通过分离和重组图像内容和样式来创建艺术意象方面的力量。使用CNN渲染不同样式的内容图像的过程称为神经样式转移(NST) ...
深度卷积网络在静止图像中的视觉识别取得了巨大的成功。但是,对于视频中的行动识别,比传统方法的优势并不是那么明显。本文旨在发现在视频中设计有效的Convnet体系结构的原理,并在培训样本有限的情况下学习这些模型 ...
尽管当今的视频识别系统可以准确地解析快照或短剪辑,但它们无法在更长的时间内连接点和理由。大多数现有的视频体系结构只能处理视频的5秒,而不会击中计算或内存瓶颈。在本文中,我们提出了一种克服这一挑战的新策略 ...