最近,许多作品将3D摄像机控制装置集成到基础文本到视频模型中,但是所得的摄像机控制通常不精确,视频生成质量受到了损失。在这项工作中,我们从第一原理的角度分析了相机运动,发现了可以在不损害合成质量的情况下进行精确的3D摄像头操作的见解。首先,我们确定视频中相机运动引起的运动是自然界的低频 ...
在本文中,我们提出了一个新颖的视觉参考提示(VRP)编码器,该编码器授权该段的任何模型(SAM)利用带注释的参考图像作为分割的提示,创建VRP-SAM模型。本质上,VRP-SAM可以利用带注释的参考图像来理解特定对象并在目标图像中对特定对象进行分割。请注意,VRP编码器可以为参考图像提供多种注释格式,包括\ textbf {point},\ textbf {box},\ textbf {scrib ...
对比语言图像预训练 (CLIP) 是一种在计算机视觉领域拥有先进研究和应用的方法,为现代识别系统和生成模型提供了动力。我们相信 CLIP 成功的主要因素是它的数据,而不是模型架构或预训练目标。然而,CLIP 仅提供有关其数据及其收集方式的非常有限的信息,从而导致了旨在通过使用其模型参数进行过滤来重现 CLIP 数据的工作 ...
数据驱动的深度学习建模框架最近已开发用于预测时间序列数据。这种机器学习模型可能在包括大气和海洋的多个领域以及较大的流体社区中有用。本工作调查了这种深神经操作员模型在重现和预测经典流体流以及对逼真的海洋动力学的模拟的可能有效性 ...
本文展示了如何在没有人类监督的情况下从预训练的语言模型(例如Bert,GPT-2/3)中构造知识图(KGS) ...
韩国大语模型(LLM)的最新进展刺激了许多基准和评估方法,但是缺乏标准化的评估框架导致结果不一致和可比性有限。为了解决这个问题,我们介绍了Hret Haerae评估工具包,这是一个专门针对韩国LLM量身定制的开源,自我发展的评估框架。 HRET统一了各种评估方法,包括基于logit的评分,精确匹配,语言侵犯性惩罚和LLM-AS-A-A-Gudge评估 ...
有效地对视频中的动态运动信息进行建模对于动作识别任务至关重要。大多数最先进的方法都在很大程度上依赖于致密的光流作为运动表示。尽管将光流与RGB框架作为输入相结合可以实现出色的识别性能,但光流提取非常耗时 ...
知识蒸馏是将知识从强大的教师转移到有效的学生模型的有效方法。理想情况下,我们希望老师越好,学生越好。但是,这种期望并不总是成真 ...