Talking Head Synthesis是一种从特定内容驱动的静止图像中生成肖像视频的高级方法,它在虚拟现实,增强现实和游戏制作中引起了广泛关注。最近,通过引入新型模型(例如 Transformer 和扩散模型)取得了重大突破。当前方法不仅可以生成新内容,还可以编辑生成的材料 ...
多媒体应用通常与跨域知识转移相关,其中无监督的域适应性(UDA)可用于减少域的偏移。在目标域包含未知类别的假设下,开放式设置域适应(OSDA)旨在将知识从标记的源域转移到未标记的目标域。现有的OSDA方法始终对协变量移动施加压力,而忽略了潜在的标签转移问题 ...
开放的复合域适应(OCDA)旨在将知识从标记的源域转移到未标记的均匀化合物目标域的混合物,同时概括为打开看不见的域。现有的OCDA方法通过划分和纠纷策略解决了内域差距,该策略将问题分为几个单独的和平行的域适应(DA)任务。这种方法通常包含多个子网络或阶段,这可能会限制模型的性能 ...
检索增强的生成(RAG)通过从知识数据库中动态检索相关信息来补充LLMS的输入来解决幻觉和实时约束。当提出查询时,RAG从其知识库中选择最相似的文本,并将其用作LLMS的背景,以生成更准确的响应。 RAG还创建了一个新的攻击表面,尤其是因为破布数据库经常来自公共领域 ...
变形金刚在序列建模任务中的显着成功,涵盖自然语言处理和计算机视觉中的各种应用,归因于自我注意的关键作用。与大多数深度学习模型的发展相似,这些注意力机制的构建依赖于启发式和经验。在我们的工作中,我们从内核主成分分析(内核PCA)中得出自我注意力,并表明自我发作的查询向量将其查询向量投射到特征空间中其密钥矩阵的主要成分轴上 ...
我们提出了uad,一种基于视觉的端到端自动驾驶( e2ead)方法,nuscenes中实现了最佳的开环评估性能,同时在carla中表现出了强大的闭环驾驶质量。我们的动机源于观察到当前的e2ead模型仍然模仿典型驾驶堆栈中的模块化架构,并通过精心设计的监督感知和预测子任务来为定向规划提供环境信息。虽然取得了突破性的进展,但这种设计也存在一定的缺点:1)前面的子任务需要大量高质量的3d注释作为监督,这 ...
车道拓扑提取涉及检测车道和交通元素并确定其关系,这是无映射自动驾驶的关键感知任务。此任务需要复杂的推理,例如确定是否可以将左转变成特定的车道。为了应对这一挑战,我们引入了由视觉基础模型(VLM)提供动力的神经符号方法 ...
在自动驾驶中,端到端计划者直接利用原始传感器数据,使他们能够提取更丰富的场景功能并减少与传统计划者相比的信息丢失。这提出了一个至关重要的研究问题:我们如何开发更好的场景特征表示以充分利用端到端驾驶中的传感器数据?自我监督的学习方法在学习NLP和计算机视觉中学习丰富的功能表示方面取得了巨大的成功。受到这一点的启发,我们建议使用潜在世界模型(Law)进行端到端驾驶的新型自我监督学习方法 ...