视频大语言模型的最新进展展示了理解短片的强大能力。然而,由于上下文容量有限以及抽象过程中关键视觉细节的丢失,将它们扩展到数小时或数天的视频仍然非常具有挑战性。现有的记忆增强方法通过利用视频片段的文本摘要来缓解这一问题,但它们严重依赖文本,并且在对复杂场景进行推理时无法利用视觉证据。此外,从固定时间尺度进行检索进一步限制了它们捕获跨可变持续时间的事件的灵活性。为了解决这个问题,我们引入了 WorldMM,这是一种新型的多模式记忆代理,它可以构建和检索多个互补记忆,包括文本和视觉表示。 WorldMM 包含三种类型的记忆:情景记忆跨多个时间尺度索引事实事件,语义记忆不断更新高级概念知识,视觉记忆保留有关场景的详细信息。在推理过程中,自适应检索代理迭代地选择最相关的内存源,并根据查询利用多个时间粒度,一直持续到确定已收集到足够的信息为止。 WorldMM 在五个长视频问答基准测试中显着优于现有基线,比之前最先进的方法平均获得 8.4% 的性能提升,显示了其在长视频推理方面的有效性 ...
尽管语音转换(VC)系统已经表现出卓越的语音风格转换能力,但现有方法仍然存在音调不准确和说话人适应质量低的问题。为了应对这些挑战,我们引入了 Diff-HierVC,这是一种基于两个扩散模型的分层 VC 系统。我们首先介绍DiffPitch,它可以有效地生成具有目标语音风格的F0。随后,生成的 F0 被馈送到 DiffVoice 以将语音转换为目标语音风格。此外,使用源滤波器编码器,我们解开语音,并使用转换后的梅尔频谱图作为 DiffVoice 中的数据驱动先验,以提高语音风格传输能力。最后,通过在扩散模型中使用屏蔽先验,我们的模型可以提高说话人适应质量。实验结果验证了我们的模型在音调生成和语音风格迁移性能方面的优越性,并且我们的模型在零样本 VC 场景中还实现了 0.83% 的 CER 和 3.29% 的 EER ...
Deepfake 检测通过分析被篡改的视频和未篡改的视频之间的差异,自动识别被篡改的媒体。人们很自然地会问,现有的深度伪造检测方法中哪些表现最好,可以确定有前景的研究方向并提供实用指导。不幸的是,很难使用文献中的结果对现有检测方法进行良好的基准比较,因为各个研究的评估条件不一致。我们的目标是建立一个全面且一致的基准,开发可重复的评估程序,并测量一系列检测方法的性能,以便可以对结果进行合理的比较。收集了一个具有挑战性的数据集,其中包含由超过 13 种不同方法生成的操纵样本,并且已经实现了现有文献中的 11 种流行检测方法(9 种算法),并使用 6 个公正且实用的评估指标进行了评估。最终训练了92个模型,并进行了644次实验进行评估。结果以及共享数据和评估方法构成了比较深度伪造检测方法和衡量进展的基准 ...
在本文中,我们设计了一个简单但功能强大的深度网络架构 U$^2$-Net,用于显着目标检测(SOD)。我们的 U$^2$-Net 的架构是一个两层嵌套的 U 结构。该设计具有以下优点:(1)由于我们提出的残差 U 块(RSU)中不同大小的感受野的混合,它能够从不同的尺度捕获更多的上下文信息,(2)由于这些 RSU 块中使用的池化操作,它增加了整个架构的深度,而不会显着增加计算成本。这种架构使我们能够从头开始训练深度网络,而无需使用图像分类任务中的主干网络。我们实例化了所提出架构的两个模型,U$^2$-Net(176.3 MB,GTX 1080Ti GPU 上 30 FPS)和 U$^2$-Net$^{\dagger}$(4.7 MB,40 FPS),以方便在不同环境中使用。两个模型在六个 SOD 数据集上都取得了有竞争力的性能。代码可用:此 https URL ...
我们引入了根据同行反馈自动修改科学论文的任务,并发布了 ARIES,这是一个审稿意见及其相应论文编辑的数据集。这些数据取自计算机科学中真实的审稿人与作者的互动,并且我们提供了标签,将每个审稿人的评论与作者响应时所做的特定论文编辑联系起来。我们自动创建高精度银训练集,以及专家标记的测试集,显示注释者之间的高度一致性。在对涵盖最先进技术的 10 个模型进行的实验中,我们发现它们甚至很难识别哪些编辑对应于评论——尤其是当编辑和评论之间的关系是间接的并且需要推理才能发现时。我们还广泛分析了 GPT-4 在给定评论和原始论文的情况下生成编辑的能力。我们发现它通常在表面上取得成功,但往往严格遵循反馈的措辞而不是潜在的意图,并且与人工编写的编辑相比缺乏技术细节 ...
无数的学习任务需要处理顺序数据。图像字幕、语音合成和音乐生成都要求模型产生序列输出。在其他领域,例如时间序列预测、视频分析和音乐信息检索,模型必须从序列输入中学习。交互任务,例如翻译自然语言、参与对话和控制机器人,通常需要这两种能力。循环神经网络 (RNN) 是联结主义模型,通过节点网络中的循环捕获序列的动态。与标准前馈神经网络不同,循环网络保留可以表示来自任意长上下文窗口的信息的状态。尽管循环神经网络传统上很难训练,并且通常包含数百万个参数,但网络架构、优化技术和并行计算的最新进展使得它们能够成功地进行大规模学习。近年来,基于长短期记忆 (LSTM) 和双向 (BRNN) 架构的系统在图像字幕、语言翻译和手写识别等各种任务上表现出了突破性的性能。在这项调查中,我们回顾并综合了过去三十年中首先产生并随后将这些强大的学习模型付诸实践的研究。在适当的时候,我们会协调相互冲突的符号和术语。我们的目标是提供对最新技术水平的独立解释以及历史观点和对初级研究的参考 ...
计算机视觉和深度学习的集成是记录和保护文化遗产以及改善游客体验的重要组成部分。近年来,计算机视觉领域建立了两种深度学习范式:卷积神经网络和 Transformer 架构。本研究旨在对这两种技术的一些代表进行比较分析,看看它们将知识从通用数据集(例如 ImageNet)转移到文化遗产特定任务的能力。对VGG、ResNet、DenseNet、Visual Transformer、Swin Transformer和PoolFormer架构的测试示例结果表明,DenseNet在效率可计算性比方面是最好的 ...
检索增强生成 (RAG) 使大型语言模型 (LLM) 能够动态访问外部信息,这对于回答有关以前未见过的文档的问题非常有用。尽管如此,由于上下文窗口有限,他们在高层次的概念理解和整体理解方面遇到了困难,这限制了他们对长篇、特定领域内容(如长篇书籍)进行深度推理的能力。 To solve this problem, knowledge graphs (KGs) have been leveraged to provide entity-centric structure and hierarchical summaries, offering more structured support for reasoning.然而,现有的基于 KG 的 RAG 解决方案仍然仅限于纯文本输入,并且无法利用视觉等其他模式提供的补充见解。另一方面,从视觉文档进行推理需要将文本、视觉和空间线索转化为结构化、层次化的概念。为了解决这个问题,我们引入了一种基于多模态知识图谱的 RAG,它可以实现跨模态推理以更好地理解内容。我们的方法将视觉提示融入知识图的构建、检索阶段和答案生成过程中。全局和细粒度问答任务的实验结果表明,我们的方法在文本和多模态语料库上始终优于现有的基于 RAG 的方法 ...
检索增强的生成(RAG)是一种有力的策略,可以通过检索与查询相关的外部知识并将其纳入其生成过程中的外部知识,以解决基础模型中事实错误产出的问题。但是,现有的RAG方法主要集中在文本信息上,最近一些进步开始考虑图像,并且在很大程度上忽略了视频,这是能够比任何其他方式更有效地表示事件,过程和上下文细节的丰富多模式知识来源。虽然最近的一些研究探讨了视频在响应生成过程中的集成,但它们要么预先定义与查询相关的视频而不根据查询检索它们,要么将视频转换为文本描述而不利用其多模式丰富性 ...
由于多媒体内容的快速增长,使用文本查询从视频中检索事件变得越来越具有挑战性。现有的基于文本的视频事件检索方法通常主要关注对象级描述,而忽视了上下文信息的关键作用。当查询缺乏足够的上下文(例如缺少位置详细信息或模糊的背景元素)时,这种限制尤其明显。为了应对这些挑战,我们提出了一种名为 RAPID(检索增强并行推理起草)的新颖系统,该系统利用大型语言模型 (LLM) 和基于提示的学习的进步,通过相关上下文信息在语义上纠正和丰富用户查询。然后,通过并行检索来处理这些丰富的查询,然后进行评估步骤,根据其与原始查询的一致性来选择最相关的结果。通过对我们定制开发的数据集进行大量实验,我们证明 RAPID 显着优于传统检索方法,特别是对于上下文不完整的查询。通过参加 2024 年胡志明市人工智能挑战赛,我们的系统在速度和准确性方面得到了验证,它成功地从超过 300 小时的视频中检索事件。将 RAPID 与竞赛组织者提出的基线进行比较的进一步评估证明了其卓越的有效性,凸显了我们方法的优势和稳健性 ...