音频模型(ALMS)生成了产生声音事件和场景的语言描述。数据集创建和计算能力的进步导致了该领域的重大进展。本文调查了用于训练施舍的69个数据集,涵盖了2024年9月(此HTTPS URL)的研究 ...
大型语言模型(LLM)由于其非凡的自然语言能力而广泛采用。但是,在将它们部署在现实世界中时,重要的是要根据可接受的人体标准来使LLMS生成文本。诸如近端策略优化(PPO)和直接偏好优化(DPO)之类的方法在使用人类偏好数据来完善LLMS方面取得了重大进展 ...
视频详细字幕(VDC)是视觉桥接的至关重要任务,可以对复杂的视频内容进行精细的描述。在本文中,我们首先全面地基准了当前的最新方法,并系统地确定了两个关键局限性:偏向于特定字幕方面的能力和与人类偏好的未对准。为了解决这些缺陷,我们提出了Cockatiel,这是一种新型的三阶段训练管道,它结合了合成和人类一致的培训,以改善VDC性能 ...
面部解析是指人脸的语义分割到关键面部区域,例如眼睛,鼻子,头发等。它是各种高级应用的先决条件,包括面部编辑,面部交换和面部化妆,通常需要对眼部,帽子,帽子,耳朵,耳边和项链等课程进行细分面具。这些不经常发生的类称为长尾类,这些类别被称为头类别的类较常见的类所掩盖 ...
最近的多模式大型语言模型(MLLM)在视频理解方面取得了长足的进步。但是,他们在涉及人类行为的视频上的表现仍然受到缺乏高质量数据的限制。为了解决这个问题,我们引入了两阶段数据注释管道 ...
视觉内容的现有自动字幕方法面临挑战,例如缺乏细节,内容幻觉和不良的教学。在这项工作中,我们提出了VisualFactchecker(VFC),这是一种灵活的无训练管道,可为2D图像和3D对象生成高保真和详细的字幕。 VFC由三个步骤组成:1)建议,其中图像到文本字幕模型提出了多个初始字幕; 2)验证,其中大语言模型(LLM)利用对象检测和VQA模型等工具来检查事实核对拟议的字幕; 3)字幕,其中L ...
Parkour对腿部机器人构成了重大挑战,需要基于有限的感官输入来通过具有敏捷性和精确度的复杂环境进行导航。在这项工作中,我们介绍了一种新颖的方法,用于训练从深度像素到机器人控制命令,以实现敏捷且安全的四倍的运动。我们将机器人跑酷作为限制的加固学习(RL)问题,旨在最大程度地提高机器人物理限制内敏捷技能的出现,同时确保安全性 ...
面部操纵技术已取得了重大进步,对安全和社会信任提出了严重的挑战。最近的著作表明,利用多模式模型可以增强面部伪造检测的概括和解释性。但是,现有的注释方法,无论是通过人类标签还是直接多模式大语模型(MLLM)产生,通常会遭受幻觉问题的困扰,导致文本描述不准确,尤其是对于高质量的伪造 ...