视频场景中多种观点的引入不可避免地增加了存储和传输所需的比特率。为了降低比特率,研究人员开发了在压缩和交付过程中跳过中间观点的方法,并最终使用侧面信息(SI)重建它们。通常,深度图用于构造SI ...
在这封信中,我们提出了一种新型的LIDAR惯性传感器融合框架,称为R3Live,该框架利用了LIDAR,惯性和视觉传感器的测量,以实现强大而准确的状态估计。 R3LIVE包含两个子系统,即激光惯性探针(LIO)和视觉惯性探测器(VIO)。 LIO子系统(Fast-Lio)利用了LiDAR和惯性传感器的测量,并构建了几何结构(i ...
驾驶视频生成的最新进展通过提供可扩展和可控的培训数据来显示出增强自动驾驶系统的巨大潜力。尽管预算是最新的一代模型,但在2D布局条件下进行指导(例如 ...
我们重新提出了托拉尔巴和埃夫罗斯十年前提出的“数据集分类”实验,在新时代,数据集具有大规模、听力、希望偏差减弱的数据集以及功能更强大的神经网络架构。 令人惊讶的是,我们对来自哪个数据集方面的分类图像中的现代神经网络的观察可以实现出色的准确性:例如... ...
密集的视频字幕是从未修剪视频中本地化有趣事件的任务,并为每个本地化事件制作文本描述(字幕)。密集的视频字幕上的大多数作品仅基于视觉信息,并且完全忽略了音轨。但是,尤其是音频和言语是人类观察者在理解环境方面的重要提示 ...
尽管多模式任务取得了希望的进展,但当前的大型多模型模型(LMM)倾向于相对于相关图像和人类指令幻觉不一致的描述。本文通过引入第一个大型而多样的视觉教学调谐数据集来解决此问题,该数据集被称为大规模稳健视觉(LRV) - 指导。我们的数据集包括由GPT4生成的400K视觉说明,涵盖了16个具有开放式指示和答案的视觉和语言任务 ...
我们提出了hoimotion-人类对象相互作用期间人类运动预测的一种新颖方法,该方法整合了有关过去的身体姿势和以自我为中心的3D对象边界框的信息。人类运动预测在许多增强现实应用中很重要,但是大多数现有方法仅使用过去的身体姿势来预测未来的运动。 Hoimotion首先使用编码器 - 占用图卷积网络(GCN)和多层感知器,分别从身体姿势和Egentric 3D对象边界框中提取特征 ...
从人类反馈(RLHF)中学习的强化是一种有前途的解决方案,可以使大型语言模型(LLMS)更加紧密地与人类价值观保持一致。由于其成本效率和可伸缩性,因此广泛采用了从其他模型获得偏好数据的非政策偏好优化。但是,非政策优先优化通常会遇到数据收集策略与目标策略之间的分布差距,从而导致次优优化 ...