缩放定律推动了语言建模和计算机视觉等机器学习领域的显着进步。然而,尽管机器学习在该领域的使用迅速增加,但在具体人工智能和机器人技术中对尺度法则的探索仍然有限。本文提出了第一个量化机器人基础模型 (RFM) 的缩放定律以及 LLM 在机器人任务中的使用的研究 ...
大型文本到模型图像在人工智能的发展中实现了显着的飞跃,能够根据给定的文本提示合成高质量和多样化的图像。然而,这些模型缺乏在给定参考集中建模视觉外观和在不同的背景下总结了它们的新颖表现能力。在这项工作中,我们提出了一种文本到图像扩散模型“个性化”的新方法...... ...
最近视频生成取得了实质性进展并取得了现实的结果。然而,现有的人工智能生成的视频通常是描述单个场景的非常短的剪辑(“镜头级别”)。为了提供连贯的长视频(“故事级”),需要在不同的剪辑之间具有创造性的过渡和预测效果 ...
随着时间的推移,现有的基于扩散的视频编辑模型在编辑源视频的属性方面取得了巨大的进步,但在保留原始主角的外观和背景的同时很难操纵运动信息。为了解决这个问题,我们提出了 MotionEditor,一种用于视频运动编辑的扩散模型。 MotionEditor 将新颖的内容感知运动适配器整合到 ControlNet 中,以捕获时间运动对应关系 ...
在现实世界的任务中应用强化学习是极具挑战性的。按照当前强化学习方法的要求,在物理环境中对大量试验进行采样通常是不可行的。本文报告了我们使用强化学习在淘宝上进行更好的商品搜索的项目,淘宝是最大的在线零售平台之一,同时也是采样成本较高的物理环境 ...
大型语言模型(LLM)极大地推进了自然语言处理领域的发展,但昂贵的内存和计算消耗阻碍了它们的实际部署。量化成为提高 LLM 计算效率的最有效方法之一。然而,现有的超低比特量化总是会导致精度严重下降 ...
人体姿势估计旨在定位人体部位并根据图像和视频等输入数据构建人体表示(例如身体骨骼) ...
无约束图像和视频中的人体姿势估计是一项基本的计算机视觉任务。为了说明技术的进化路径,在本次调查中,我们以结构化分类法总结了代表性的人体姿势方法,特别关注深度学习模型和单人图像设置。具体来说,我们检查和调查典型人体姿势估计管道的所有组件,包括数据增强、模型架构和主干、监督表示、后处理、标准数据集、评估指标 ...
二维图像视频中的人体姿势估计最近成为计算机视觉问题中的热门话题,因为它具有巨大的好处和改善人类生活的潜在应用,例如行为识别、动作捕捉和增强现实、训练机器人和运动跟踪。通过深度学习实现的许多最先进的方法已经解决了多项挑战,并在人体姿势估计领域带来了巨大的显着成果。方法分为两类:两步框架(自上而下的方法)和基于部分的框架(自下而上的方法) ...
人体姿势估计旨在定位输入数据(例如图像、视频或信号)中的人体解剖关键点或身体部位 ...