视频生成模型可以视为世界模拟器,因为它们能够捕获现实世界中固有的动态,连续变化的能力。这些模型在视觉,时间,空间和因果关系上整合了高维信息,从而可以预测各种状态的受试者。自然而有价值的研究方向是探索高维空间中训练有素的视频生成模型是否可以有效地支持较低维度的任务,例如可控的图像生成 ...
手势可以实现非语言人类机器人的交流,尤其是在敏捷生产等嘈杂的环境中。传统的基于深度学习的手势识别依赖于特定于任务的架构,使用图像,视频或骨骼姿势估计作为输入。同时,具有强大概括能力的视觉基础模型(VFM)和视觉语言模型(VLM)通过替换专用特定于任务的模块来降低系统复杂性的潜力 ...
不同的基本语言模型家族,例如骆驼和QWEN,在加强学习后培训期间表现出不同的行为(RL),尤其是在推理密集型任务上。是什么使基本语言模型适合加固学习?深入了解这个问题对于开发下一代的RL尺度基础模型至关重要。在这项工作中,我们研究了中期训练策略如何塑造RL动态,重点是两个代表性的模型家族:Qwen和Llama ...
DeNoising扩散模型在以自然语言描述为条件的人类运动合成中表现出了巨大的希望。然而,尽管对于弥合孤立的人类运动及其周围环境之间的差距至关重要,但整合空间限制(例如预定义的运动轨迹和障碍)仍然是一个挑战。为了解决这个问题,我们提出了指导运动扩散(GMD),该方法将空间约束纳入运动生成过程 ...
模型检查点是关键的深度学习(DL)工件,可实现训练和下游应用(例如推理)的容错。但是,为持续存储编写检查站,以及DL培训的其他I/O方面,大多通过以计算为中心的优化工作来忽略了快速增长的模型和数据集的速度。为了解决这种不平衡,我们建议快速主义者在DL培训中加快检查点的创建 ...
本文提供了与量化大规模神经网络模型相关的原理,挑战和方法的全面概述。随着神经网络已发展为更大,更复杂的架构以解决越来越复杂的任务,计算和能源成本已经大大升级。我们探讨了模型大小增长的必要性和影响,突出了性能益处以及计算挑战和环境考虑 ...
这项研究着重于大型语言模型(LLMS)如何以人为互动和互动方式为移动体现的代理(例如机器人)提供(路径)计划。一个名为LLM A*的新型框架旨在利用LLMS的常识,并提出了公用事业最佳的A*,以促进几乎没有射击的近乎最佳的路径计划。提示用于两个主要目的:1)为LLM提供基本信息,例如环境,成本,启发式方法等 ...
矩阵量化需要以更高的形式代表矩阵元素以减少存储使用情况,而取消定量恢复了原始矩阵供使用。在量化矩阵占据相同的存储空间的情况下,我们将量化误差最小化(QEM)问题提出最小化矩阵之间的距离。在各种应用中,矩阵量化至关重要,包括大语言模型(LLMS)权重量化,向量数据库,KV缓存量化,图形压缩和图像压缩 ...