大型语言模型(LLM)和音频语言模型的最新进展已大大改善了音乐的发电,尤其是歌词到歌曲的一代。但是,现有的方法仍然在歌曲的复杂组成和高质量数据的稀缺性方面困难,从而导致声音质量,音乐性,跟随教学和声音启动和谐的限制。为了应对这些挑战,我们介绍了LEVO,这是一个基于LM的框架,由LELM和音乐编解码器组成 ...
近年来,在多模式理解模型和图像产生模型中都取得了显着的进步。尽管取得了各自的成功,但这两个领域还是独立发展的,导致了独特的建筑范式:尽管基于自动进程的架构占多模式的理解,但基于扩散的模型已成为图像生成的基石。最近,人们对开发整合这些任务的统一框架的兴趣越来越大 ...
处理点云数据是许多实际系统的重要组成部分。因此,已经提出了各种基于点的方法,并报告了随着时间的推移基准的稳定改进。我们研究了这一进展的关键要素,并发现了两个关键结果 ...
在具有小批量的现代工业环境中,为新任务设置机器人系统应该很容易。存在策略,例如 ...
大型语言模型(LLMS)在解决各种自然语言任务方面表现出色。但是,由于重新培训或进行微调涉及的巨大成本,它们基本上仍然是静态的,难以个性化。然而,各种应用程序可能会受益于为用户的偏好,目标和知识量身定制的几代人 ...
自上而下的方法主导了3D人类姿势和形状估计的领域,因为它们与人类检测脱钩,并使研究人员可以专注于核心问题。但是,裁剪是他们的第一步,从一开始就丢弃了位置信息,这使自己无法准确预测原始相机坐标系中的全局旋转。为了解决此问题,我们建议将完整框架(悬崖)的位置信息携带到此任务中 ...
视频扩散模型的最新进展推动了视频编辑技术的快速进步。但是,由于幻觉对象和视觉伪像等问题,视频对象的删除是视频编辑的关键子任务,仍然具有挑战性。此外,现有方法通常依赖于计算昂贵的采样程序和无分类器指导(CFG),从而导致推理缓慢 ...
大型语言模型(LLMS)可能会使获得医学知识的机会民主化。尽管已经为利用和提高LLM的医学知识和推理能力而做出了许多努力,但由此产生的模型是封闭的(例如 ...
近年来,一般视觉基础模型(VFM)见证了采用的越来越多,尤其是作为流行多模式大型语言模型(MLLM)的图像编码器。但是,在没有语义上的细粒度监督的情况下,这些模型仍然在下游文本图像相关任务的背景下遇到基本预测错误,即 ...
人形机器人经常由于沉重的四肢运动而面临重大的平衡问题。在尝试动态运动或在具有不规则地形的环境中运行时,这些挑战尤其明显。为了应对这一挑战,本手稿使用基于模型的方法结合了基诺 - 动力学计划者和层次结构优化问题,为肢体繁重的人形机器人提出了一个全身控制框架 ...