图像生成扩散模型已经过微调,以解锁新功能,例如图像编辑和新型视图合成。我们可以类似地解锁视觉运动控制的图像生成模型吗?我们提出了Genima,这是一种行为下调的剂,将稳定扩散至“绘制关节运动”作为RGB图像的目标。这些图像被馈送到一个控制器中,将视觉目标映射到一系列关节位 ...
最近的研究探索了将不同的洛拉斯结合在一起,共同产生了学习的样式和内容。但是,现有方法要么无法同时保留原始主题和样式,要么需要额外的培训。在本文中,我们认为洛拉的内在特性可以有效地指导扩散模型,以合并学习的主题和样式 ...
我们提出了MM-Eureka,这是一种多模式推理模型,成功地将基于规则的大规模强化学习(RL)扩展到了多模式推理。尽管基于规则的RL在提高LLMS在文本域中的推理能力方面取得了巨大的成功,但其在多模式设置中的应用仍然具有挑战性。我们的工作重现了多模式空间中基于文本的RL系统(例如DeepSeek-R1)的关键特征,包括准确奖励和响应长度的稳定增加以及反射行为的出现 ...
人类反馈强化学习 (RLHF) 已被证明是一种使预训练大型语言模型 (LLM) 与人类偏好保持一致的强大方法。但使用 RLHF 训练模型的计算成本很高,而且整个过程很复杂。在这项工作中,我们研究了 RLHF,其中底层模型使用 Hu 等人引入的低秩适应(LoRA)参数有效方法进行训练 ...
我们介绍了Open3DIS,这是一种新颖的解决方案,旨在解决3D场景中开放式摄影实例分割的问题。 3D环境中的对象表现出各种形状,尺度和颜色,使精确的实例级别识别成为一项具有挑战性的任务。开放式摄影场景理解的最新进展通过使用类不足的3D实例提案网络来实现每个3D掩码的对象定位和学习可查询功能,从而在这一领域取得了重大进步 ...
目前,端到端(E2E)语音识别方法已达到有希望的表现。但是,自动语音识别(ASR)模型仍然面临挑战,可以准确地识别多重语音。我们提出了一个称为Qifusion-net的层化融合(LAF)模型,该模型不需要关于目标口音的任何先验知识 ...
目前,深度学习的大部分构建模块、技术和架构都基于实际值损伤和表示。然而,最近关于循环神经网络的工作和较早的基础理论分析表明,复数可以具有更丰富的表示能力,并且还可以促进抗噪声的搜索记忆。虽然它们具有引人入胜的特性以及开辟全新神经架构的潜力,但由于机制设计此类模型所需的构建块 ...
在自然灾害期间,人们越来越多地使用社交媒体平台来分享信息并要求帮助。哈维飓风是2017年8月摧毁美国德克萨斯州休斯顿的4级飓风,并在休斯顿大都会地区造成了灾难性的洪水。哈维飓风还目睹了公众对这一重大灾难的广泛使用,地理位置是许多社交媒体信息中描述的关键信息文章 ...