大型语言模型(LLM)和视觉语言模型(VLM)具有丰富的知识并具有有希望的推理能力,但是,它们仍然在复杂,动态的环境中努力表现良好。现实世界中的任务需要处理复杂的互动,高级空间推理,长期计划以及对新策略的持续探索 - 我们缺乏有效的方法来全面评估这些能力。为了解决这一差距,我们介绍了Balrog,这是一种新颖的基准测试,旨在通过各种具有挑战性的游戏来评估LLM和VLM的代理能力 ...
直接偏好优化(DPO)已引起人们的关注,作为从人类反馈(RLHF)学习大型语言模型(LLMS)与人类偏好的有效替代方法。尽管具有优势,但DPO仍具有长度偏差,产生的响应比参考模型的响应更长。现有的解决方案(例如Simpo和Sampo)解决了这个问题,但统一地对待跨序列奖励的贡献,忽略了时间动态 ...
模仿学习方法需要大量的人类监督来学习对物体姿势、身体干扰和视觉干扰物变化稳健的策略。另一方面,强化学习可以自主探索环境以学习稳健的行为,但可能需要不切实际的大量不安全的现实世界数据收集。为了学习高性能、稳健的策略,而无需承担不安全的现实世界数据收集或广泛的人工监督的负担,我们提出了 RialTo,这是一种通过在动态构建的“数字孪生”模拟环境中进行强化学习来增强现实世界模仿学习策略的系统。少量的真实 ...
语言模型的最新进展取得了重大进展。 GPT-4o作为一个新的里程碑,实现了与人类的实时对话,展现出接近人类自然的流畅性。这种人机交互需要模型能够直接使用音频模态进行推理并生成流式输出 ...
大型语言模型(LLM)已广泛应用于各种自然语言任务和领域,但其适用性受到模型参数数量过多的限制。因此,人们越来越重视具有高性能的紧凑型模型。在这项研究中,我们观察到 LLM 中的不同层对隐藏状态有不同程度的扰动,这使我们能够识别不太重要的层 ...
我们提出了一种新型的无监督反射图像增强方法,通过探索对比性语言图像预训练(剪辑)的潜力,以缩写为夹式光线。我们表明,开放世界的剪辑不仅有助于区分背光图像和光线充足的图像,而且还有助于感知具有不同亮度的异质区域,从而促进了增强网络的优化。与高级和图像操纵任务不同,由于难以找到准确的提示,直接将剪辑应用于增强任务是不平凡的 ...
高纯粹的顺序模式采矿(HUSPM)由于其广泛的应用和广泛的知名度而成为一个重要主题。但是,由于HUSPM问题遇到低实用程序阈值或大规模数据时,由于搜索空间的组合爆炸,因此可以耗时且记忆力耗费以解决HUSPM问题。已经提出了几种算法来解决此问题,但是在运行时间和内存使用方面,它们仍然花费很多 ...
点云完成旨在从部分点云中恢复完整的点形状。尽管现有方法可以在全球完整性中形成令人满意的点云,但它们通常会丢失原始的几何细节,并面临现有点云和重建丢失零件之间几何不一致的问题。为了解决这个问题,我们引入了SymmCompletion,这是一种基于对称指导的高效完成方法 ...