机器人增强学习(RL)通常依靠精心设计的辅助奖励来补充稀疏的初级学习目标,以弥补缺乏大规模的,真实世界,反复试验的数据。尽管这些辅助奖励加速学习,但它们需要大量的工程工作,可能会引入人类的偏见,并且不能在培训期间适应机器人的发展能力。在本文中,我们引入了奖励培训轮(RTW),这是一个自动化机器人RL辅助奖励适应的教师框架 ...
CDR(CDR)研究的主要目标之一... ...
对象检测是自主驾驶中的一个成熟问题,人行人检测是最早部署的算法之一。它在文献中已经进行了全面研究。但是,对于在田间传感附近的环绕视图中,对物体检测的探索相对较少 ...
基于扩散的极端图像压缩方法在极低的比特率下实现了令人印象深刻的性能。但是,这些方法受纯噪声开始的迭代授予过程的限制,这些方法在保真度和效率方面都受到限制。为了解决这两个问题,我们提出了继电器残留扩散极端图像压缩(RDEIC),该图像受到压缩特征初始化和残留扩散 ...
最近的进步强调了增强学习(RL)在增强大语言模型(LLMS)的思想链(COT)推理能力方面的重要作用。两种突出的RL算法,即直接偏好优化(DPO)和小组相对策略优化(GRPO),是这些发展的核心,展示了不同的利弊。自回归图像生成(也可以解释为连续的COT推理过程)提出了与基于LLM的COT推理不同的独特挑战 ...
基于视频文本的视觉问题回答(视频textVQA)是一项实用的任务,旨在通过在给定视频中共同推理文本和视觉信息来回答问题。受图像域中TextVQA的开发的启发,现有的视频TextVQA方法利用语言模型(例如, ...
分布式数据库是当今大规模软件系统的关键基础架构,使有效的故障管理至关重要,以确保软件可用性。但是,现有方法通常会忽略分布式数据库中的角色区分,并依赖具有有限概括能力的小型模型。在本文中,我们进行了一项初步实证研究,以强调不同角色的独特意义 ...
人工智能(AI)在医疗保健和其他领域取得的惊人成功证明了AI可以实现类似人类的表现。但是,成功总是带来挑战。深度学习算法是数据依赖性的,需要大量的数据集进行培训 ...