我们提出了一种基于汤普森采样的强化学习(RL)的可扩展且有效的探索策略。现有汤普森采样算法的主要缺点之一是需要对后验分布进行高斯近似,这在大多数实际设置中并不是一个好的替代方法。相反,我们使用 Langevin Monte Carlo(马尔可夫链蒙特卡罗 (MCMC) 方法的一种有效类型)直接从其后验分布中对 Q 函数进行采样 ...
由于安全问题,自动驾驶汽车的大规模部署一直被推迟。一方面,全面的场景理解是必不可少的,缺乏这种理解将导致在罕见但复杂的交通情况下变得脆弱,例如突然出现的未知物体。然而,从全局背景进行推理需要访问多种类型的传感器以及多模态传感器信号的充分融合,这是很难实现的 ...
3D物体检测由于其在各个领域的广泛应用,越来越受到工业界和学术界的关注。在本文中,我们提出了基于点体素区域的卷积神经网络 (PV-RCNN),用于点云上的 3D 对象检测。首先,我们提出了一种新颖的 3D 检测器 PV-RCNN,它通过两个新颖的步骤深度集成基于点的集合抽象和基于体素的稀疏卷积的特征学习,从而提高了 3D 检测性能 ...
积分强化学习(IntRL)要求在策略评估(PEV)阶段精确计算效用函数的积分。这是通过求积规则实现的,求积规则是根据离散时间获得的状态样本评估的效用函数的加权和。我们的研究揭示了一个关键但尚未充分探索的现象:计算方法(在本例中为求积规则)的选择可以显着影响控制性能 ...
近年来,级联老虎机由于适用于推荐系统和在线广告而受到欢迎。在级联老虎机模型中,在每个时间步长,代理都会从项目池中推荐一个有序的项目子集(称为项目列表),每个项目都与未知的吸引概率相关联。然后,用户检查列表,并单击第一个有吸引力的项目(如果有),之后代理会收到奖励 ...
人工智能(AI)技术的快速发展使得基于它的各种系统得以部署。然而,目前许多人工智能系统容易受到难以察觉的攻击,对代表性不足的群体存在偏见,缺乏用户隐私保护。这些缺点降低了用户体验并削弱了人们对所有人工智能系统的信任 ...
离线强化学习(RL)提供了一种有前途的方法,可以从离线数据集中学习强化策略,而无需与环境进行昂贵或不安全的交互。然而,人类在现实环境中收集的数据集通常充满噪音,甚至可能被恶意破坏,这会显着降低离线强化学习的性能。在这项工作中,我们首先研究了当前离线 RL 算法在全面数据损坏下的性能,包括状态、动作、奖励和动态 ...
强化学习(RL)的经典理论主要关注价值函数的表格和线性表示。进一步的进展取决于将强化学习与现代函数逼近器(例如核函数和深度神经网络)相结合,事实上,在大规模应用中利用这种组合已经取得了许多经验上的成功。然而,在开发支持这一事业的理论时,存在着深刻的挑战,最值得注意的是需要考虑强化学习核心的探索-利用权衡,以及现代函数逼近中出现的计算和统计权衡。基于学习系统 ...