模仿学习是训练机器人控制政策的有前途的范式,但是这些政策可能会遭受分配变化,在评估时间的条件与培训数据中的条件不同。提高政策鲁棒性的流行方法是交互式模仿学习(即 ...
非均匀雾度的存在会导致场景模糊,颜色失真,低对比度以及其他掩盖纹理细节的降解。现有的同质飞行方法难以以强大的方式处理阴霾的不均匀分布。非同质性飞行的关键挑战是有效提取非均匀的分布特征,并重建高质量的朦胧区域的细节 ...
坡道合并是自动驾驶汽车(AV)的一项具有挑战性的任务,尤其是在AVS与人类驱动车辆(HDVS)并存的混合交通中。在本文中,我们制定了混合流量的高速公路上的跨道问题作为多机构增强学习(MARL)问题,在该问题中,AVS(在合并车道和通过车道上)协作学习了一项政策,以适应HDV,以最大程度地提高流量吞吐量。我们开发了一个有效且可扩展的MARL框架,该框架可用于动态流量,在该流量中,通信拓扑可能会很随时 ...
我们介绍了Duoduo剪辑,这是一种用于3D表示学习的模型,该模型从多视图图像而不是点云中学习形状编码。多视图图像的选择使我们能够利用现成的剪辑模型的2D先验,以促进3D数据进行微调。与现有的点云方法相比,我们的方法不仅显示出更好的概括,而且还减少了GPU的要求和培训时间 ...
在得出答案之前,生成思想链(COT)可以有效地提高大语言模型(LLM)的推理能力,并显着提高生成的答案的准确性。但是,在大多数情况下,生成的COT的长度比所需的最终答案长得多,这导致了额外的解码成本。此外,现有的研究发现,即使保留关键信息,也缩短了COT的推理步骤,也会降低LLMS的能力 ...
随着快速发展,生成式大语言模型 (LLM) 主导着从理解到推理的各种自然语言处理 (NLP) 任务。然而,由于可访问性的增加和对来自互联网的大量文本数据的不受限制的模型训练,语言模型的固有缺陷可能会加剧。恶意对手可能会在线发布中毒数据,并对受毒数据预先训练的受害者 LLM 进行后门攻击 ...
为了改善多模式大型语言模型的(MLLM)处理图像和复杂说明的能力,研究人员主要策划大规模的视觉说明调谐数据集,这些数据集是从现有视觉任务中来自现有视觉任务或使用LLMS和图像描述的合成生成的。但是,它们通常会遭受关键缺陷,包括未对准的教学图像对和低质量的图像。此类问题阻碍了训练效率并限制了绩效的提高,因为在嘈杂或无关的数据上浪费资源对整体能力的好处最小 ...
我们表明,如果通过减去奖励的经验平均水平来解决持续强化学习问题的折现方法,则可以表现出色。在常用折扣因素上,改进是很大的,并且随着折现因子接近一个的进一步增加。此外,我们表明,如果问题的奖励通过常数转移,那么标准方法的性能差得多,而以奖励为中心的方法不受影响 ...