为了解决自动驾驶模拟方案中低智力和简单车辆行为建模的当前挑战,本文提出了具有推理和运动样式(CHARMS)的认知层次结构代理。该模型可以推理其他车辆(如人类驾驶员)的行为,并以不同的决策方式做出反应,从而在驾驶场景中提高周围车辆的智力和多样性。通过介绍级别的K行为游戏理论,本文对人类驱动因素的决策过程进行了建模,并采用了深入的强化学习来以各种决策方式训练模型,从而模拟了不同的推理方法和行为特征 . ...
跨视图地理定位(CVGL)已被广泛应用于机器人导航和增强现实等领域。现有方法主要使用单个图像或固定视图图像序列作为查询,从而限制了透视多样性。相比之下,当人类从视觉上确定自己的位置时,他们通常四处走动以收集多种观点 ...
自从基于推理的大语言模型的出现以来,许多人从将推理能力提炼到学生模型中取得了巨大的成功。这些技术在编码任务上已经显着弥合了推理和标准LLM之间的差距。尽管如此,蒸馏推理模型的许多进展仍然锁定在专有数据集后面,或者缺乏有关数据策展,过滤和随后培训的细节 ...
对比解码策略被广泛用于减轻多模式大语模型(MLLM)中的对象幻觉。通过减少对语言先验的过度依赖,这些策略确保生成的内容保持在视觉输入中,从而产生上下文准确的输出。由于对比度解码不需要其他培训或外部工具,因此它既具有计算效率又具有多功能性,从而使其具有很高的吸引力 ...
该报告通过采用专业的,微调的嵌入模型来研究增强语义缓存效果。语义缓存依赖于嵌入相似性而不是确切的关键匹配,这在平衡精度,查询延迟和计算效率方面带来了独特的挑战。我们建议利用较小的域特异性嵌入模型,并通过目标现实世界和合成生成的数据集进行了微调 ...
我们提出了一种新型的细粒跨视图定位方法,该方法通过在两个图像之间匹配细粒度的细粒特征,估算周围环境中地面图像的3个自由度姿势。姿势是通过对齐从地面图像产生的点平面与从空中图像采样的点平面来估计的。为了生成接地点,我们首先将地面图像特征映射到3D点云 ...
最近的LLM在遵循用户说明方面表现出色,但是具有多个约束的说明仍然是一个重大挑战。在这项工作中,我们介绍了WildifeVal-一个大规模的数据集,其中包括12K真实用户说明,具有多种多样的多种构造条件。与先前的数据集不同,我们的收藏集涵盖了自然用户提示中的宽阔词汇和局部约束范围 ...
我们介绍自然计划,这是一种自然语言的现实规划基准,包含,3个关键任务:旅行规划、会议规划和日历安排。我们通过提供Google Flights 、Google Maps和Google日历等工具的输出作为模型的上下文 ...