大型语言模型(LLM)的出现促进了人工智能的变革转变,为能够在不同领域跨越复杂的推理,强大的感知和多才多艺的动作铺平了道路。随着这些代理人越来越多地推动了人工智能研究和实际应用,它们的设计,评估和持续改进会带来复杂的多方面挑战。这项调查提供了全面的概述,在模块化的,脑为灵感的体系结构中构建了智能代理,该体系结构整合了认知科学,神经科学和计算研究的原理 ...
大型音频模型(LALMS)在句子级的转录和情感识别方面已取得了近乎人类的表现。但是,现有的评估主要集中在表面层面的看法上,在基于语音和推理的情况下,模型的能力在基于语音和推理驱动的场景中不足。为了解决这一差距,我们介绍了SpeechR,这是一个统一的基准测试,用于评估大型音频模型中的语音推理 ...
多模式大语言模型(MLLM)的发展的快速进步始终导致各种基准的新突破。作为回应,已经提出了许多具有挑战性和全面的基准测试,以更准确地评估MLLM的功能。但是,缺乏对MLLM的高阶感知能力的探索 ...
基于视觉的占用网络(VONS)为重建自动驾驶中的3D环境提供了端到端解决方案。但是,现有方法通常会遇到时间不一致,表现为闪烁的效果,会损害视觉体验并对决策产生不利影响。尽管最近的方法已纳入了历史数据以减轻问题,但它们通常会产生高计算成本,并可能引入干扰对象检测的嘈杂信息 ...
世界模型旨在学习或构建能够预测未来场景的环境的表示,从而支持智能运动计划。但是,现有模型通常很难实现细粒度的预测并实时运作。在这项工作中,我们提出了T $^3 $以前的T $^3 $,这是一种新颖的4D占用世界模型,用于自动驾驶 ...
世界模型对于模拟环境动态并生成综合数据的自动驾驶至关重要。现有的方法难以从场景发展(代理相互作用)中解散自我车辆运动(透视偏移),从而导致次优预测。取而代之的是,我们建议通过利用以场景为中心的坐标系统将环境变化与自我运动分开 ...
与LIDAR-VISION融合相比,仅使用视觉的端到端自动驾驶不仅具有更具成本效益的作用,而且比传统方法更可靠。为了实现经济且强大的纯粹视觉自主驾驶系统,我们提出了RenderWorld,这是一个仅视觉的端到端自主驾驶框架,该驾驶框架使用基于高斯的IMG2OCC模块生成3D占用标签,然后使用AM-VAE编码AM-VAE的标签,并使用世界模型进行预测和预测。 Renderworld采用高斯脱落来表示 ...
世界模型根据各种自我行动设想潜在的未来国家。他们嵌入了有关驾驶环境的广泛知识,促进了安全可扩展的自动驾驶。大多数现有方法主要集中于数据生成或世界模型的预处理范例 ...