交通事故对自动驾驶提出了复杂的挑战,通常具有不可预测的场景,从而阻碍了准确的系统解释和响应。尽管如此,由于缺乏事故情景特定的训练数据,阐明事故的原因并提出了预防措施时,普遍的方法学院缺乏。在这项工作中,我们介绍了AVD2(事故视频描述的事故视频扩散),这是一个新颖的框架,通过产生与详细的自然语言描述和推理相符的事故视频来增强事故现场的理解,从而导致了EMM-AU(增强的Multi-i-au)模态事 ...
在PHSD传输模型中分析了质核中心核子碰撞能量4.5--11.5 GEV的重型离子碰撞 ...
人类具有统一的认知能力,可以感知,理解和与物理世界互动。为什么大型语言模型不能复制这种整体理解?通过对视觉语言行动模型(VLA)中现有的培训范式的系统分析,我们确定了两个关键挑战:虚假遗忘,机器人培训覆盖重要的视觉识别和任务干扰,其中竞争性控制和理解任务降低了绩效的效果联合训练时。为了克服这些局限性,我们提出了Chatvla,这是一个具有分阶段对齐训练的新型框架,该框架在初始控制掌握后会逐步整合多 ...
数据在机器学习研究中起着至关重要的作用。在建议的研究中,用户行为和侧面信息都对用户有帮助。因此,具有丰富用户行为的大规模实际场景数据集将大大贡献 ...
视觉语言模型(vlm)集成了多种模式的信息,并在各种任务中取得了显着的成功。然而,在资源有限的场景中部署大规模vlm具有挑战性。修剪后进行微调提供了一种潜在的解决方案,但对于vlm的探索仍未充分... ...
大型语言模型(LLMS)在各种任务中表现出色。但是,LLM的内存需求在部署在内存限制的设备上,即使对于量化的LLMS时也会带来巨大的挑战。本文介绍了一个进一步量化后压缩LLM的框架,实现了大约2 ...
大型语言模型(LLM)的代理商已经证明了他们执行像人类这样的复杂任务的能力。但是,开源LLM和GPT系列(例如GPT系列)之间仍然存在很大的差距。在本文中,我们专注于通过指令调整提高LLM的代理概括能力 ...
分散的表示学习最近吸引了大量关注,尤其是在图像表示学习领域。但是,学习图形背后的分离表示表示仍然没有探索,尤其是对于具有节点和边缘特征的属性图。图形生成的分离学习面临着重大的新挑战,包括1)缺乏与共同解码节点和边缘属性的图形反卷积操作; 2)在分别影响的潜在因素之间执行分离的困难:i)仅节点,ii)仅边缘和iii)它们之间的关节模式 ...