大视觉语言模型(LVLM)由于具有理解图像和视频的卓越视觉推理能力,在自动驾驶领域受到了广泛关注,极大地推动了可解释的端到端自动驾驶的发展。然而,目前对LVLM的评估主要集中在常见场景下的多方面能力,缺乏自动驾驶环境下的可量化和自动化评估,更不用说即使是最先进的自动驾驶感知系统也难以应对的严峻路况。处理。在本文中,我们提出了 CODA-LM,一种新颖的自动驾驶视觉语言基准,它为可解释的自动驾驶提供 ...
受到预先训练的2D扩散模型的可用性日益增长的鼓励,通过利用评分蒸馏采样(SDS)的图像到3D的生成正在取得显着的进步。大多数现有方法结合了2D扩散模型的新颖视图提升,这些模型通常以参考图像为条件,同时在参考视图上应用硬L2图像监督。然而,密切遵守图像很容易损坏2D扩散模型的归纳知识,从而经常经常导致平坦或扭曲的3D一代 ...
llm(llm)进行编码。这些信息对于想要执行用自然语言表达的高级、临时扩展命令的机器人来说非常有用。然而,语言模型缺乏现实世界的经验是一个关键限制,这使得在特定实施例中使用它们进行决策具有挑战性... ...
我们介绍了Ragenta,这是一个多代理检索型生成一代(RAG)归因性答案(QA)的框架。以值得信赖的答案产生的目标,拉根塔(Ragenta)专注于优化答案正确性,这是由覆盖范围和与问题和忠诚相关的相关性定义的,这衡量了在检索文件中基于的答案的程度。 Ragenta使用的是迭代过滤的多代理体系结构,以在线引用中生成归因的答案,并通过动态改进来验证完整性 ...
即使使用量化的低位模型,一般矩阵矢量乘法(GEMV)仍然是大语言模型(LLM)推断中的关键潜伏期瓶颈。使用PROCESTION-DRAM(PUD)是一种模拟IN-DRAM计算技术,有可能重新利用在设备上的DRAM作为GEMV发动机,从而为无需DRAM修改而提供了其他高通量处理能力。但是,将PUD应用于LLM推理管道中的GEMV操作会产生重要的开销$ \ textIt {the} $和$ \ tex ...
尽管取得了显着的进步,多模态大型语言模型(MLLM)仍然倾向于产生事实上不准确的信息。在这项工作中,我们解决了 MLLM 中的物体幻觉,其中提供了有关模型输入中不存在的物体的信息。我们引入了一种对比调整方法,该方法可应用于预训练的现成 MLLM,以减轻幻觉,同时保留其一般视觉语言功能 ...
工业推荐系统通常由匹配阶段和排名阶段组成,以处理数十亿规模的用户和商品。匹配阶段检索与用户兴趣相关的候选项目,而排名阶段则根据用户兴趣对候选项目进行排序。因此,最关键的能力是对任一阶段的用户兴趣进行建模和表示... ...
大型语言模型(LLMS)的快速发展导致了多机构系统(MAS)的出现,以通过协作执行复杂的任务。但是,MAS的复杂性质,包括其建筑和代理互动,引起了人们对知识产权(IP)保护的重大关注。在本文中,我们介绍了Masleak,这是一个新颖的攻击框架,旨在从MAS应用程序中提取敏感信息 ...