随着前沿LLM的规模不断增加,训练后量化已成为记忆有效部署的标准。最近的工作表明,基于基本的基于舍入的量化方案构成了安全风险,因为它们可以被利用将恶意行为注入量化的模型中,这些模型仍然完全隐藏了。但是,现有的攻击不能应用于更复杂的量化方法,例如流行的Ollama和Llama $中使用的GGGUF家族 ...
大型语言模型(LLM)的出现已经显着彻底改变了Web搜索。基于LLM的搜索代理的出现标志着向更深入,动态,自主信息寻求寻求的关键转变。这些代理可以理解用户意图和环境环境,并通过动态计划执行多转回检索,从而将搜索功能扩展到远远超出网络 ...
自动驾驶需要从传感器数据中了解静态环境。学到的鸟眼视图(BEV)编码器通常用于融合多个输入,并且矢量解码器预测来自潜在BEV网格的矢量化MAP表示。但是,传统的地图构造模型提供了确定的点估计值,无法捕获不确定性和现实世界环境的固有歧义,例如遮挡和缺少车道标记 ...
深度学习(DL)在许多应用中取得了巨大的成功,但是从理论的角度来看,它的分析程度不佳。黑盒DL模型的无法解释的成功提出了科学家之间的问题,并促进了可解释的人工智能(XAI)领域的出现。在机器人技术中,以可预测且稳定的方式部署DL算法尤其重要,因为机器人是需要与物理世界安全互动的活性代理 ...
Visual Robot操纵(VRM)旨在使机器人能够根据机器人状态和视觉观测来遵循自然语言指令,因此需要昂贵的多模式数据。为了弥补机器人数据的不足,现有的方法采用了通过大规模数据进行视觉预处理。但是,他们要么利用与机器人任务不同的Web数据,要么以隐式方式训练模型(e ...
程序知识的有效交流仍然是自然语言处理(NLP)的重大挑战,因为纯粹的文本说明通常无法传达复杂的身体行动和空间关系。我们通过提出一个以语言驱动的框架来解决此限制,该框架将程序文本转化为连贯的视觉说明。我们的方法将教学内容的语言结构分解为目标语句和顺序步骤,然后在这些语言元素上调节视觉生成 ...
开放的词汇量相互作用(HOI)检测旨在检测人与物体之间的相互作用,同时推广到训练集以外的新型相互作用类别。当前的方法通常取决于视觉和语言模型(VLM),但由于次优的图像编码器而面临挑战,因为图像级预训练与HOI所需的细粒区域级相互作用检测并不十分吻合。此外,有效地编码视觉外观的文本描述仍然很困难,从而限制了模型捕获详细的HOI关系的能力 ...
随着多模式大语言模型(MLLM)的快速发展,连接器在桥接多种方式和增强模型性能方面起着关键作用。但是,连接器的设计和演变尚未进行全面分析,在了解这些组件如何运行并阻碍更强大的连接器的开发方面留下了差距。在这项调查中,我们系统地检查了MLLM中连接器的当前进度,并提出了结构化的分类法,将连接器分类为原子操作(映射,压缩,专家的混合物)和整体设计(多层,多层编码器,多模式场景),以突出显示其技术和进步 ...
将用户的自然语言问题转换为 SQL 查询(即 NL2SQL)可显着降低访问关系数据库的障碍 ...
视频过程计划,即,在鉴于开始和目标状态的视频框架下,计划一系列动作步骤,是体现AI的重要能力 ...