现代应用商店推荐系统与多类应用程序斗争,因为传统分类法无法捕获重叠的语义,从而导致了次优的个性化。我们提出了PCR-CA(对比度对齐的并行代码书表示),这是一个改进CTR预测的端到端框架。 PCR-CA首先从App Text提取紧凑的多模式嵌入,然后引入并行代码Book Book Book Book Book Book Book Book Book Book Booke Booke Book Bo ...
随着人工智能的发展和深度学习的突破,大规模的基础模型(FMS)(例如GPT,Sora等)在包括自然语言处理和计算机视觉在内的许多领域都取得了显着的成果。 FMS在自动驾驶中的应用具有巨大的希望 ...
跨视图地理定位旨在匹配来自不同平台的相同目标的图像,例如无人机和卫星 ...
无人机(UAV)依靠卫星系统进行稳定定位。然而,由于卫星覆盖范围有限或通信中断,无人机可能会丢失卫星定位系统的信号。在这种情况下,基于视觉的技术可以作为替代方案,确保无人机的自定位能力... ...
我们提出了一种基于新型的视觉语言模型(VLM)导航方法,以计算以人为本的环境中的运动运动。我们的目标是对在社会上符合人类期望的机器人行动做出实时决策。我们利用一种感知模型来检测重要的社会实体,并促使VLM为社会兼容的机器人行为生成指导 ...
线性关注已成为基于软马克斯的注意力的有希望的替代方法,利用核特征图以降低从二次到线性的复杂性,序列长度。然而,与原始的查询键点相比,在特征图上的非负约束和用于近似值的松弛指数函数导致大幅度的信息丢失,从而导致较高的熵的歧视性注意图。为了解决由Query-Key对中负值驱动的缺失相互作用,我们提出了一种极性感知的线性注意机制,该机制明确地模拟了相同和相反的查询键相互作用,以确保对关系信息的全面覆盖 ...
LLMS对越狱攻击的鲁棒性,用户设计提示避免安全措施和滥用模型功能,主要是针对LLMS的简单聊天机器人研究的。同时,使用外部工具并可以执行多阶段任务的LLM代理可能会造成更大的风险,但它们的鲁棒性仍然没有得到充实。为了促进对LLM代理商滥用的研究,我们提出了一种名为AgentHarm的新基准 ...
大型视觉模型(LVM)已成为视觉智能的基础范式,从而在各种视觉任务中实现了最新的性能。 LVM的最新进展促进了它们与物联网(IoT)方案的集成,从而为视觉辅助网络优化提供了出色的概括和适应性。在本文中,我们首先研究了LVM的功能和核心体系结构,突出了它们在分类,分割,生成和多模式视觉处理中的功能 ...