智能车辆在许多运输方案中都表现出了出色的功能。使用相机神经网络的推理能力限制了复杂运输系统中事故检测的准确性。本文介绍了事故Blip2,这是一种纯基于视觉的多模式大型BLIP2,用于事故检测 ...
动态图捕获了实体之间不断发展的互动,例如在社交网络,在线学习平台和众包项目中。对于动态图建模,动态图神经网络(DGNN)已成为主流技术。但是,它们通常在链接预测任务上进行了预训练,从下游任务(例如节点分类)的目标中留下了很大的差距 ...
文本到SQL问题旨在将自然语言问题转化为SQL语句,以简化数据库系统与最终用户之间的互动。最近,大型语言模型(LLMS)在包括文本到SQL在内的各种任务中表现出令人印象深刻的功能。尽管先前的工作探讨了促使LLM生成SQL语句的各种策略,但由于缺乏(1)在构造提示时缺乏(1)高质量的上下文信息以及(2)强大的反馈机制以纠正翻译错误时,它们仍然没有完全利用LLM的力量 ...
视觉模型(VLMS)由于将视觉说明与响应保持一致,因此已经证明了它们的广泛效力。但是,对结论的这种训练会导致模型忽略基本的视觉推理,从而进一步导致细致的视觉问题和不忠实的反应失败。从人类认知中汲取灵感来解决视觉问题(e ...
强大而有效的交通监控系统对于智能城市和智能运输系统(ITS),使用传感器和摄像机来跟踪车辆运动,优化交通流量,减少拥堵,增强道路安全并实现实时自适应交通控制至关重要。交通监控模型必须全面了解动态的城市条件,并为有效管理提供直观的用户界面。这项研究利用LLAVA视觉接地多模式大型语言模型(LLM)在实时Quanser Interactive Lab Simulation平台上进行交通监视任务,涵盖了 ...
生成的AI正在重塑艺术,游戏,最著名的是动画。基础和扩散模型的最新突破减少了生产动画内容的时间和成本。角色是中心动画组成部分,涉及运动,情感,手势和面部表情 ...
查询推荐系统在现代搜索引擎中无处不在,帮助用户产生有效的查询来满足他们的信息需求。然而,这些系统需要大量数据才能产生良好的推荐,例如用于索引和查询日志的大量文档集合。特别是冷启动场景下查询日志和用户数据不可用... ...
文本对图像生成已经通过扩散模型看到了突破性的进步,从而实现了高保真性的综合和通过交叉注意操作进行精确的图像编辑。最近,自回归(AR)模型已重新出现为强大的替代方案,利用下一代生成来匹配扩散模型。但是,由于结构控制的根本差异,专为扩散模型设计的现有编辑技术无法直接转化为AR模型 ...