具有长上下文Windows的大型语言模型(LLMS)启用强大的应用程序,但以高内存消耗为代价来存储密钥和值状态(KV-CACHE)。最近的研究试图将KV-CACHE从多个层合并为共享表示形式,但是这些方法要么需要昂贵的预处理,要么依赖于通常在实践中不存在的层次层次相似性的高度相似性的假设。我们发现,在KV-CACHE的多个层中,主要的奇异向量非常合适 ...
最近,大规模的视觉语言预先训练(VLP)模型在各种下游任务中表现出令人印象深刻的表现。受这些进步的激励,开创性的努力在多标签图像识别中出现了,缺少标签,利用VLP及时调用技术。但是,由于复杂的语义差距和多标签图像中缺少标签,它们通常无法很好地匹配文本和视觉功能 ...
鉴于心理问题的巨大社会影响,心理原则的复杂性强调了一个重大的社会挑战。弥合理解这些原则与其实际临床和现实世界应用之间的差距需要严格的探索和熟练的实施。最近,高度适应性和可重复使用的人工智能(AI)模型的迅速发展已成为一种有前途的方法,可以在心理学领域解锁前所未有的能力 ...
开放式摄制对象检测(OVOD)旨在检测到给定的基本类别的新物体,该对象在其上训练了检测模型。最近的OVOD方法着重于调整图像级预训练的视力模型(VLM),例如剪辑,例如通过(例如,区域级知识蒸馏,区域及时学习,区域及时学习或区域文本)预训练的区域级对象检测任务,以扩展检测词汇 ...
可扩展矢量图形 (SVG) 因其分辨率的无限可扩展性、多功能可用性和编辑功能而成为现代图像渲染应用程序中不可或缺的一部分。 SVG 在网页开发和图形设计领域特别受欢迎。使用深度学习进行 SVG 建模的现有方法通常难以生成复杂的 SVG,并且仅限于需要大量处理和简化的简单模型 ...
世界模型是生物代理商所经历和采取行动的现实环境的算法代理,近年来一直是一个新兴的话题,因为需要增加具有人工(一般)智能的虚拟试剂。关于世界模型的真正是什么,如何构建它,如何使用它以及如何评估它,一直存在很多争论。在本文中,从著名的科幻经典沙丘中的想象力开始,并从心理学文学中的“假设思维”概念中汲取灵感,我们对几种关于世界建模的思想流派进行了批评,并认为世界模型的主要目标是模拟对现实世界的所有可行的 ...
运动是人形机器人的基本技能。但是,大多数现有的作品使运动成为一个单一的,乏味的,不可扩展的和被动的运动。这限制了人形机器人的运动学能力 ...
视觉模型(VLM)的最新进展已利用大型语言模型(LLMS)在诸如GPT-4V(例如GPT-4V)的封闭源系统上实现性能。但是,由于其实质性的计算需求,将这些模型部署在现实世界中,尤其是在资源受限设备上,仍然具有挑战性。这激发了人们将知识从大型VLM提炼成较小,更有效的对应物的兴趣 ...