当前动作分类数据集(UCF-101和HMDB-51)中视频的匮乏使得很难识别出良好的视频体系结构,因为大多数方法在现有的小规模基准测试中获得了类似的性能。根据新动力学人类动作视频数据集,本文重新评估了最新的架构。 Kinetics具有两个数量级的数据,其中有400个人类动作类别,每课超过400个剪辑,并且是从现实,挑战的YouTube视频中收集的 ...
大语模型(LLM)对生成推理的记忆和计算需求不断增长,对实际部署提出了重大挑战。解决这些挑战的一种有希望的解决方案是卸载基于批处理的推理,该推理利用主机内存和磁盘作为GPU的扩展内存层次结构。尽管该方法成本效益可以启用LLM推断,但其性能受到大量I/O的限制,这主要是由于大型键值(KV)缓存尺寸,这会随批量大小和LLM上下文窗口长度而增加 ...
异常检测(AD)在许多基于Web的应用程序中起关键作用,包括恶意软件检测,反洗钱,设备故障检测和网络故障分析。由于缺乏标签,大多数依赖于无监督学习的方法很难达到令人满意的检测准确性。引入了弱监督的异常检测(WSAD),并使用有限的标记为异常样品来增强模型性能 ...
强大的视觉主链和大型语言模型(LLM)推理的结合使大型多模型模型(LMM)成为广泛视觉和语言(VL)任务的当前标准。但是,最近的研究表明,即使是最先进的LMM仍然很难捕获构图视觉推理的各个方面,例如属性和对象之间的关系。一种解决方案是利用场景图(SGS) - 对象的形式化及其关系和属性已被广泛用作视觉和文本域之间的桥梁 ...
视觉进程(VO)在自主系统中起关键作用,主要挑战是相机图像中缺乏深度信息。本文介绍了OCC-VO,这是一个新颖的框架,该框架利用了深度学习的最新进展,将2D摄像头图像转换为3D语义占用率,从而规避了对自我姿势和地标地点的同时估算的传统需求。在此框架内,我们利用TPV形式将环绕摄像机的图像转换为3D语义占用 ...
OFFITE-TUNNING是一种使用LLM所有者与数据所有者共享有损失的压缩模拟器来调整大语言模型(LLM)的隐私方法,以进行下游任务调整。这种方法保护模型和数据所有者的隐私。但是,当前的异地调整方法通常会因统一下降LLM层或依靠昂贵的知识蒸馏而导致适应性降解,高计算成本以及有限的保护强度受到损失 ...
及时工程对于开发基于LLM的应用程序至关重要。但是,通常以“反复试验”方式手动完成,这可能是耗时,无效和最佳选择的。即使对于看似效果很好的提示,总会有一个挥之不去的问题:通过进一步的修改,提示可以更好吗?为了解决这些问题,我们在本文中调查了自动化的及时工程 ...
我们引入了定向刺激提示,这是一种新颖的框架,llm)实现特定的所需输出。我们的方法不是直接调整llm,而是采用一个小型的可调政策模型(例如 ... ...