我们提出了一种新型的神经时间模型,以预测和综合人类运动,在对长期运动轨迹进行建模时,在短期预测中与先前的工作竞争,并需要大大减少计算。我们提出的系统的关键方面包括:1)一种有助于生成计划轨迹的新颖的,两级处理架构,2)一组简单的易于计算的功能,可以整合衍生信息,3)一种新型的多目标损失函数,可帮助模型从简单的下一步预测到更艰难的多型步骤任务,封闭式预测,封闭式预测,逐步逐步发展。我们的结果表明,这 ...
细分模型(SAM)通过输入提示(例如点和边界框)获得了自然图像分割的令人印象深刻的结果。它的成功在很大程度上归功于大量标记的培训数据。但是,由于Sam缺乏医学知识,直接将SAM应用于医疗图像细分无法表现良好 - 它不会使用医学图像进行培训 ...
我们介绍了Unitoken,这是一种自动回归生成模型,该模型通过离散和连续表示的组合来编码视觉输入,从而使统一的视觉理解和图像生成任务无缝集成。与以前依赖单方面视觉表示的方法不同,我们统一的视觉编码框架既捕获了高级语义和低级细节,又提供了多维信息,从而使异质任务具有基于其内在特征的选择性同化域特有的知识。通过深入实验,我们发现了开发能够视觉理解和图像产生的统一模型的关键原理 ...
参数有效的微调(PEFT)已被广泛用于域适应性,由于其简单性和有效性,洛拉(Lora)是最突出的方法之一。但是,在多任务学习(MTL)方案中,洛拉(Lora)倾向于通过将不同任务的稀疏高维特征投射到相同密集的低维内在空间中,从而掩盖任务之间的区别。这导致了洛拉及其变体的任务干扰和次优性能 ...
对配对文本图像数据的网络尺度培训正变得越来越重要,这是多模式学习的核心,但受到野外数据集的高度嘈杂性质的挑战。标准数据过滤方法成功地删除了错匹配的文本图像对,但允许语义相关但高度抽象或主观文本。这些方法缺乏隔离最具体样品的细粒度能力,这些样本为嘈杂的数据集提供了最强的信号 ...
科学图表是有效地传达研究结果的重要工具,是传达信息和揭示数据模式的重要媒介。随着科学和技术的快速发展,加上大数据时代的出现,科学研究数据的数量和多样性飙升,从而增加了图表的数量和多样性。这种趋势给研究人员带来了新的挑战,特别是在有效,准确地为这些图表生成适当的标题以更好地传达其信息和结果时 ...
图像文本对的可用性越来越大,很大程度上推动了视觉基础模型的快速发展。但是,这些数据集的广泛规模不可避免地引入了数据质量的显着差异,这可能会对模型性能产生不利影响。这突出了数据过滤的关键作用,不仅是为了提高培训效率,而且还提高了整体数据质量 ...
在处理较长的上下文时,大型语言模型面临着重大的计算和内存挑战。在推断过程中,对钥匙值(KV)缓存的有效管理(存储自回归产生的中间激活)对于减少内存开销和提高计算效率至关重要。传统的 Token 级有效的KV缓存方法忽略了语义信息,独立对待 Token 而不考虑其语义关系 ...