我们将卷积神经网络(CNN)应用于消费者照片的正确方向(从0、90、180和270度)的上下文中的图像方向检测问题。这个问题对于数字模拟照片尤其重要。我们从标准数据集之一的性能方面可以显着改善已发表的最新状态,并在更困难的大型消费者照片数据集上测试我们的系统 ...
通过选择前选择和选择后状态之间的更多正交性,人们可以根据弱值扩增(WVA)方法显着提高一般光学量子计量的灵敏度。然而,增加正交性降低了检测光子的概率并使弱测量值变得困难,尤其是当弱测量受到强噪声干扰并且指针以负DB信号 - 噪声比(SNR)淹没时,指针被淹没。在本文中,我们使用时间指针进行了一种修改的弱测量协议,即自动相关弱值扩增(AWVA)方法 ...
多模式大语言模型(MLLM)的最新进展显示出令人鼓舞的结果,但是现有的方法很难同时有效地处理时间和空间定位。这一挑战源于两个关键问题:首先,结合时空定位引入了大量的坐标组合,使语言和视觉坐标表示的对齐变得复杂;其次,在视频功能压缩过程中编码细粒度的时间和空间信息本质上是困难的。为了解决这些问题,我们提出了LLAVA-ST,这是一种用于良好的时空多模式理解的MLLM ...
灵巧的手在复杂的现实抓握任务上表现出巨大的潜力。尽管最近的研究主要集中于针对特定机器人手的学习政策,但控制多种灵活的手的普遍政策的制定仍然在很大程度上尚未探索。在这项工作中,我们研究了使用增强学习(RL)的跨偏见灵巧掌握策略的学习 ...
大型语言模型中的先进推理在具有挑战性的任务上取得了出色的性能,但是普遍的长篇文本推理范式面临着临界限制:二次计算缩放,序列长度,序列长度,由最大上下文边界限制的推理以及超出预先训练上下文窗口以外的绩效降低。现有方法主要压缩推理链,而无需解决基本缩放问题。为了克服这些挑战,我们引入了Inftythink,这种范式将单片推理转化为中间摘要的迭代过程 ...
视觉对象跟踪的最新进展显着提高了无人机(UAV)跟踪的功能,这是现实世界机器人应用程序中的关键组成部分。虽然层次轻量级网络的集成已成为提高无人机跟踪效率的普遍策略,但它通常会导致网络容量大幅下降,这进一步加剧了无人机场景中的挑战,例如频繁的闭塞和观看角度的极端变化。为了解决这些问题,我们介绍了一个新颖的无人机跟踪器系列,称为CGTRACK,该家族结合了明确和隐性的技术,以在粗到精细的框架内扩大网络 ...
多模式的大型语言模型(MLLM)通常是通过将预训练的大型语言模型(LLMS)带入视觉功能来得出的。在这项工作中,我们研究了MLLM如何通过分析其注意力机制来处理视觉输入。我们揭示了令人惊讶的稀疏现象:LLMS中只有一个小子集(大约少于5%)的注意力,积极地有助于视觉理解,称为视觉头 ...
现代的深神经网络(DNN)加速器配备了越来越大的片上缓冲液,可以提供更多的机会来减轻日益严重的DRAM带宽压力。但是,大多数有关缓冲用途的研究仍然主要集中在单层数据流程计划优化上。随着缓冲区的生长足够大,可以在大多数网络中适应大多数单层重量,因此单层数据流优化对DRAM通信的影响会大大减少 ...