空间推理是认知心理学的关键方面,仍然是当前视觉模型(VLM)的主要瓶颈。尽管广泛的研究旨在评估或改善VLM对基本空间关系的理解,例如区分左右,远离远处的左侧和对象计数,但这些任务仅代表了最基本的空间推理水平。在这项工作中,我们介绍了完全扎根于认知心理学的空间推理的全面且具有挑战性的基准 ...
空间认知对于人类智力是必不可少的,可以通过视觉模拟解决问题,而不仅仅是依靠口头推理。但是,现有的AI基准主要评估言语推理,忽略了非语言,多步视觉模拟的复杂性。我们介绍了凝视(空间转换和推理评估),这是一种基准测试,旨在严格评估通过多步视觉模拟来更好地解决任务上的多模式大语言模型 ...
视觉语言模型(VLM)能否像人类一样,想象一下只有几个观点的完整场景?人类形成空间心理模型,看不见的空间的内部表示,以理解布局,透视和运动。我们的新MindCube基准标有3,268张图像中有21,154个问题的基准,暴露了这一关键差距,其中现有VLM的表现接近随机性能。使用MindCube,我们系统地评估了VLM通过代表位置(认知映射),方向(透视图)和动态(“ what-if”运动的心理模拟) ...
我们从非平衡量子热力学的角度研究了量子MPEMBA效应,该量通过研究偶联的量子系统的松弛动力学与马尔可夫热水浴的相连,这是由Davies Maps描述的。从能量本质基因的状态开始,我们证明,如果状态在能量本质基因词中转化为对角线状态,则将始终发生指数的速度,前提是发电机的光谱是由复杂的特征值定义的。当转化状态具有较高的非平衡自由能时,我们会使用热力学推理说这是\ textit {quenine}量 ...
这项工作提出了一种新颖而简单的顺序学习策略,以在视频和文本上培训模型,以进行多模式分析。为了估计看不见的分发数据的情感极性,我们引入了一种多模型模型,该模型使用我们的学习策略在单个源域或多个源域中进行了训练。该策略始于文本中的学习域不变特征,然后从视频中学习稀疏的域 - 无知功能,并在文本中学到的选定功能的协助下 ...
我们提出Pix2Seq,这是一个简单而通用的对象检测框架。与明确整合有关该任务的先验知识的现有方法不同,我们将对象检测作为一种语言建模任务,以观察到的像素输入为条件。对象描述(e ...
基于变形金刚的模型(例如BERT)一直是NLP最成功的深度学习模型之一。不幸的是,由于其全部注意机制,其核心局限性之一是对序列长度的二次依赖性(主要是在记忆方面)。为了解决这个问题,我们提出了大鸟,这是一种稀疏的注意机制,可降低这种二次依赖性线性 ...
模型合并是一种有希望的轻型模型授权技术,不依赖昂贵的计算设备(例如GPU)或需要收集特定培训数据 ...