尽管它们经常用于变更检测,但Convnet和Vision Transformer(VIT)都表现出众所周知的局限性,即以前为远程依赖而建模的努力,而后者的计算效率低下,这使他们在大规模数据集上训练挑战。基于状态空间模型的建筑Vision Mamba已成为解决上述缺陷的替代方案,并且已经应用于遥感变更检测,尽管主要是提取主链的功能。在本文中,引入了变更状态空间模型,该模型是专门设计用于更改检测的 ...
加固学习(RL)和视觉智能的交集的最新进展使代理人不仅可以感知复杂的视觉场景,而且还可以理解,原因,产生和行动。这项调查提供了该领域的关键和最新综合。我们首先将视觉RL问题形式化,并追踪政策优化策略从RLHF到可验证的奖励范式的演变,从近端策略优化到组相对政策优化 ...
时间序列分析在财务预测和生物医学监测等领域中至关重要,但是传统方法受到有限的非线性特征表示和长期依赖捕获的约束。大型语言模型(LLM)的出现通过利用其跨模式知识整合和时间序列分析的固有注意机制来提供变革潜力。但是,从头开始的时间序列的通用LLM的开发仍然受到数据多样性,注释稀缺性和计算要求的阻碍 ...
我们介绍了物理Agent,这是一种用于整合迭代推理,基于扩散的视频生成和闭环执行的机器人操作的代理框架。考虑到文本指令,我们的方法生成了简短的视频演示,对候选轨迹,在机器人上执行它们,并迭代重新计划以响应故障。此方法可以从执行错误中恢复强大的恢复 ...
大型语言模型(LLM)预处理,填充和评估依赖于输入空间重建和生成能力。然而,在嵌入空间训练目标的视觉中已经观察到了,例如 ...
大海捞针(NIAH)测试检查从长干扰文本(“大海捞针”)中检索一条信息(“针”)的能力,已被广泛用于评估长上下文语言模型(LM)。然而,这种简单的基于检索的测试仅表明长上下文理解的表面形式。为了对长上下文 LM 提供更全面的评估,我们创建了一个新的综合基准标尺,该标尺具有灵活的配置,可定制序列长度和任务复杂性 ...
对科学研究的数据搜索比简单的网络搜索更为复杂。大型语言模型(LLM)的出现及其对科学任务的适用性为正在寻找数据的研究人员提供了新的机会,例如 ...
我们如何使人工智能模型改善自己?这是指数级改进通用的人工智能模型的核心,该模型可以改善自己的体系结构,以有效的方式处理新的问题域,以利用最新的硬件。但是,当前的自动汇编方法很差,有效的算法需要多年的人类发展。在本文中,我们使用基于类别理论的神经电路图证明与深度学习算法相关的一般定理,指导迎合基因调节网络领域的新型注意力算法的开发,并产生相应的有效核心 ...