从遥感图像中自动提取矢量化建筑轮廓对于城市规划,人口估计和灾难评估至关重要。当前的最新方法依赖于涉及像素分割,矢量化和Polygon改进的复杂多阶段管道,从而限制了它们的可扩展性和现实世界中的适用性。受到大语言模型(LLMS)的显着推理功能的启发,我们介绍了VectorLlm,这是第一个用于从遥感图像中定期构建轮廓的多模式大语言模型(MLLM) ...
3D高斯脱落(3DGS)最近已成为3D场景表示的神经辐射场(NERF)的有力替代品,提供了具有实时性能的高保真感性逼真的渲染。除了新颖的视图综合外,3DG的明确和紧凑性能还可以使需要几何学和语义理解的广泛下游应用。这项调查提供了有关3DGS应用程序最近进展的全面概述 ...
越来越多的大型语言模型(LLM)超越了对深层研究任务的简单事实查询,这些问题需要将问题分解为子问题,协调多步推理,并综合了来自不同来源的证据。我们将具有可验证答案的深入研究任务形式化为分层约束满意度问题(HCSP),它们与单构造,多跳或平面CSP配方根本不同。但是,现有基准(e ...
每个已知的人工深神经网络(DNN)都对应于规范Grothendieck的拓扑中的一个物体。它的学习动态对应于此拓扑中的形态流动。层中的不变结构(例如CNNS或LSTMS)对应于Giraud的堆栈。该不变性应该是对概括属性的原因,即从约束下的学习数据中推断出来 ...
在过去的二十年中,机器学习几乎渗透到技术的每个领域。同时,许多研究人员已经开始使用类别理论作为一种统一的语言,从而促进了不同科学学科之间的沟通。因此,毫不奇怪的是,将类别理论应用于机器学习存在兴趣 ...
尽管自下而上的本地操作员在卷积神经网络(CNN)中使用自然图像的某些统计数据,但它也可能阻止此类模型捕获上下文的远程特征相互作用。在这项工作中,我们提出了一种简单,轻巧的方法,以在CNN中进行更好的上下文开发。我们通过引入一对操作员来做到这一点:聚集,从很大的空间范围内有效地汇总了响应,并激发了该响应,并激发了将汇总信息重新分配到本地功能 ...
基于大语言模型(LLM)建立的多机构系统在解决复杂的组成任务方面表现出了显着的功能。在这项工作中,我们将此范式应用于纸与寄生生成问题,这是准备会议的研究人员面临的实用且耗时的过程。尽管最近的方法试图自动执行这项任务,但最忽视的核心设计和审美原则,导致海报需要大量的手动精制 ...
多模式大语言模型(MLLM)仍然容易受到可转移的对抗示例的影响。尽管现有方法通常通过对齐全局特征,例如剪贴画的[Cls] Token 和目标样本之间的攻击,但它们经常忽略贴片 Token 中编码的丰富本地信息。这导致了次优的对准和有限的可传递性,尤其是对于封闭式模型 ...