在一对图像之间建立密集的对应关系是一个重要的和一般的问题。但是,在大量位移或均匀区域的情况下,稠密的流量估计通常是不准确的。对于大多数应用程序和下游任务,例如姿势估计,图像操作或3D重建,至关重要的是要知道何时何地信任估计的匹配项 ...
大型语言模型(RLLM)(例如OpenAI-O1和DeepSeek-R1)的推理的最新进展已证明了它们在数学和编码等复杂领域中令人印象深刻的功能。其成功的一个核心因素在于应用长链(长COT)特征,从而增强了推理能力并能够解决复杂的问题。然而,尽管有这些发展,但仍缺乏对长床的全面调查,限制了我们对传统的短链(短COT)的区别的理解,并使关于“过度思考”和“测试时间扩展”等问题的持续辩论变得复杂 .. ...
多年来,网络数据已变得广泛,更大,更复杂。传统的网络数据是二元的,可以捕获一对实体之间的关系。由于需要在两个以上实体之间建模相互作用,因此重大研究集中在高阶网络以及代表,分析和向它们学习的方法上 ...
近年来,对音乐发电系统的质量和公众兴趣已经增长,鼓励对控制这些系统的各种方式进行研究。我们提出了一种使用序列模型来控制音乐生成中惊奇的新方法。为了实现这一目标,我们定义了一个称为瞬时信息内容(IIC)的度量 ...
在保留学习知识的同时学习新概念的能力对于课堂学习学习(CIL)的学习系统是可取的。最近,该模型的功能扩展成为CIL的普遍解决方案,在新任务的训练期间,旧功能是固定的,而新功能则扩展了新任务。但是,从新任务中学到的这种特定于任务的功能可能会与旧功能相撞,从而导致任务之间的错误分类 ...
基于数值歧管方法原理,我们开发了一个神经网络歧管的数学框架:深层流形,发现神经网络:1)是数值计算,是向前和逆的数值计算; 2)拥有几乎无限的自由度; 3)深度的指数学习能力; 4)有自我培训的边界条件; 5)培训隐藏的瓶颈。我们还定义了两个概念:神经网络学习空间和深层流动空间,并介绍了两个概念:神经网络内在途径和固定点。我们提出了三个基本问题:1) ...
扩散模型的快速进步极大地改善了视频合成,特别是在可控视频生成方面,这对于自动驾驶等应用至关重要。然而,现有方法受到可扩展性和控制条件集成方式的限制,无法满足自动驾驶应用对高分辨率和长视频的需求。在本文中,我们介绍了一种基于 DiT 架构的新颖方法 MagicDriveDiT,并解决了这些挑战 ...
图像分割是计算机视觉领域长期存在的挑战,几十年来一直在不断研究,N-Cut、FCN 和 MaskFormer 等开创性算法就证明了这一点。随着基础模型 (FM) 的出现,当代分割方法论通过采用 FM(例如, ...