本文介绍了LP-DRE(层次渐进式DETR),这是一种新颖的方法,可通过多尺度关系建模增强基于DETR的对象检测。我们的方法通过一种自我注意的机制引入了对象查询之间的可学习空间关系,该机制可以自适应地学习在解码器层之间平衡不同关系(本地,中等和全局)的不同规模。这种渐进设计使该模型能够在整个检测管道中有效捕获不断发展的空间依赖性 ...
多模式大语言模型(MLLM)的显着进步吸引了越来越多的关注,以扩展到腿部机器人等物理实体。这通常需要MLLM不仅要掌握多模式理解能力,还需要整合视觉空间推理和物理互动功能。然而,由于本文本文的基础,现有方法很难统一这些能力,因此我们介绍了视觉体现的大脑(Vebrain),这是现实世界中的感知,推理和控制的统一框架 ...
基于 Transformer 的方法在低级视觉任务(例如图像超分辨率(SR))中表现出了令人印象深刻的性能。但是,其计算复杂性随空间分辨率而倍增。一系列作品试图通过将低分辨率图像分为本地窗户,轴向条纹或扩张的窗户来减轻此问题 ...
扩展大语模型(LLM)的性能越来越取决于减少对人类监督的依赖的方法。从自动验证中学习的强化学习提供了替代方案,但由于对人类设计的验证者的依赖而造成的可伸缩性限制。自我训练(在模型自身提供监督信号的情况下)提出了令人信服的方向 ...
最近,在3D对象生成中已经取得了重大进展。在生成的几何形状的基础上,当前的管道通常采用图像扩散模型来生成多视图RGB图像,然后通过纹理烘烤进行紫外线纹理重建。尽管在多个开源框架的支持下,3D几何产生有了显着改善,但3D纹理生成仍未得到充分震惊 ...
自然语言处理(NLP)最近通过对公司和市场的财务文件提供了高度宝贵的见解,从而在金融机构中获得了相关性。但是,由于文本的复杂性和特定术语的使用,金融领域的景观给NLP带来了额外的挑战。通才的语言模型往往在专门针对金融的任务中脱颖而出,即使使用具有良好自然语言理解和生成能力的大型语言模型(LLM) ...
寻求信息需要迭代证据收集和反思性推理,但是大型语言模型(LLMS)仍在开放式问题回答中与之抗争。现有的方法依赖于基于Wikipedia的语料库和检索环境的静态提示规则或培训,从而限制了对现实世界中的Web环境的适应性,在这种情况下,歧义性,证据和噪音相互冲突是普遍的。这些受到限制的培训设置阻碍了LLM的学习,而不是动态地决定何时何地搜索,以及如何根据信息需求调整搜索深度和频率 ...
对象概念在人类视觉认知,实现物理世界中的感知,记忆和互动中起着基本作用。受到发育神经科学中的发现的启发 - 显示婴儿可以通过观察运动获得对象的理解,我们提出了一个以生物学启发的框架,以无监督的方式学习以对象为中心的视觉表示。我们的关键见解是,运动边界是对象级分组的强信号,可用于从原始视频中得出伪实例监督 ...