我们解决了从单个RGB图像自动重建场景的完整3D模型的问题。这项具有挑战性的任务需要推断可见的表面和遮挡表面的形状。我们的方法利用了以观看器为中心的场景几何形状的多层表示,该表现从最新的单个对象形状完成方法改编 ...
训练后量化(PTQ)已成为减少视觉 Transformer (VIT)的存储和计算成本的有前途解决方案。最近的进步主要是针对制定量化器来处理以VIT为特征的特殊激活的。但是,大多数现有方法低估了体重量化所产生的信息损失,从而导致严重的性能恶化,尤其是在低位案例中 ...
本文是出于有趣的现象的激励:当Maskdino的开头 Transformer 解码器层研究中间的结果时,对象检测的性能滞后于实例分割(即性能不平衡)(i ...
线性关注已成为基于软马克斯的注意力的有希望的替代方法,利用核特征图以降低从二次到线性的复杂性,序列长度。然而,与原始的查询键点相比,在特征图上的非负约束和用于近似值的松弛指数函数导致大幅度的信息丢失,从而导致较高的熵的歧视性注意图。为了解决由Query-Key对中负值驱动的缺失相互作用,我们提出了一种极性感知的线性注意机制,该机制明确地模拟了相同和相反的查询键相互作用,以确保对关系信息的全面覆盖 ...
在长范围内操纵大物体(例如仓库中的购物车)是可部署机器人系统的重要技能。大物体需要移动操作,涉及与物体拖曳的同时操纵,导航和运动。在许多现实世界中,对象动态非常复杂,例如办公椅(带有旋转底座和五个施法车轮)和地面的相互作用 ...
我们提出了一种新颖的潜在扩散 Transformer ,即拿铁,用于视频生成。拿铁,然后采用一系列,然后采用一系列 Transformer 块对潜在空间中的视频分布进行建模。为了对从视频中提取的大量标记进行建模,从分解输入视频的空间和时间维度的角度引入了四种有效的变体... ...
尽管当前的大型语言模型(LLM)具有令人印象深刻的功能,但执行复杂的现实世界任务仍然需要工具学习。主流方法(例如COT/REACT)依靠分步工具调用来与外部环境进行交互,但是它们在感知范围上受到限制,并且缺乏足够的任务计划功能。为了解决这些局限性,其他研究介绍了第一个基于搜索的决策树(DFSDT),该决策树仍然遭受高计算成本的影响 ...
大型语言模型(LLM)表现出在人级推理和发电能力方面非常熟练的熟练程度,这鼓励了对其在数学问题解决中的应用。但是,当前的工作主要集中在基于文本的数学问题上,并且在涉及几何信息的问题方面进行了有限的研究。解决这一差距,我们旨在通过理解图像输入来解决LLMS解决几何问题 ...