检索增强的一代(RAG)已成为一种流行的技术,可以通过将外部文档中的响应接地来增强大语言模型(LLM)的可靠性和实用性。传统的抹布系统依靠光学特征识别(OCR)将扫描文档首次处理为文本。但是,即使是最先进的OCR也会引入错误,尤其是在退化或复杂的文档中 ...
我们介绍了$ \ pi^3 $,这是一种馈送前向神经网络,为视觉几何重建提供了一种新颖的方法,破坏了对常规固定参考视图的依赖。先前的方法通常将其重建锚定在指定的观点上,该观点是电感偏差,如果参考是次优的,可能导致不稳定和失败。相比之下,$ \ pi^3 $采用完全排列的等值架构来预测现代相机的姿势和规模不变的本地点映射,而无需任何参考帧 ...
估计场景重建和从体内视频的摄像机运动由于多种因素,例如体内腔的变形或缺乏纹理 ...
我们在图像表示中完全放弃了常规的空间先验,并引入了一种新颖的离散视觉 Token :自稳态 Token 器(SelfTok)。在其设计核心上,我们通过使用图像生成的反向扩散过程组成了自回归(AR)先验(将语言的因果结构反映为视觉 Token )。 The AR property makes Selftok fundamentally distinct from traditional spatia ...
导航和操纵是体现AI的核心能力,但是在现实世界中具有这些功能的培训代理人面临高成本和时间的复杂性。因此,SIM到现实传输已成为关键方法,但SIM到实现的差距仍然存在。这项调查研究了物理模拟器如何通过分析以前的调查中忽略的属性来解决这一差距 ...
大型语言模型(LLM)已经表现出了令人印象深刻的推理能力,但由于知识差距和幻觉,它们仍然难以忠实地推理。为了解决这些问题,知识图(KG)已被用来通过其结构化知识来增强 LLM 推理。然而,现有的知识图谱增强方法,无论是基于检索还是基于代理,在准确检索知识和大规模有效遍历知识图谱方面都遇到了困难 ...
当前的AI训练基础架构由单个指令多个数据(SIMD)和收缩阵列体系结构(例如图形处理单元(GPU)和张量处理单元(TPU)主导,它们在加速并行工作负载和密集的矢量矩阵乘法方面表现出色。利用稀疏性和复发性的潜在更有效的神经网络模型不能利用SIMD处理器的全部力量,因此与当今突出的平行体系结构(如变形金刚和CNN)相比,处于严重的劣势,从而阻碍了通往更可持续性AI的道路。为了克服这一限制,我们探索了具 ...
半监督学习(SSL)提供了利用未标记数据以改善模型性能的有效手段。在本文中,我们证明了两种常见SSL方法的简单组合的功能:一致性正则化和伪标记。我们的算法FixMatch首先使用该模型对弱点未标记的图像的预测生成伪标记 ...