既可以理解又产生视觉内容的统一多模式大型语言模型(LLM)具有巨大的潜力。但是,现有的开源模型通常会遭受这些功能之间的性能权衡。我们提出了Manzano,这是一个简单且可扩展的统一框架,可通过将混合图像 Token 与精心策划的训练配方耦合,从而大大降低了这种张力 ...
在空间智能中取得了重大进展,涵盖了空间重建和世界探索。但是,当前模型的可伸缩性和现实忠诚度仍然受到大规模高质量培训数据的稀缺性的严重限制。虽然几个数据集提供相机姿势信息,但它们的规模,多样性和注释丰富度通常受到限制,尤其是对于现实世界中的动态场景,地面真相相机运动 ...
现代AI的计算需求激发了对光学神经网络(ONN)的兴趣,这些神经网络(ONNS)提供了增加速度和降低功耗的潜在好处。但是,当前的ONN面临着各种挑战,最明显的是有限的计算精度(通常约为4位),并且需要高分辨率信号格式转换器(数字到Analogue转换(DAC)和模数转换(ADC))的要求。这些挑战是其模拟计算本质所固有的,并在实际实施中构成了重大障碍 ...
传统上,机器人技术中的视觉导航依赖于全球一致的3D地图或学习的控制器,这在计算上可能很昂贵,并且难以在不同的环境中推广。在这项工作中,我们提出了一种新颖的仅RGB,仅对象级的上式导航管道,该管道可实现零射击,长远程机器人导航,而无需3D地图或预训练的控制器。我们的方法将全球拓扑路径计划与局部度量轨迹控制集成在一起,从而使机器人可以朝对象级别的子目标导航,同时避免障碍 ...
在零件级别生成3D形状对于下游应用程序(例如网状复位,紫外线映射和3D打印)至关重要。但是,现有的基于部分的生成方法通常缺乏足够的可控性,并且具有较差的语义有意义的分解。为此,我们介绍了X-Part,这是一种可控的生成模型,旨在将整体3D对象分解为具有高几何忠诚度的语义有意义且结构相干的部分 ...
LLM(大型语言模型)从业人员通常会注意到,在预期确定性的设置下的相同输入中,输出可能会有所不同。然而,关于这是多么普遍的问题,以及对结果的影响,尚未系统地研究我们的知识。我们在五个llms中调查了五个LLM中的非确定性,当在零射击和少量设置中应用于八个常见任务时,它们被配置为确定性 ...
利用预先训练的文本对图像(T2I)生成模型的视觉先验已显示在密集预测中的成功。但是,密集的预测本质上是图像到图像的任务,表明图像编辑模型而不是T2i生成模型可能是进行微调的更合适的基础。在此激励的情况下,我们对编辑器和发电机的微调行为进行系统分析,以进行密集的几何估计 ...
我们发现,在低频区域和高频区域内不一致地收敛的EPE评估指标,在迭代过程中导致高频降解(例如边缘和薄物体) ...
传统的机器学习模型,尤其是神经网络,植根于有限维参数空间和非线性函数近似。本报告探讨了一种替代表述,其中学习任务表示为无限尺寸希尔伯特空间中的采样和计算,从功能分析,信号处理和光谱理论中利用工具。我们回顾了基础概念,例如复制内核希尔伯特空间(RKHS),光谱操作员学习和小波域表示 ...
高性能实时立体声匹配方法总是依赖于成本量的3D正则化,这对移动设备不友好。基于2D正则化的方法在不属于地区的地区挣扎。在本文中,我们提出了一个适合部署的4D成本汇总网络DBSTEREO,该网络基于纯2D卷积 ...