细致的 3D 环境表示一直是计算机视觉和机器人领域的长期目标。最近出现的神经隐式表示为该领域带来了根本性的创新,因为隐式表示可以实现多种功能。其中,神经辐射场(NeRF)因其简化的数学模型、紧凑的环境存储和连续的场景表示等巨大的表示优势而引发了一股趋势 ...
推理时间计算技术(类似于人类系统2思维)最近在改善模型性能方面变得流行。但是,大多数现有的方法都有几个局限性:它们是特定于方式的(例如, ...
人工智能(AI)的最新进展,特别是在大型语言模型(例如OpenAI-O1和DeepSeek-R1)中,在复杂领域(例如逻辑推理和实验编码)中表现出了显着的功能。在这些进步的推动下,许多研究探讨了AI在创新过程中的应用,特别是在科学研究的背景下。这些AI技术主要旨在开发可以自主在广泛的科学学科进行研究过程的系统 ...
我们提出了SIM3D,这是第一个基准,即考虑到全面的3D异常检测和分割(ADS)的多模式和多模式信息的集成,其中任务是产生基于Voxel的异常体积。此外,SIM3D重点介绍了对制造业浓厚兴趣的方案:单稳定异常检测,其中只有一个物体可用于培训。在这方面,SIM3D是第一个针对从合成训练数据到实际测试数据的概括的挑战的ADS基准 ...
时间序列预测(TSF)长期以来一直是行业和日常生活的至关重要的任务。大多数经典的统计模型应用于能源,医疗保健,交通,气象学和经济学等领域的实际场景时,可能会有一定的局限性,尤其是在需要高精度的情况下。随着深度学习的持续发展,近年来的时间序列领域中出现了许多新模型 ...
本手稿对(深度)强化学习和顺序决策领域进行了全面、最新的概述,涵盖基于价值的强化学习、策略梯度方法、基于模型的方法和各种其他主题(包括对 RL+LLM 的非常简短的讨论).. ...
大型语言模型(LLM)及其多模式扩展(MLLM)的最新进展具有跨不同任务的机器推理。但是,这些模型主要依靠纯文本作为表达和结构推理的媒介,即使存在视觉信息。在这项工作中,我们认为语言可能并不总是是推理的最自然或有效的方式,尤其是在涉及空间和几何信息的任务中 ...
立体声匹配是计算机视觉和机器人技术中度量深度估计的关键技术。现实世界中的挑战,例如遮挡和非质量限制了双眼匹配提示的准确差异估计。最近,单眼相对深度估计显示了使用视觉基础模型的显着概括 ...
在本文中,我们介绍了SLAM3R,这是一种新型有效的单眼RGB SLAM系统,用于实时和高质量的密集3D重建。 SLAM3R通过无缝整合局部3D重建和全局坐标来通过前馈神经网络来提供端到端解决方案。给定输入视频,系统首先使用滑动窗口机制将其转换为重叠的剪辑 ...
合成数据集是训练立体声匹配网络的关键要素,但是什么使立体声数据集有效的问题仍然在很大程度上没有探索。我们通过改变过程数据集发电机的参数来研究合成数据集的设计空间,并使用标准基准报告对零摄像的立体声匹配性能的影响。我们收集最佳设置来生产Infinigen-STEREO,这是一种专门针对零击立体声数据集优化的程序发电机 ...