我们介绍了Metaspatial,这是第一个基于强化的框架(RL)的框架,旨在增强视觉模型(VLM)中的3D空间推理,从而无需进行硬编码的优化,从而实现了实时3D场景的生成。 Metaspatial解决了两个核心挑战:(i)VLMS中缺乏内部化的3D空间推理,这限制了它们产生逼真的布局的能力,以及(ii)传统的监督微调(SFT)用于布局生成任务的效率低下,因为不可用。我们的关键创新是一种基于多转移 ...
0 0 0 2025/04/03 arXiv:2503.18470v1 13366395289
研究表明,推理的有效性(例如,经营链),计划(e ...
0 0 0 2025/04/03 arXiv:2410.23511v2 Meatone
SGM(SGM)最近在样本质量和分布覆盖范围方面表现出了令人印象深刻的结果。然而,它们通常直接应用于数据空间,并且通常需要数千次网络评估才能进行采样。在这里​​,lsgm),这是一种依赖变分自动编码器框架在潜在空间中训练sgm的新颖方法... ...
0 0 0 2025/04/03 arXiv:2106.05931v3 alimir
在这项工作中,我们解决了透明和镜面对象的6-DOF GRASP检测,这在基于视觉的机器人系统中是一个重要但具有挑战性的问题,这是由于深度摄像机在感知其几何形状方面的失败。我们首次提出了一个基于多视RGB的6-DOF GRASP检测网络Graspnerf,该网络利用可概括的神经辐射场(NERF)来实现杂物中的材料 - 敏捷对象。与现有的基于NERF的3-DOF GRASP检测方法相比,依赖于密集捕获 ...
0 0 0 2025/04/03 arXiv:2210.06575v3 wu123
为专门的技术领域生成高质量的提问对,仍然具有挑战性,现有的方法在利用专家示例和实现主题多样性之间的权衡面临。我们提出了ExpertGenQA,该协议将几乎没有的学习与结构化主题和样式分类结合在一起,以生成全面的域特异性质量质量质量质量对。使用U ...
0 0 0 2025/04/03 arXiv:2503.02948v1 Meatone
Shapley值(SV)是一个公平且原则性的度量标准,用于跨性别联盟学习(Cross-Silo FL)的贡献评估,其中组织(即客户端)与参数服务器的协作进行了协作训练预测模型 ...
0 0 0 2025/04/03 arXiv:2209.04856v5 ajingo
在自动驾驶的3D对象检测的领域中,LiDAR-CAMERA(LC)融合是表现最佳的传感器配置。尽管如此,LIDAR还是相对较高的成本,这阻碍了该技术用于消费汽车。另外,相机和雷达通常已经在今天的车辆上部署在车辆上,但是相机雷达(CR)融合的性能落在LC Fusion后面 ...
0 0 0 2025/04/03 arXiv:2403.19104v1 漏视野

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)