KingXHJ的文档

KingXHJ

个性签名 ...

SuperGlue: Learning Feature Matching with Graph Neural Networks

本文介绍了 SuperGlue，一种神经网络，它通过共同寻找对应点并拒绝不可匹配的点来匹配两组局部特征。通过解决可微的最优传输问题来估计分配，其成本由图神经网络预测。我们引入了一种基于注意力的灵活上下文聚合机制，使 SuperGlue 能够联合推理底层 3D 场景和特征分配 ...

0 0 0 0 2024/12/16 arXiv:1911.11763v2 KingXHJ

GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction

我们提出了 GSD，一种基于高斯分布 (GS) 表示的扩散模型方法，用于从单个视图重建 3D 对象。之前的作品由于表示不当而存在 3D 几何不一致或渲染质量平庸的问题。我们通过利用最近最先进的 3D 显式表示、高斯分布和无条件扩散模型，朝着解决这些缺点迈出了一步 ...

0 0 0 0 2024/12/09 arXiv:2407.04237v4 KingXHJ

PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation

真实的对象交互对于创建沉浸式虚拟体验至关重要，但合成真实的 3D 对象动态以响应新颖的交互仍然是一项重大挑战。与无条件或文本条件动力学生成不同，动作条件动力学需要感知对象的物理材料属性，并将 3D 运动预测建立在这些属性（例如对象刚度）的基础上。然而，由于缺乏材料的真实数据，估计物理材料属性是一个悬而未决的问题，因为测量真实物体的这些属性非常困难 ...

0 0 0 0 2024/12/09 arXiv:2404.13026v2 KingXHJ

IKEA Manuals at Work: 4D Grounding of Assembly Instructions on Internet Videos

形状组装是日常生活中无处不在的任务，是构建宜家家具等复杂 3D 结构不可或缺的一部分。虽然在开发用于形状组装的自主代理方面取得了重大进展，但现有数据集尚未解决视频中组装指令的 4D 基础问题，而这对于随着时间的推移全面了解 3D 空间中的组装至关重要。我们介绍了 IKEA Video Manuals，这是一个数据集，其中包含家具零件的 3D 模型、指导手册、来自互联网的组装视频，最重要的是，这些数据模式之间的密集时空对齐注释 ...

0 0 0 0 2024/12/09 arXiv:2411.11409v1 KingXHJ

OASIS: Open Agent Social Interaction Simulations with One Million Agents

人们越来越有兴趣通过更现实的大语言模型（LLM）代理来增强社交媒体平台（即X、Reddit）的基于规则的代理模型（ABM），从而可以对复杂系统进行更细致的研究 ...

0 0 0 0 2024/12/09 arXiv:2411.11581v4 KingXHJ

Computational Bottlenecks of Training Small-scale Large Language Models

虽然大型语言模型 (LLM) 在人工智能领域占据主导地位，但由于消费者对成本和效率的要求，小型大型语言模型 (SLM) 也越来越受到关注。然而，关于 SLM 的训练行为和计算要求的研究有限。在本研究中，我们通过检查各种超参数和配置（包括 GPU 类型、批量大小、模型大小、通信协议、注意力类型和 GPU 数量）的影响，探索训练 SLM（最多 2B 个参数）的计算瓶颈 ...

0 0 0 0 2024/12/09 arXiv:2410.19456v2 KingXHJ

Automated 3D Physical Simulation of Open-world Scene with Gaussian Splatting

3D 生成模型的最新进展为模拟动态 3D 对象运动和自定义行为开辟了新的可能性，但创建此内容仍然具有挑战性。当前的方法通常需要手动分配精确的物理属性以进行模拟，或者依靠视频生成模型来预测它们，这是计算密集型的。在本文中，我们重新思考了多模态大语言模型 (MLLM) 在基于物理的仿真中的使用，并提出了 Sim Anything，这是一种基于物理的方法，赋予静态 3D 对象以交互动力学 ...

0 0 0 0 2024/12/01 arXiv:2411.12789v1 KingXHJ

SAMURAI: Adapting Segment Anything Model for Zero-Shot Visual Tracking with Motion-Aware Memory

Segment Anything Model 2 (SAM 2) 在对象分割任务中表现出了强大的性能，但在视觉对象跟踪方面面临挑战，特别是在管理具有快速移动或自遮挡对象的拥挤场景时。此外，原始模型中的固定窗口内存方法没有考虑为调节下一帧的图像特征而选择的内存的质量，导致视频中的错误传播。本文介绍了 SAMURAI，它是 SAM 2 的增强版本，专为视觉对象跟踪而设计 ...

0 0 0 0 2024/11/26 arXiv:2411.11922v1 KingXHJ

BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence

在实体智能系统中，一个关键组成部分是 3D 感知算法，它使智能体能够了解周围的环境。以前的算法主要依赖于点云，尽管点云提供了精确的几何信息，但由于固有的稀疏性、噪声和数据稀缺性，仍然限制了感知性能。在这项工作中，我们引入了一种新颖的以图像为中心的 3D 感知模型 BIP3D，它利用具有显式 3D 位置编码的表达图像特征来克服以点为中心的方法的局限性 ...

0 0 0 0 2024/11/26 arXiv:2411.14869v1 KingXHJ

Learning Visual Parkour from Generated Images

快速而准确的物理模拟是机器人学习的重要组成部分，机器人可以探索现实世界中难以产生的故障场景，并从无限的策略数据中学习。然而，将 RGB 颜色感知融入模拟到真实的管道中，使其与现实世界的丰富性和真实性相匹配，仍然具有挑战性。在这项工作中，我们模拟训练机器狗进行视觉跑酷 ...

0 0 0 0 2024/11/23 arXiv:2411.00083v1 KingXHJ