KingXHJ的文档

KingXHJ

个性签名 ...

Image-based 3D Object Reconstruction: State-of-the-Art and Trends in the Deep Learning Era

3D重建是一个长期存在的不确定性问题，计算机视觉、计算机图形学和机器学习社区已经对此进行了近几年的探索。自2015年以来，利用三维神经网络（CNN）进行基于图像的3D重建引起了越来越多的兴趣，并表现出令人印象深刻的表现。在这个快速发展的新时代，论文主题领域的最新发展进行了全面的调查... ...

0 0 0 0 2024/12/01 arXiv:1906.06543v3 KingXHJ

Benchmarking Neural Radiance Fields for Autonomous Robots: An Overview

神经辐射场 (NeRF) 已成为 3D 场景表示的强大范例，可根据一组稀疏且非结构化的传感器数据提供高保真渲染和重建。在自主机器人领域，对环境的感知和理解至关重要，NeRF 在提高性能方面拥有巨大的希望。在本文中，我们对利用 NeRF 增强自主机器人能力的最先进技术进行了全面的调查和分析 ...

0 0 0 0 2024/07/23 arXiv:2405.05526v1 KingXHJ

Survey on Fundamental Deep Learning 3D Reconstruction Techniques

本次调查旨在研究基于深度学习 (DL) 的基础 3D 重建技术，这些技术可生成逼真的 3D 模型和场景，重点介绍神经辐射场 (NeRF)、潜在扩散模型 (LDM) 和 3D 高斯分布。我们剖析底层算法，评估它们的优势和权衡，并预测这个快速发展的领域的未来研究轨迹。我们全面概述了 DL 驱动的 3D 场景重建的基础知识，深入了解其潜在应用和局限性 ...

0 0 0 0 2024/07/23 arXiv:2407.08137v1 KingXHJ

Poly-MOT: A Polyhedral Framework For 3D Multi-Object Tracking

3D多目标跟踪（MOT）使移动机器人能够通过提供周围物体的运动记录来完成认知的运动规划和导航任务。然而，现有的3D MOT方法通常采用单一相似性和物理模型来对所有对象执行数据关联和状态估计。在大规模的现代数据集和真实场景中，有多种对象类别通常表现出独特的几何特性和运动模式…… ...

0 0 0 0 2024/10/22 arXiv:2307.16675v1 KingXHJ

DINO-Tracker: Taming DINO for Self-Supervised Point Tracking in a Single Video

我们推出了 DINO-Tracker——一种用于视频中长期密集跟踪的新框架。我们方法的支柱是将单个视频的测试时训练与预训练的 DINO-ViT 模型学习到的强大本地化语义特征相结合。具体来说，我们的框架同时采用 DINO 的特征来适应测试视频的运动观察，同时训练直接利用细化特征的跟踪器 ...

0 0 0 0 2024/07/15 arXiv:2403.14548v2 KingXHJ

AM-SORT: Adaptable Motion Predictor with Historical Trajectory Embedding for Multi-Object Tracking

许多多目标跟踪 (MOT) 方法采用卡尔曼滤波器作为运动预测器，假设速度恒定且滤波噪声呈高斯分布。这些假设使得基于卡尔曼滤波器的跟踪器在线性运动场景中有效。然而，在涉及非线性运动和遮挡的场景中估计未来对象位置时，这些线性假设是一个关键限制 ...

0 0 0 0 2024/07/15 arXiv:2401.13950v1 KingXHJ

RoboMamba: Multimodal State Space Model for Efficient Robot Reasoning and Manipulation

机器人布置的一个基本目标是使模型能够理解视觉场景并执行动作。尽管现有的机器人多模态大语言模型（MLLM）可以处理一系列基本任务，但它们仍然面临两个方面的挑战：1）处理复杂任务的推理能力不足，2）MLLM消耗和推理的计算成本较高。最近提出的称为Mamba的状态空间模型（SSM）在具有线性推理复杂性的非简单序列建模中展示了有前景的功能... ...

0 0 0 0 2024/12/12 arXiv:2406.04339v1 KingXHJ

Defending Against Social Engineering Attacks in the Age of LLMs

大型语言模型 (LLM) 的激增给检测和减轻数字欺骗带来了挑战，因为这些模型可以模拟人类对话模式并促进基于聊天的社会工程 (CSE) 攻击。本研究调查了 LLM 作为 CSE 威胁的促进者和防御者的双重能力。我们开发了一个新颖的数据集 SEConvo，模拟学术和招聘环境中的 CSE 场景，并旨在研究如何在这些情况下利用 LLM ...

0 0 0 0 2024/07/02 arXiv:2406.12263v1 KingXHJ

CherryRec: Enhancing News Recommendation Quality via LLM-driven Framework

大型语言模型（LLM）在语言理解和生成方面取得了显着的进步。利用文本特征的定制 LLM 已应用于推荐系统，展示了跨各种推荐场景的改进。然而，大多数现有方法基于预先训练的知识（例如，知识）执行未经训练的推荐 ...

0 0 0 0 2024/07/02 arXiv:2406.12243v1 KingXHJ

DiffuseMix: Label-Preserving Data Augmentation with Diffusion Models

最近，引入了许多基于图像混合的增强技术来提高深度神经网络的泛化能力。在这些技术中，将两个或多个随机选择的自然图像混合在一起以生成增强图像。此类方法不仅可能省略输入图像的重要部分，而且还会通过跨标签混合图像而引入标签模糊性，从而导致误导性的监督信号 ...

0 0 0 0 2024/06/11 arXiv:2405.14881v1 KingXHJ