Roa的文档

Roa

个性签名 ...

PCP-MAE: Learning to Predict Centers for Point Masked Autoencoders

屏蔽自动编码器在点云自监督学习中得到了广泛的探索，其中点云通常分为可见部分和屏蔽部分。这些方法通常包括编码器接受可见补丁（标准化）和相应的补丁中心（位置）作为输入，解码器接受编码器的输出和屏蔽部分的中心（位置）以重建屏蔽补丁中的每个点。然后，预训练的编码器用于下游任务 ...

0 0 0 0 2024/12/24 arXiv:2408.08753v2 Roa

Few-Shot 3D Point Cloud Semantic Segmentation via Stratified Class-Specific Attention Based Transformer Network

3D点云语义分割旨在将所有点分为不同的语义类别，这有利于点云场景重建和理解等重要应用。现有的监督点云语义分割方法通常需要大规模注释点云进行训练，并且无法处理新类别。虽然最近提出了少样本学习方法来解决这两个问题，但它由于图构造而导致计算复杂度较高，并且由于使用池化操作而无法学习点之间的细粒度关系 ...

0 0 0 0 2024/12/24 arXiv:2303.15654v1 Roa

Point-GN: A Non-Parametric Network Using Gaussian Positional Encoding for Point Cloud Classification

本文介绍了 Point-GN，一种新型非参数网络，用于高效、准确的 3D 点云分类。与依赖大量可训练参数的传统深度学习模型不同，Point-GN 利用了不可学习的组件，特别是最远点采样 (FPS)、k 最近邻 (k-NN) 和高斯位置编码 (GPE) -提取局部和全局几何特征。这种设计无需额外的培训，同时保持高性能，使 Point-GN 特别适合实时、资源受限的应用程序 ...

0 0 0 0 2024/12/16 arXiv:2412.03056v2 Roa

GPSFormer: A Global Perception and Local Structure Fitting-based Transformer for Point Cloud Understanding

尽管点云理解的预训练方法取得了显着进步，但在不依赖外部数据的情况下直接从不规则点云捕获复杂的形状信息仍然是一个艰巨的挑战。为了解决这个问题，我们提出了 GPSFormer，一种创新的基于全局感知和局部结构拟合的 Transformer，它能够以极高的精度从点云中学习详细的形状信息。 GPSFormer的核心是全局感知模块（GPM）和局部结构拟合卷积（LSFConv） ...

0 0 0 0 2024/12/13 arXiv:2407.13519v2 Roa

Rethinking Network Design and Local Geometry in Point Cloud: A Simple Residual MLP Framework

由于数据结构的不规则性和无序性，点云分析具有挑战性。为了捕获 3D 几何形状，先前的工作主要依赖于使用卷积、图或注意机制探索复杂的局部几何提取器。然而，这些方法在推理过程中会产生不利的延迟，并且性能在过去几年中已经饱和 ...

0 0 0 0 2024/12/12 arXiv:2202.07123v2 Roa

PointContrast: Unsupervised Pre-training for 3D Point Cloud Understanding

可以说，深度学习最成功的案例之一就是迁移学习。研究发现，在丰富的源集（例如 ImageNet）上预训练网络，一旦在通常较小的目标集上进行微调，就可以帮助提高性能，这对于语言和视觉领域的许多应用都有帮助 ...

0 0 0 0 2024/12/12 arXiv:2007.10985v3 Roa

Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning

图像域中视觉变换器 (ViT) 的对比学习 (CL) 已实现与传统卷积主干的 CL 相当的性能。然而，在使用 ViT 的 3D 点云预训练中，掩模自动编码器 (MAE) 建模仍然占主导地位。这就提出了一个问题：我们能否两全其美？为了回答这个问题，我们首先凭经验验证，将基于 MAE 的点云预训练与标准对比学习范式相结合，即使经过精心设计，也会导致性能下降 ...

0 0 0 0 2024/12/12 arXiv:2407.05862v1 Roa

GPr-Net: Geometric Prototypical Network for Point Cloud Few-Shot Learning

在 3D 计算机视觉应用领域，点云小样本学习起着至关重要的作用。然而，由于数据的稀疏性、不规则性和无序性，它提出了艰巨的挑战。当前的方法依赖于复杂的局部几何提取技术，例如卷积、图和注意力机制，以及广泛的数据驱动的预训练任务 ...

0 0 0 0 2024/12/09 arXiv:2304.06007v1 Roa

Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition

目前的少镜头动作识别方法主要属于ProtoNet之后的度量学习框架，这说明了原型的重要性。尽管它们取得了相对较好的性能，但忽略了多模态信息的影响，例如 ...

0 0 0 0 2024/12/08 arXiv:2212.04873v3 Roa

Prompt-and-Transfer: Dynamic Class-aware Enhancement for Few-shot Segmentation

为了更有效地泛化到未见过的域（类），大多数少样本分割（FSS）将直接利用预先训练的编码器，并且仅对解码器进行微调，特别是在当前大型模型的时代。然而，这种固定特征编码器往往与类无关，不可避免地激活与目标类无关的对象。相比之下，人类可以毫不费力地将注意力集中在视线中的特定物体上 ...

0 0 0 0 2024/12/08 arXiv:2409.10389v1 Roa