arxiv HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space

名称
HVT: A Comprehensive Vision Framework for Learning in Non-Euclidean Space
首页
https://yiyibooks.cn/arxiv/2409.16897v2/index.html
原始地址
https://arxiv.org/abs/2409.16897
描述
事实证明,非欧几里得空间中的数据表示对于捕获现实数据集中的层次结构和复杂关系是有效的。特别是双曲空间为分层结构提供了有效的嵌入。本文介绍了双曲视觉变换器(HVT),它是集成双曲几何的视觉变换器(ViT)的新型扩展。虽然传统的 ViT 在欧几里得空间中运行,但我们的方法通过利用双曲距离和莫比乌斯变换来增强自注意力机制。这使得能够更有效地对图像数据中的层次结构和关系依赖性进行建模。我们提出了严格的数学公式,展示了如何将双曲几何纳入注意力层、前馈网络和优化中。我们使用 ImageNet 数据集提供改进的图像分类性能 ...