arxiv的文档

arxiv 南京

个性签名 ...

ReconDreamer++: Harmonizing Generative and Reconstructive Models for Driving Scene Representation

将重建模型与生成模型相结合已成为自动驾驶中闭环模拟的有希望的范式。例如，Reconnemener在渲染大规模操作方面取得了巨大的成功。但是，生成的数据和现实世界传感器的观测值之间仍然存在一个显着的差距，尤其是在结构化元素（例如地面）方面 ...

0 0 0 0 2025/07/21 arXiv:2503.18438v1 orangelcx

Targetless Rotational Auto-Calibration of Radar and Camera for Intelligent Transportation Systems

大多数智能运输系统都将雷达传感器和相机的组合用于健壮的车辆感知。由于物理测量原理的不同和交通障碍的稀疏性，这些异质传感器类型在系统操作过程中以自动方式进行校准具有挑战性。据我们所知，我们提出了第一种自动旋转雷达相机校准的数据驱动方法，而无需专门的校准目标 ...

0 0 0 0 2025/07/21 arXiv:1904.08743v2 gho

GATE: General Arabic Text Embedding for Enhanced Semantic Textual Similarity with Matryoshka Representation Learning and Hybrid Loss Training

语义文本相似性（STS）是自然语言处理（NLP）的关键任务，可以在检索，聚类和理解文本之间的语义关系中实现应用程序。但是，由于缺乏高质量的数据集和预训练的模型，该领域的该领域的研究仍然有限。这种资源的稀缺性限制了阿拉伯文本中语义相似性的准确评估和提高 ...

0 0 0 0 2025/07/21 arXiv:2505.24581v1 wyj

Sadeed: Advancing Arabic Diacritization Through Small Language Model

由于语言的形态丰富性，阿拉伯文本的数字化仍然是自然语言处理中的持续挑战。在本文中，我们介绍了一种基于微调解码器的语言模型的新颖方法，该模型改编自Kuwain 1.5B 1.5B Hennara等人 ...

0 0 0 0 2025/07/21 arXiv:2504.21635v1 wyj

Video-ColBERT: Contextualized Late Interaction for Text-to-Video Retrieval

在这项工作中，我们解决了文本到视频检索的问题（T2VR）。受到文本文档，文本图像和文本视频检索的成功的启发，我们的方法，视频 - 柯尔伯特引入了一种简单有效的机制，用于查询和视频之间的细粒度相似性评估。视频 - 柯尔伯特建立在3个主要组成部分上：良好的空间和暂时 Token 的互动，查询和视觉扩展，以及训练过程中双重sigmoid损失 ...

0 0 0 0 2025/07/21 arXiv:2503.19009v1 guoxuter

Lost in OCR Translation? Vision-Based Approaches to Robust Document Retrieval

检索增强的一代（RAG）已成为一种流行的技术，可以通过将外部文档中的响应接地来增强大语言模型（LLM）的可靠性和实用性。传统的抹布系统依靠光学特征识别（OCR）将扫描文档首次处理为文本。但是，即使是最先进的OCR也会引入错误，尤其是在退化或复杂的文档中 ...

0 0 0 0 2025/07/21 arXiv:2505.05666v1 guoxuter

$π^3$: Scalable Permutation-Equivariant Visual Geometry Learning

我们介绍了$ \ pi^3 $，这是一种馈送前向神经网络，为视觉几何重建提供了一种新颖的方法，破坏了对常规固定参考视图的依赖。先前的方法通常将其重建锚定在指定的观点上，该观点是电感偏差，如果参考是次优的，可能导致不稳定和失败。相比之下，$ \ pi^3 $采用完全排列的等值架构来预测现代相机的姿势和规模不变的本地点映射，而无需任何参考帧 ...

0 0 1 3 2025/07/21 arXiv:2507.13347v1 kenshinx

Endo-Depth-and-Motion: Reconstruction and Tracking in Endoscopic Videos using Depth Networks and Photometric Constraints

估计场景重建和从体内视频的摄像机运动由于多种因素，例如体内腔的变形或缺乏纹理 ...

0 0 0 0 2025/07/21 arXiv:2103.16525v2 yaogansha

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

我们在图像表示中完全放弃了常规的空间先验，并引入了一种新颖的离散视觉 Token ：自稳态 Token 器（SelfTok）。在其设计核心上，我们通过使用图像生成的反向扩散过程组成了自回归（AR）先验（将语言的因果结构反映为视觉 Token ）。 The AR property makes Selftok fundamentally distinct from traditional spatial tokens in the following two key ways: - Selftok offers an elegant and minimalist approach to unify diffusion and AR for vision-language models (VLMs): By representing images with Selftok tokens, we can train a VLM using a purely discrete autoregressive architecture -- like that in LLMs -- without requiring additional modules or training objectives. ...

0 0 0 0 2025/07/21 arXiv:2505.07538v3 wangxiaolong

A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI

导航和操纵是体现AI的核心能力，但是在现实世界中具有这些功能的培训代理人面临高成本和时间的复杂性。因此，SIM到现实传输已成为关键方法，但SIM到实现的差距仍然存在。这项调查研究了物理模拟器如何通过分析以前的调查中忽略的属性来解决这一差距 ...

0 0 0 0 2025/07/21 arXiv:2505.01458v1 weanhear