一译 —— 文档和论文翻译、对照阅读、讨论和社区

WorDepth: Variational Language Prior for Monocular Depth Estimation

来自单个图像的三维（3D）重建是一个固有歧义的问题，即比例 ...

0 0 2 2025/06/04 arXiv:2404.03635v4 LiuAobin

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

在大规模的多模式数据集上预测的视觉语言模型（VLM）编码丰富的视觉和语言知识，使它们成为机器人技术的坚实基础。最近的方法没有从头开始训练机器人策略，而是将VLMS调整为视觉语言动作（VLA）模型，从而实现自然语言驱动的感知和控制。但是，现有的VLA通常是巨大的 - 通常带有数十亿个参数 - 领导着高训练成本和有限的现实可部署性 ...

0 0 0 2025/06/04 arXiv:2506.01844v1 fazai001

Knowledge Verification to Nip Hallucination in the Bud

虽然大型语言模型 (LLM) 在人类对齐后的各种任务中表现出了卓越的性能，但它们仍然可能产生听起来合理但与事实知识相矛盾的响应，这种现象称为 \emph{幻觉}。在本文中，我们通过验证和最小化对齐数据中存在的外部知识与基础法学硕士中嵌入的内在知识之间的不一致来证明减轻幻觉的可行性。具体来说，我们提出了一种称为知识一致性对齐（KCA）的新方法，该方法采用良好对齐的法学硕士根据外部知识自动制定评估，以 ...

0 0 0 2025/06/04 arXiv:2401.10768v5 一本书

MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection

由于 Transformer 的数据依赖性和大规模学习能力，深度学习的最新进展主要依赖于 Transformer。然而，这些架构中的注意力模块在输入大小上表现出二次时间和空间，限制了它们长序列建模的可扩展性。尽管最近尝试为多维数据（例如图像和多元时间序列）设计高效且有效的架构主干，但现有模型要么是数据独立的，要么无法允许维度间和维度内通信 ...

0 0 0 2025/06/04 arXiv:2403.19888v4 wgkooo

Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook

（（（））（城市计算通过利用不同来源（例如地理、交通、社交媒体和环境数据）的跨域数据融合的力量），成为可持续发展的关键学科，成为可持续发展的关键学科... ...

0 0 0 2025/06/04 arXiv:2402.19348v2 jeremychou

Numerical Differentiation-based Electrophysiology-Aware Adaptive ResNet for Inverse ECG Modeling

心电图成像旨在非侵入性地重建从身体表面ECG测量的心脏表面上的电动动态模式，从而有助于心脏功能的机械研究。 ECGI的核心是相反的心电图问题，这是一项数学条件不良的挑战，其中小的身体测量误差或噪声可能导致重建的心脏表面电位的明显不准确。我们以前的研究利用了一个发达的电生理（EP）模型，开发了一个epformform的深度学习框架，证明了在改善心脏地图预测方面的有益有效性 ...

0 0 0 2025/06/04 arXiv:2502.11378v1 lian

MambaIC: State Space Models for High-Performance Learned Image Compression

高性能图像压缩算法对于跨众多字段的实时信息传输至关重要。尽管在图像压缩方面取得了迅速的进展，但计算效率低下和冗余建模差仍会构成明显的瓶颈，从而限制了实际应用。受国家空间模型（SSM）在捕获长期依赖性方面的有效性的启发，我们利用SSM来解决现有方法中的计算效率低下，并从多个角度提高图像压缩 ...

0 0 0 2025/06/03 arXiv:2503.12461v2 luck

VisionReasoner: Unified Visual Perception and Reasoning via Reinforcement Learning

大型视觉模型具有固有的功能来处理各种视觉感知任务。在本文中，我们介绍了VisionReasoner，这是一个统一的框架，能够在共享模型中推理和解决多个视觉感知任务。具体而言，通过设计新颖的多对象认知学习策略和系统的任务重新重新制定，VisionReasoner增强了其推理能力以分析视觉投入，并在统一框架中解决了各种知觉任务 ...

0 0 0 2025/06/03 arXiv:2505.12081v3 dm616703

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）