一译 —— 文档和论文翻译、对照阅读、讨论和社区

Activating Distributed Visual Region within LLMs for Efficient and Effective Vision-Language Training and Inference

大型视觉模型（LVLM）通常通过视觉说明调整来学习视觉能力，涉及对投影仪及其LLM骨架的更新。 Inspired by the concept of a visual region in the human brain, we investigate the existence of an analogous \textit{visual region} within LLMs that func ...

0 0 0 2025/09/04 arXiv:2412.12785v2 vvei

Solving Instance Detection from an Open-World Perspective

实例检测（INSDET）旨在基于给定的视觉参考文献将特定的对象实例本地定位。从技术上讲，它需要提案检测以识别所有可能的对象实例，然后进行实例级匹配，以查明关注的对象实例。其开放世界的性质支持其从机器人技术到AR/VR的广泛应用，但也提出了重大挑战：方法必须推广到未知的测试数据分布，因为（1）测试场景图像在培训期间看不见，并且（2）视觉参考和检测到的建议之间存在域间隙 ...

0 0 0 2025/09/04 arXiv:2503.00359v2 19396386025

DS-Depth: Dynamic and Static Depth Estimation via a Fusion Cost Volume

自我监督的单眼深度估计方法通常依赖于再投影误差来捕获静态环境中连续帧之间的几何关系。但是，此假设在场景中的动态对象中不存在，从而导致视图合成阶段的错误，例如特征不匹配和遮挡，这可以显着降低生成的深度图的准确性。为了解决这个问题，我们提出了一个新颖的动态成本量，该动态成本量会利用残留的光流以描述移动对象，从而改善了先前工作中使用的静态成本量的错误遮挡区域 ...

0 0 0 2025/09/04 arXiv:2308.07225v1 LiuAobin

Exploring Representations and Interventions in Time Series Foundation Models

时间序列基础模型（TSFM）有望成为广泛应用程序的强大工具。但是，他们的内部表现和学到的概念仍然不太了解。在这项研究中，我们研究了各种TSFM的表示形式的结构和冗余，研究了不同模型尺寸内和跨不同模型尺寸的模型层的自相似性 ...

0 0 0 2025/09/04 arXiv:2409.12915v5 haoyb22

LM-Gaussian: Boost Sparse-view 3D Gaussian Splatting with Large Model Priors

我们的目标是通过利用大规模视觉模型的先验来解决 3D 场景的稀疏视图重建问题。虽然 3D 高斯分布 (3DGS) 等最新进展在 3D 重建方面取得了显着的成功，但这些方法通常需要数百张输入图像来密集捕获底层场景，这使得它们对于现实世界的应用来说既耗时又不切实际。然而，稀疏视图重建本质上是不适定且约束不足的，通常会导致较差且不完整的结果 ...

0 0 0 2025/09/04 arXiv:2409.03456v3 zhanguanglun

ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World

大型语言模型（LLM）的快速进步激发了人们对在图形用户界面（GUI）环境中建立人工通用智能（AGI）的日益兴趣。但是，基于LLM或视觉模型（VLM）的现有GUI代理通常无法推广到新颖的环境，并且严重依赖手动策划的，多样化的数据集。为了克服这些局限性，我们引入了Screenexplorer，这是一种通过实际，动态和开放式GUI环境中的小组相对策略优化（GRPO）训练的VLM ...

0 0 0 2025/09/04 arXiv:2505.19095v1 swaydy

PVT++: A Simple End-to-End Latency-Aware Visual Tracking Framework

视觉对象跟踪对于智能机器人至关重要。大多数现有方法都忽略了在现实处理过程中可能导致严重性能下降的在线潜伏期。特别是对于无人驾驶汽车（UAV），强大的跟踪更具挑战性并且在车载计算有限的情况下，潜伏期问题可能是致命的 ...

0 0 0 2025/09/04 arXiv:2211.11629v3 lunwenfanyi

One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist

图像字幕对视频说明系统和勘探机器人等应用是基本的，但是由于多模式大语言模型（MLLMS）的高计算需求，在本地设备上部署此类模型是具有挑战性的。为了解决这个问题，我们首先通过基于125m参数语言模型实现专家，比Llama-7B小56倍，并评估其在单句子和详细的字幕任务上的性能。令人惊讶的是，我们发现我们的模型可以实现与大型多模式通才相媲美的性能，这表明其具有强大视觉专家的潜力 ...

0 0 0 2025/09/04 arXiv:2508.21451v1 KingXHJ

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）