一译 —— 文档和论文翻译、对照阅读、讨论和社区

ADA-Track++: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association

许多基于查询的 3D 多对象跟踪 (MOT) 方法采用注意力跟踪范例，利用跟踪查询进行身份一致检测，并利用对象查询进行与身份无关的跟踪生成。然而，注意力跟踪将检测和跟踪查询纠缠在一个嵌入中，用于检测和跟踪任务，这是次优的。其他方法类似于检测跟踪范例，使用解耦的跟踪和检测查询来检测对象，然后进行后续关联 ...

0 0 0 2025/03/19 arXiv:2405.08909v2 Flyingpz

Advancing Surgical VQA with Scene Graph Knowledge

现代手术室变得越来越复杂，需要创新的术中支持系统。尽管手术数据科学的重点主要是视频分析，但将手术计算机视觉与语言能力整合在一起是必要的。我们的工作旨在在手术环境中推进视觉问题答案（VQA），并通过场景图知识来解决当前手术VQA系统中的两个主要挑战：在手术VQA数据集中删除问题条件偏置，并在手术VQA模型设计中纳入场景意识的推理 ...

0 0 0 2025/03/19 arXiv:2312.10251v3 wangyadong

BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

在这项研究中，我们提出了一种新的，3d物体检测器，具有值得信赖的深度估计，称为bevdepth，用于基于相机的鸟瞰（bev）3d物体检测。我们的工作基于一个关键的观察————考虑到深度对于相机3d检测至关重要这一事实，最近方法中的深度估计令人惊讶地不足。我们的bevdepth通过利用显式深度监督解决了这个问题... ...

0 0 1 2025/03/19 arXiv:2206.10092v2 zxddddd

GenDeg: Diffusion-Based Degradation Synthesis for Generalizable All-in-One Image Restoration

近年来，基于多合一图像恢复（AIOR）的深度学习模型已取得了重大进步。但是，它们的实际适用性受到对培训分布以外的样本的不良概括的限制。这种限制主要源于现有数据集中降解变化和场景的多样性不足，从而导致现实情况的表示不足 ...

0 0 0 2025/03/19 arXiv:2411.17687v1 chy1998

SplitQuantV2: Enhancing Low-Bit Quantization of LLMs Without GPUs

大语言模型（LLM）的量化对于将其部署在具有有限的计算资源的设备上至关重要。与基本线性量化相比，高级量化算法提供了提高的性能，但它们通常需要高端图形处理单元（GPU），通常仅限于特定的深神经网络（DNN）框架，并且需要校准数据集。这种限制对在各种神经处理单元（NPU）和Edge AI设备上使用此类算法提出了挑战，这些设备具有多种模型格式和框架 ...

0 0 0 2025/03/19 arXiv:2503.07657v1 zhangxinyu

Reinforcement Learning is all You Need

受到DeepSeek R1在没有人类反馈的情况下推理方面的成功启发的启发，我们使用倒计时游戏培训了一个3B语言模型，并使用纯强化学习。我们的模型在五个基准测试中的四个基准都优于基准，这表明超出其训练数据的概括得到了改善。值得注意的是，响应长度与推理质量无关，而“啊哈矩”出现了，但它们并不总是产生正确的答案 ...

0 0 0 2025/03/19 arXiv:2503.09512v1 zed

APF+: Boosting adaptive-potential function reinforcement learning methods with a W-shaped network for high-dimensional games

近年来，奖励研究奖励成型（RL）的研究蓬勃发展，因为它的能力加快了训练的能力。我们以前的工作提出了自适应势函数（APF），并表明APF可以在低维域中使用多层感知算法加速Q-学习。本文建议使用一种使用状态编码方法将APF应用于基于像素的ATARI游戏，以将APF应用于基于像素的Atari游戏，以扩展APF（APF+），该方法将高维游戏的像素帧投影到低维嵌入式 ...

0 0 0 2025/03/19 arXiv:2503.13557v1 zhangxinyu

ControlNet-XS: Rethinking the Control of Text-to-Image Diffusion Models as Feedback-Control Systems

图像合成领域在过去几年中取得了巨大的进步。除了使用文本提示定义所需的输出图像之外，一种直观的方法是另外使用图像形式的空间指导，例如深度图。为此，最近非常流行的方法是使用控制网络（例如 ControlNet）与预训练的图像生成模型（例如稳定扩散）相结合 ...

0 0 0 2025/03/19 arXiv:2312.06573v2 lcs

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）