一译 —— 文档和论文翻译、对照阅读、讨论和社区

Car-GS: Addressing Reflective and Transparent Surface Challenges in 3D Car Reconstruction

3D汽车建模对于在自动驾驶系统，虚拟和增强现实和游戏中的应用至关重要。但是，由于汽车的独特特性（例如高反射性和透明的表面材料），现有的方法通常难以实现准确的3D汽车，我们提出了CAR-GS，这是一种新的方法，一种新的方法，旨在减轻镜头的效果，旨在减轻RGB和3D几何和阴影的RGB和WEMOMETRY（3d decometry）的影响（3d gememitry（3d ded）。我们的方法结合了三个关 ...

0 0 0 2025/03/22 arXiv:2501.11020v1 xubiao

Hydra-MDP++: Advancing End-to-End Driving via Expert-Guided Hydra-Distillation

Hydra-MDP ++介绍了一个新颖的教师知识蒸馏框架，该框架具有多头解码器，该解码器从人类示范和基于规则的专家中学习。该框架使用轻巧的Resnet-34网络，并结合了扩展的评估指标，包括交通信号灯合规性（TL），巷道维护能力（LK）和扩展舒适度（EC），以解决传统NAVSIM衍生老师未捕获的不安全行为。像其他端到端自动驾驶方法一样，\ hydra直接处理原始图像，而无需依赖特权的感知信号 .. ...

0 0 0 2025/03/22 arXiv:2503.12820v1 chenlei

FINECAPTION: Compositional Image Captioning Focusing on Wherever You Want at Any Granularity

大型视觉模型（VLM）的出现具有显着高级的多模式任务，可以在各种应用程序中更加复杂和准确的推理，包括图像和视频字幕，视觉询问答案以及跨模式检索。尽管具有出色的能力，但VLM与细粒度图像区域组成信息感知斗争。具体而言，它们很难准确地使分割掩模与相应的语义对齐，并精确地描述了引用区域的组成方面 ...

0 0 0 2025/03/22 arXiv:2411.15411v1 wjpoom

DHRNet: A Dual-Path Hierarchical Relation Network for Multi-Person Pose Estimation

多人姿势估计（MPPE）在计算机视觉中提出了巨大但至关重要的挑战。大多数现有方法主要集中在实例或关节之间的孤立相互作用上，这对于要求同时定位的场景和关节不足。本文介绍了一种新型的基于CNN的单阶段方法，称为双路线分层关系网络（DHRNET），以同时提取实例对之间和联合结合相互作用 ...

0 0 0 2025/03/22 arXiv:2404.14025v2 sikandert.wang

A Survey of Deep Learning-based Radiology Report Generation Using Multimodal Data

自动放射学报告的生成可以减轻医生的工作量，并最大程度地减少医疗资源的区域差异，从而成为医学图像分析领域的重要主题。这是一项具有挑战性的任务，因为计算模型需要模仿医生以从多模式输入数据获取信息（即 ...

0 0 0 2025/03/22 arXiv:2405.12833v2 hei1046

Bayesian Deep Learning for Remaining Useful Life Estimation via Stein Variational Gradient Descent

预测维护的关键任务是估计物理系统的剩余使用寿命。在过去的十年中，就预测性能而言，深度学习在传统的基于模型和统计方法方面有了很大的改善。但是，为了最佳计划维护操作，量化预测固有的不确定性也很重要 ...

0 0 0 2025/03/22 arXiv:2402.01098v1 zzh5560

GEVRM: Goal-Expressive Video Generation Model For Robust Visual Manipulation

随着体现人工智能的快速发展，在视力语言行动（VLA）模型中，为一般机器人决策做出了重大进展。但是，大多数现有的VLA无法解决部署期间遇到的必然外部扰动。这些扰动将不可预见的状态信息引入了VLA，导致行动不准确，因此概括性能的大幅下降 ...

0 0 0 2025/03/22 arXiv:2502.09268v2 蔡明方

JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

最近，在开放世界环境中基于动作的决策引起了极大的关注。在大规模Web数据集上预处理的视觉语言动作（VLA）模型在决策任务中显示了希望。但是，以前的工作主要集中在训练后的行动上，通常忽略了对基础模型本身的增强 ...

0 0 0 2025/03/22 arXiv:2503.16365v1 蔡明方

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）