一译 —— 文档和论文翻译、对照阅读、讨论和社区

Benchmarking Vision-Language Models on Chinese Ancient Documents: From OCR to Knowledge Reasoning

中国古老的文件，中国历史和文化的千年载体，在各种领域拥有丰富的知识，但是在数字化和理解中面临挑战，即传统方法仅扫描图像，而当前的视觉模型（VLMS）则与其视觉和语言复杂性斗争 ...

0 0 0 2025/09/29 arXiv:2509.09731v1 xuruipeng

Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning

过程强化学习〜（PRL）在增强大语言模型（LLMS）的推理能力方面具有巨大的潜力。但是，引入其他流程奖励模型会带来大量的计算开销，并且没有用于过程级优势估计的统一理论框架。要弥合这一差距，我们提出\ textbf {s} elf引导\ textbf {p} rocess \ textbf {r}从策略模型本身中本质上，（2）我们引入了定义明确的累积过程奖励，\ textbf {m}询问\ text ...

0 0 0 2025/09/29 arXiv:2507.01551v2 lyg

Efficient Diffusion Transformer Policies with Mixture of Expert Denoisers for Multitask Learning

扩散策略已被广泛用于模仿学习，提供了几种吸引人的特性，例如产生多模式和不连续的行为。随着模型越来越大以捕获更复杂的功能，其计算需求增加，如最近的缩放定律所示。因此，继续当前的体系结构将呈现一个计算障碍 ...

0 0 0 2025/09/29 arXiv:2412.12953v1 kavin

Steerable Adversarial Scenario Generation through Test-Time Preference Alignment

对抗场景生成是一种具有成本效益的自动驾驶系统安全评估的方法。但是，现有方法通常被限制在竞争目标（例如对抗性和现实主义）之间的一个固定权衡。这产生了特定于行为的模型，这些模型在推理时间无法转动，缺乏为各种培训和测试要求生成量身定制的方案的效率和灵活性 ...

0 0 0 2025/09/29 arXiv:2509.20102v1 布朗瓶

LINEA: Fast and Accurate Line Detection Using Scalable Transformers

线路检测是高级处理方法使用的基本数字图像处理操作。最近，基于 Transformer 的线检测方法已被证明比基于CNN的方法更准确，而牺牲了明显较低的推理速度。结果，需要低潜伏期的视频分析方法不能从基于当前的基于 Transformer 的线路检测方法中受益 ...

0 0 0 2025/09/29 arXiv:2505.16264v1 zcr10086

MLP-Offload: Multi-Level, Multi-Path Offloading for LLM Pre-training to Break the GPU Memory Wall

训练LLM大于多个GPU的汇总内存，由于LLM尺寸的增长与GPU记忆相比，越来越多的多个GPU。为此，多层主机存储器或磁盘卸载技术是由艺术状态提出的。尽管先进的异步多层读/写策略，但这种卸载策略在训练的关键道路上导致了大量的I/O间接费用，从而导致迭代较慢 ...

0 0 0 2025/09/29 arXiv:2509.02480v1 18366114693

Cut-and-Splat: Leveraging Gaussian Splatting for Synthetic Data Generation

生成合成图像是廉价获取用于训练计算机视觉模型的标记数据的有用方法。但是，必须获得相关对象的准确的3D模型，并且由于模拟照明效果和相机伪像的挑战，所得图像通常在现实主义方面存在差距。我们建议使用称为高斯脱落的新型视图合成方法来应对这些挑战 ...

0 0 0 2025/09/29 arXiv:2504.08473v1 zhanguanglun

DriveSplat: Decoupled Driving Scene Reconstruction with Geometry-enhanced Partitioned Neural Gaussians

在驾驶场景的领域中，迅速移动的车辆，运动中的行人和大规模静态背景的存在对3D场景重建构成了重大挑战。基于3D高斯脱落的最新方法通过将场景中的动态和静态组件解耦来解决运动模糊问题。但是，这些去耦策略通过足够的几何关系忽略了背景优化，而仅依靠通过添加高斯人来适应每个训练视图 ...

0 0 0 2025/09/29 arXiv:2508.15376v3 zhanguanglun

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）