arxiv的文档

arxiv 南京

个性签名 ...

VILA: On Pre-training for Visual Language Models

随着大型语言模型最近的成功，视觉语言模型（VLM）迅速发展。人们在视觉指令调整方面做出了越来越多的努力，以通过视觉输入扩展 LLM ，但缺乏对视觉语言预训练过程的深入研究，其中模型学习对两种模式进行联合建模。在这项工作中，我们通过逐步可控比较将 LLM 增强到 VLM，从而检查 VLM 预训练的设计选项 ...

0 0 0 0 2025/07/28 arXiv:2312.07533v4 bb2234

Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling

安全且可行的轨迹计划对于现实世界自动驾驶系统至关重要。但是，现有的基于学习的计划方法通常依赖于专家演示，不仅缺乏明确的安全意识，而且有可能继承不安全的行为，例如从次优的人类驾驶数据中超越。受大语言模型成功的启发，我们提出了Plan-R1，这是一个新颖的两阶段轨迹计划框架，该框架将轨迹计划制定为一项顺序预测任务，并由明确的计划原则（例如安全，舒适性和交通规则规则）进行指导 ...

0 0 0 0 2025/07/28 arXiv:2505.17659v2 yebo92

Quantization and renormalization of the manifest left-right symmetric model of electroweak interactions

左右对称模型的量化和重新规定是本文的主要目的。首先，精确地讨论了带有一个bidoublet和两个三重态的希格斯扇区的树级模型。然后进行规范量化和Faddeev-Popov Lagrangian（'T Hooft Gauge） ...

0 0 0 0 2025/07/28 arXiv:hep-ph/9910279v1 Skylar.G.Lee

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

最近，已经提出了用于密集预测任务的各种视觉 Transformer 体系结构，它们表明，空间关注的设计对于他们在这些任务中的成功至关重要。在这项工作中，我们重新审视了空间关注的设计，并证明了精心设计而简单的空间注意机制对最先进的方案有利。结果，我们提出了两种视觉 Transformer 架构，即双胞胎-PCPVT和Twins-Svt ...

0 0 0 0 2025/07/28 arXiv:2104.13840v4 SGN001

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

我们介绍了CausalVQA，这是一个用于视频问题回答的基准数据集（VQA），该数据集由问答对组成，该数据探测了对物理世界中因果关系的理解。现有的VQA基准倾向于集中于对现实世界视频的表面知觉理解，或者使用模拟环境创建的狭窄物理推理问题。 CausalVQA通过提出基于现实世界情景的挑战性问题来填补一个重要的空白，同时着重于模型通过五种问题类型预测不同行动和事件的可能结果的能力：反事实，假设，预期，计划，计划和描述性 ...

0 0 0 0 2025/07/28 arXiv:2506.09943v1 orangelcx

Performance-aware Approximation of Global Channel Pruning for Multitask CNNs

Global Channel修剪（GCP）旨在从深层模型中删除不同层的频道（过滤器）的子集（过滤器），而不会伤害性能。以前的作品着重于单个任务模型修剪或简单地将其改编为多任务场景，并且在处理多任务处理时仍然面临以下问题：1）由于任务不匹配，分类任务的良好型主链侧链着重保留过滤器，该任务侧重于保存滤波器，可以提取类别的信息，可在其他任务中提取过滤镜，以使其他任务有用。 2）对于多任务预测，层之间或之间的不同过滤器比单个任务预测更紧密相关和交互，这使得多任务修剪更加困难。因此，针对多任务模型压缩，我们提出了一个性能感知的全球通道修剪（PAGCP）框架 ...

0 0 1 1 2025/07/28 arXiv:2303.11923v1 hong

VILA: On Pre-training for Visual Language Models

Plan-R1: Safe and Feasible Trajectory Planning as Language Modeling

Quantization and renormalization of the manifest left-right symmetric model of electroweak interactions

Twins: Revisiting the Design of Spatial Attention in Vision Transformers

CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models

Performance-aware Approximation of Global Channel Pruning for Multitask CNNs

Recurrent Expansion: A Pathway Toward the Next Generation of Deep Learning

TEQUILA: Temporal Question Answering over Knowledge Bases

GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild

ClArTTS: An Open-Source Classical Arabic Text-to-Speech Corpus

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）