随着大型语言模型最近的成功,视觉语言模型(VLM)迅速发展。人们在视觉指令调整方面做出了越来越多的努力,以通过视觉输入扩展 LLM ,但缺乏对视觉语言预训练过程的深入研究,其中模型学习对两种模式进行联合建模。在这项工作中,我们通过逐步可控比较将 LLM 增强到 VLM,从而检查 VLM 预训练的设计选项 ...

0 0 0 0 2025/07/28 arXiv:2312.07533v4 bb2234

安全且可行的轨迹计划对于现实世界自动驾驶系统至关重要。但是,现有的基于学习的计划方法通常依赖于专家演示,不仅缺乏明确的安全意识,而且有可能继承不安全的行为,例如从次优的人类驾驶数据中超越。受大语言模型成功的启发,我们提出了Plan-R1,这是一个新颖的两阶段轨迹计划框架,该框架将轨迹计划制定为一项顺序预测任务,并由明确的计划原则(例如安全,舒适性和交通规则规则)进行指导 ...

0 0 0 0 2025/07/28 arXiv:2505.17659v2 yebo92

左右对称模型的量化和重新规定是本文的主要目的。首先,精确地讨论了带有一个bidoublet和两个三重态的希格斯扇区的树级模型。然后进行规范量化和Faddeev-Popov Lagrangian('T Hooft Gauge) ...

0 0 0 0 2025/07/28 arXiv:hep-ph/9910279v1 Skylar.G.Lee

最近,已经提出了用于密集预测任务的各种视觉 Transformer 体系结构,它们表明,空间关注的设计对于他们在这些任务中的成功至关重要。在这项工作中,我们重新审视了空间关注的设计,并证明了精心设计而简单的空间注意机制对最先进的方案有利。结果,我们提出了两种视觉 Transformer 架构,即双胞胎-PCPVT和Twins-Svt ...

0 0 0 0 2025/07/28 arXiv:2104.13840v4 SGN001

我们介绍了CausalVQA,这是一个用于视频问题回答的基准数据集(VQA),该数据集由问答对组成,该数据探测了对物理世界中因果关系的理解。现有的VQA基准倾向于集中于对现实世界视频的表面知觉理解,或者使用模拟环境创建的狭窄物理推理问题。 CausalVQA通过提出基于现实世界情景的挑战性问题来填补一个重要的空白,同时着重于模型通过五种问题类型预测不同行动和事件的可能结果的能力:反事实,假设,预期,计划,计划和描述性 ...

0 0 0 0 2025/07/28 arXiv:2506.09943v1 orangelcx

Global Channel修剪(GCP)旨在从深层模型中删除不同层的频道(过滤器)的子集(过滤器),而不会伤害性能。以前的作品着重于单个任务模型修剪或简单地将其改编为多任务场景,并且在处理多任务处理时仍然面临以下问题:1)由于任务不匹配,分类任务的良好型主链侧链着重保留过滤器,该任务侧重于保存滤波器,可以提取类别的信息,可在其他任务中提取过滤镜,以使其他任务有用。 2)对于多任务预测,层之间或之间的不同过滤器比单个任务预测更紧密相关和交互,这使得多任务修剪更加困难。因此,针对多任务模型压缩,我们提出了一个性能感知的全球通道修剪(PAGCP)框架 ...

0 0 1 1 2025/07/28 arXiv:2303.11923v1 hong

本文将经常性扩展(RE)作为一种新的学习范式介绍,超越了传统的机器学习(ML)和深度学习(DL)。尽管DL专注于从静态数据表示中学习,但RE提出了一个额外的维度:从模型本身不断发展的行为中学习。 RE通过相同的深度体系结构强调了数据的多次映射,并分析了它们的内部表示(i ...

0 0 0 0 2025/07/28 arXiv:2507.08828v1 kkkk

对知识库(KB-QA)回答的问题在处理需要分解为子问题的复杂问题时提出了挑战。在此处解决的一个重要情况是时间问题,需要发现和处理时间关系的线索。我们提出了龙舌兰酒,这是一种可以在任何KB-QA发动机顶部运行的时间质量质量质量质量质量质量标准的方法 ...

0 0 0 0 2025/07/28 arXiv:1908.03650v4 Shmily

大多数野外图像都以低动态范围(LDR)形式存储,作为对高动态范围(HDR)视觉世界的部分观察。尽管动态范围有限,但这些LDR图像通常被不同的暴露捕获,隐含地包含有关基础HDR图像分布的信息。受到这项直觉的启发,在这项工作中,我们呈现出了最好的知识,是从野外LDR图像收集中学习HDR图像的生成模型的第一种方法,以完全无监督的方式 ...

0 0 0 0 2025/07/28 arXiv:2211.12352v2 jennylove

目前,使用端到端神经模型对高质量转录语音数据进行训练的文本到语音(TTS)系统可以产生可理解,自然且与人类言语相似的语音。这些型号经过相对较大的单扬声器专业录制的音频培训,通常从有声读物中提取。同时,由于这种自由使用的语音语料库的稀缺性,阿拉伯语TTS的研发中存在较大的差距 ...

0 0 0 0 2025/07/28 arXiv:2303.00069v1 x50048765

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)