arxiv的文档

PromptIQA: Boosting the Performance and Generalization for No-Reference Image Quality Assessment via Prompts

由于IQA任务在不同应用场景下评估要求的多样性，现有的IQA方法很难在训练后直接适应这些不同的要求。因此，当面临新的需求时，典型的方法是在专门为这些需求创建的数据集上微调这些模型。然而，建立 IQA 数据集非常耗时。在这项工作中，我们提出了一种基于提示的 IQA（PromptIQA），可以直接适应新的要求，无需在训练后进行微调。一方面，它利用短序列的图像分数对（ISP）作为目标预测的提示，这显着减少了对数据要求的依赖。另一方面，PromptIQA 在混合数据集上进行训练，并采用两种提出的数据增强策略来学习不同的需求，从而使其能够有效地适应新的需求。实验表明，PromptIQA 优于 SOTA 方法，具有更高的性能和更好的泛化能力。该代码将可用 ...

0 0 0 0 2026/02/27 arXiv:2403.04993v1 18766604516

SafeMVDrive: Multi-view Safety-Critical Driving Video Synthesis in the Real World Domain

安全关键场景很少见，但对于评估和增强自动驾驶系统的稳健性至关重要。虽然现有方法可以生成安全关键的驾驶轨迹、模拟或单视图视频，但它们无法满足先进的端到端自主系统（E2E AD）的需求，该系统需要真实世界的多视图视频数据。为了弥补这一差距，我们推出了 SafeMVDrive，这是第一个旨在生成基于现实世界领域的高质量、安全关键、多视图驾驶视频的框架。 SafeMVDrive 战略性地将安全关键型轨迹生成器与先进的多视图视频生成器集成在一起。为了解决这种集成中固有的挑战，我们首先通过合并视觉上下文（以前此类生成器无法实现）来增强轨迹生成器的场景理解能力，并利用 GRPO 微调的视觉语言模型来实现更真实和上下文感知的轨迹生成。其次，认识到现有的多视图视频生成器难以渲染真实的碰撞事件，我们引入了一种两阶段的可控轨迹生成机制，可以产生碰撞规避轨迹，从而确保视频质量和安全关键的保真度。最后，我们采用基于扩散的多视图视频生成器从生成的轨迹合成高质量的安全关键驾驶视频。在 E2E AD 规划器上进行的实验表明，使用我们生成的数据进行测试时，碰撞率显着增加，验证了 SafeMVDrive 在压力测试规划模块中的有效性。我们的代码、示例和数据集可在以下网址公开获取：此 https URL ...

0 1 0 0 2026/02/27 arXiv:2505.17727v1 泥腿子

ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation

尽管设计中没有考虑特定的领域知识，但普通视觉 Transformer 在视觉识别任务中表现出了出色的性能。然而，很少有人努力揭示这种简单结构在姿态估计任务中的潜力。在本文中，我们通过一个名为 ViTPose 的简单基线模型，从各个方面展示了普通视觉 Transformer 在姿态估计方面令人惊讶的良好能力，即模型结构的简单性、模型大小的可扩展性、训练范式的灵活性以及模型之间知识的可转移性。具体来说，ViTPose 采用简单且非分层的视觉转换器作为骨干来提取给定人物实例的特征，并使用轻量级解码器进行姿势估计。利用可扩展的模型容量和Transformer的高并行性的优势，可以将参数从100M扩展到1B，在吞吐量和性能之间建立了新的Pareto前沿。此外，ViTPose 在注意力类型、输入分辨率、预训练和微调策略以及处理多个姿势任务方面非常灵活。我们还凭经验证明，大型 ViTPose 模型的知识可以通过简单的知识 Token 轻松转移到小型模型。实验结果表明，我们的基本 ViTPose 模型在具有挑战性的 MS COCO 关键点检测基准上优于代表性方法，而最大的模型设定了新的最先进技术。代码和模型可从此 https URL 获取 ...

0 0 0 0 2026/02/27 arXiv:2204.12484v3 susu_kk

CoBEV: Elevating Roadside 3D Object Detection with Depth and Height Complementarity

路边摄像头驱动的 3D 物体检测是智能交通系统中的一项关键任务，它扩展了感知范围，超越了以视觉为中心的车辆的限制，并增强了道路安全。虽然以前的研究在仅使用深度或高度信息方面存在局限性，但我们发现深度和高度都很重要，而且它们实际上是互补的。深度特征包含精确的几何线索，而高度特征主要侧重于区分各种类别的高度间隔，本质上提供语义上下文。这一见解推动了 Complementary-BEV (CoBEV) 的开发，这是一种新颖的端到端单目 3D 物体检测框架，它集成了深度和高度以构建稳健的 BEV 表示。本质上，CoBEV 估计每个像素的深度和高度分布，并使用新提出的两阶段互补特征选择 (CFS) 模块将相机特征提升到 3D 空间中进行横向融合。 BEV 特征蒸馏框架也被无缝集成，以进一步提高融合模式 CoBEV 教师的先验知识的检测精度。我们对基于路边摄像头的 DAIR-V2X-I 和 Rope3D 的公共 3D 检测基准以及私有 Supremind-Road 数据集进行了广泛的实验，证明 CoBEV 不仅达到了新的最先进的精度，而且还显着提高了先前方法在挑战长距离场景和噪声摄像头干扰方面的鲁棒性，并在场景和摄像头参数发生剧烈变化的异源设置中大幅增强了泛化能力。在简单模式下，DAIR-V2X-I 上相机型号的车辆 AP 分数首次达到 80%。源代码将在此 https URL 上公开提供 ...

0 0 0 0 2026/02/27 arXiv:2310.02815v3 wxt

RAPID-LLM: Resilience-Aware Performance analysis of Infrastructure for Distributed LLM Training and Inference

RAPID-LLM 是一个统一的性能建模框架，用于 GPU 集群上的大型语言模型 (LLM) 训练和推理。它将基于 DeepFlow 的前端与扩展的 Astra-Sim 后端相结合，该前端根据抽象的 LLM 规范（模型形状、批处理/序列设置、训练与推理以及混合并行性选择）生成硬件感知的操作员级 Chakra 执行跟踪，而扩展的 Astra-Sim 后端则在显式多维网络拓扑上执行这些跟踪，并具有拥塞感知路由并支持降级和故障链路。前端使用基于图块的模型分配每个操作员的延迟，该模型考虑了 SM 未充分利用和多级内存流量（SRAM/L2/HBM），并使用重新计算、并行性和 ZeRO/FDSP 分片策略下的激活-活跃度遍历来修剪内存不可行的配置。在基于 A100 的验证案例中，RAPID-LLM 预测每批的 Llama 推理步骤延迟和 GPT 规模训练时间相对于已发布的测量结果误差在 10.4% 以内，并且在代表性通信工作负载上与 ns-3 数据包级结果的匹配误差在 8% 以内。案例研究展示了 RAPID-LLM 如何实现对混合并行配置的快速、详尽的扫描，量化实际路由和拥塞情况下对软链接故障的敏感度，以及评估假设的 GPU 设计变体（包括 HBM 带宽节流效应） ...

0 0 0 0 2026/02/27 arXiv:2512.19606v1 AquupAQ

Generative Video Motion Editing with 3D Point Tracks

摄像机和物体运动是视频叙事的核心。然而，精确编辑这些捕获的运动仍然是一个重大挑战，特别是在复杂的物体运动下。当前的运动控制图像到视频 (I2V) 方法通常缺乏用于一致视频编辑的全场景上下文，而视频到视频 (V2V) 方法提供视点更改或基本对象转换，但对细粒度对象运动的控制有限。我们提出了一个跟踪调节的 V2V 框架，可以对摄像机和物体运动进行联合编辑。我们通过在源视频和代表源运动和目标运动的成对 3D 点轨迹上调节视频生成模型来实现这一点。这些 3D 轨道建立稀疏对应关系，将丰富的上下文从源视频转移到新的动作，同时保持时空连贯性。至关重要的是，与 2D 轨迹相比，3D 轨迹提供了明确的深度提示，允许模型解析深度顺序并处理遮挡以进行精确的运动编辑。我们的模型经过合成数据和真实数据的两个阶段的训练，支持多种运动编辑，包括联合相机/对象操纵、运动传输和非刚性变形，释放视频编辑中的新创意潜力 ...

0 0 0 0 2026/02/27 arXiv:2512.02015v1 陆三七

LLM-based Realistic Safety-Critical Driving Video Generation

设计多样化且安全关键的驾驶场景对于评估自动驾驶系统至关重要。在本文中，我们提出了一种新颖的框架，该框架利用大型语言模型（LLM）进行几次代码生成，以自动合成 CARLA 模拟器中的驾驶场景，该框架具有场景脚本的灵活性、对交通参与者的高效基于代码的控制以及现实物理动力学的执行。给定一些示例提示和代码示例， LLM 会生成安全关键场景脚本，指定交通参与者的行为和位置，特别关注碰撞事件。为了弥合模拟与真实外观之间的差距，我们使用 Cosmos-Transfer1 与 ControlNet 集成了视频生成管道，将渲染的场景转换为逼真的驾驶视频。我们的方法能够生成可控的场景，并有助于创建罕见但关键的边缘情况，例如遮挡下的人行横道或车辆突然切入。实验结果证明了我们的方法在生成各种现实、多样化和安全关键场景方面的有效性，为自动驾驶汽车的基于模拟的测试提供了一个有前景的工具 ...

0 0 0 0 2026/02/27 arXiv:2507.01264v1 泥腿子

Silkie: Preference Distillation for Large Visual Language Models

本文探讨了大型视觉语言模型 (LVLM) 的偏好蒸馏，提高其生成锚定视觉上下文的有用且忠实的响应的能力。我们首先利用人工智能注释构建视觉语言反馈（VLFeedback）数据集。具体来说，响应是由从 12 个 LVLM 采样的模型生成的，以来自各种数据集的多模式指令为条件。我们采用 GPT-4V 来评估生成的输出的有用性、视觉忠实度和道德考虑。此外，偏好监督通过直接偏好优化（DPO）方法被提炼到 Qwen-VL-Chat 中。由此产生的模型 Silkie 在 MME 基准的感知和认知能力方面分别实现了 6.9% 和 9.5% 的相对改进。 Silkie 还通过在 MMHal-Bench 基准上设定新的最先进分数 3.02 来减少幻觉。进一步的分析表明，使用我们的 VLFeedback 数据集的 DPO 主要提高了 LVLM 的细粒度感知和复杂认知能力，与人类注释的偏好数据集相比，带来了更全面的改进 ...

0 0 0 0 2026/02/27 arXiv:2312.10665v1 zl1994

DSDL: Data Set Description Language for Bridging Modalities and Tasks in AI Data

在人工智能时代，数据模态和标注格式的多样性往往导致数据无法直接使用，需要理解和格式转换才能被有不同需求的研究人员或开发人员使用。为了解决这个问题，本文引入了一个名为数据集描述语言（DSDL）的框架，旨在通过为人工智能数据集提供统一的标准来简化数据集处理。 DSDL遵循通用、可移植、可扩展三个基本实用原则，使用统一的标准来表达不同模态和结构的数据，方便AI数据的传播，并轻松扩展到新的模态和任务。 DSDL的标准化规范减少了用户在数据分发、处理和使用方面的工作量。为了进一步提高用户便利性，我们为各种任务提供预定义的 DSDL 模板，转换主流数据集以符合 DSDL 规范，并提供全面的文档和 DSDL 工具。这些努力旨在简化人工智能数据的使用，从而提高人工智能开发的效率 ...

0 0 0 0 2026/02/27 arXiv:2405.18315v1 erhaya

On Protecting Agentic Systems' Intellectual Property via Watermarking

大型语言模型 (LLM) 发展为执行自主推理和工具使用的代理系统，创造了巨大的知识产权 (IP) 价值。我们证明这些系统非常容易受到模仿攻击，对手通过在受害者输出上训练模仿模型来窃取专有功能。至关重要的是，现有的 LLM 水印技术在这个领域失败了，因为现实世界的代理系统通常作为灰盒运行，隐藏了验证所需的内部推理痕迹。本文介绍了 AGENTWM，这是第一个专门为代理模型设计的水印框架。 AGENTWM 利用动作序列的语义等价性，通过巧妙地偏置功能相同的工具执行路径的分布来注入水印。这种机制允许 AGENTWM 将可验证的信号直接嵌入到可见的动作轨迹中，同时保持用户无法区分。我们开发了一个自动化管道来生成强大的水印方案和严格的统计假设测试程序以进行验证。跨三个复杂领域的广泛评估表明，AGENTWM 实现了很高的检测精度，同时对代理性能的影响可以忽略不计。我们的结果证实，AGENTWM 可以有效保护代理 IP 免受自适应对手的攻击，这些对手无法在不严重降低被盗模型的实用性的情况下删除水印 ...

0 0 0 0 2026/02/27 arXiv:2602.08401v1 admin1