一译 —— 文档和论文翻译、对照阅读、讨论和社区

OmniAudio: Generating Spatial Audio from 360-Degree Video

传统的视频到原告的生成技术主要集中于视频和非空间音频，通常会缺少准确代表3D环境中声源所需的空间提示。为了解决这一限制，我们介绍了一个新颖的任务360V2SA，以从360度视频中生成空间音频，专门生产一阶Ambisonics（FOA）音频 - 一种标准格式，用于代表3D空间音频，可捕获音方向性并启用现实主义3D Audio Recrodigation。我们首先创建Sphere360，这是一种针对此 ...

0 0 0 2025/08/23 arXiv:2504.14906v3 melo_0925

VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models

视觉语言模型（VLM）越来越多地在广泛的应用中使用，将其安全性和行为控制置于最前沿。尽管现有的行为控制或输出重定向（例如在VLMS中的系统提示）易于检测且通常是无效的基于激活的转向向量的方法，需要对模型内部设备的侵入性运行时访问，这与基于API的服务和封闭式服务部署不复存在。我们介绍了遮阳板（基于视觉输入的转向输出重定向），这是一种新型方法，可通过仅通过优化的视觉输入来实现复杂的行为控制 ...

0 0 0 2025/08/23 arXiv:2508.08521v1 hhhhh

VEAttack: Downstream-agnostic Vision Encoder Attack against Large Vision Language Models

大型视觉模型（LVLM）在多模式的理解和产生中表现出显着的能力，但是它们对对抗性攻击的脆弱性引起了重大的鲁棒性关注。尽管现有的有效攻击始终集中在特定于任务的白色盒子设置上，但这些方法在LVLM的背景下受到限制，该方法是针对各种下游任务而设计的，需要昂贵的全模型梯度计算。由LVLM中的视觉编码器的关键作用和广泛采用的动机，我们提出了一种简单而有效的视觉编码器攻击（VEATTACK），该攻击仅针对LV ...

0 0 0 2025/08/23 arXiv:2505.17440v1 hhhhh

Docopilot: Improving Multimodal Models for Document-Level Understanding

尽管多模式大语言模型（MLLM）取得了重大进展，但它们在复杂的多页文档理解上的表现仍然不足，这在很大程度上是由于缺乏高质量的文档级数据集。尽管当前的检索效果生成（RAG）方法提供了部分解决方案，但它们遭受了问题的困扰，例如零散的检索环境，多阶段错误积累以及检索的额外时间成本。在这项工作中，我们提出了一个高质量的文档级数据集Doc-750k，旨在支持对多模式文档的深入了解 ...

0 0 0 2025/08/23 arXiv:2507.14675v1 18636279200

Invisible Injections: Exploiting Vision-Language Models Through Steganographic Prompt Embedding

视觉语言模型（VLM）彻底改变了多模式AI应用，但引入了新型的安全漏洞，这些漏洞在很大程度上尚未得到探索。我们介绍了对VLMS的直接注射攻击的首次全面研究，其中使用高级隐志技术将恶意指示无形地嵌入图像中。我们的方法表明，当前的VLM架构可以在正常图像处理过程中无意间提取并执行隐藏的提示，从而导致秘密行为操纵 ...

0 0 0 2025/08/23 arXiv:2507.22304v1 hhhhh

In Search of Lost Domain Generalization

域概括算法的目的是在分布上很好地预测与训练中所见的分布不同。尽管存在无数的领域泛化算法，但实验条件下的不一致 - 数据集，体系结构和模型选择标准 - 使公平且现实的比较变得困难。在本文中，我们有兴趣了解在现实设置中有用的域泛化算法 ...

0 0 0 2025/08/23 arXiv:2007.01434v1 周传杰

Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection

随着强大的视觉语言功能的出现，多模式大语言模型（MLLM）具有巨大的现实应用程序潜力。但是，视觉模态所表现出的安全漏洞对在开放世界环境中部署此类模型构成了重大挑战。最近的研究通过将有害的文本语义直接编码到视觉输入中，成功地诱导了目标MLLM的有害反应 ...

0 0 0 2025/08/23 arXiv:2507.02844v1 hhhhh

WebEvolver: Enhancing Web Agent Self-Improvement with Coevolving World Model

代理人的自我完善，代理的主链大语言模型（LLM）是根据自己的政策自动采样的轨迹进行培训的，它已成为提高性能的一种有希望的方法。最近的进步，尤其是在网络环境中，面临着一个关键的局限性：它们的性能将在自主学习周期期间达到停滞点，从而阻碍进一步的进步。我们认为，这源于对Web环境的探索有限，以及对LLMS中预训练的Web知识的利用不足 ...

0 0 0 2025/08/23 arXiv:2504.21024v2 panda__

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）