dm616703的文档

MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models

多模式基础模型（MMFMS）在各种应用中起着至关重要的作用，包括自主驾驶，医疗保健和虚拟助手。但是，一些研究揭示了这些模型中的漏洞，例如通过文本对图像模型生成不安全的内容。多模型模型的现有基准主要评估这些模型的有益性，或者仅关注有限的观点，例如公平和隐私 ...

0 0 0 0 2025/06/03 arXiv:2503.14827v1 dm616703

DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks

LLM集成的应用程序和代理很容易受到迅速注射攻击的影响，在这种情况下，攻击者将其注入其输入中以诱导攻击者的输出。一种检测方法旨在确定给定输入是否被注入的提示污染。但是，现有的检测方法对最新攻击的有效性有限，更不用说适应性攻击了 ...

0 0 0 0 2025/06/03 arXiv:2504.11358v2 dm616703

BountyBench: Dollar Impact of AI Agent Attackers and Defenders on Real-World Cybersecurity Systems

AI代理有可能显着改变网络安全局势。为了帮助我们了解这一变化，我们介绍了第一个框架，以捕捉不断发展的现实世界中的进攻和防御性网络障碍。通过BountyBench实例化此框架，我们设置了25个具有复杂，现实世界代码库的系统 ...

0 0 0 0 2025/06/03 arXiv:2505.15216v1 dm616703

A Critical Evaluation of Defenses against Prompt Injection Attacks

大型语言模型（LLMS）很容易受到迅速注射攻击的影响，并且最近提出了一些防御措施，通常声称成功地减轻了这些攻击。但是，我们认为现有研究缺乏评估这些防御能力的原则方法。在本文中，我们认为有必要评估两个关键维度的防御措施：（1）对现有和适应性及时的注射攻击的有效性，这些攻击涉及多样化的目标和注射提示，以及（2）通用实用程序，确保辩方不会损害LLM的基础能力 ...

0 0 0 0 2025/06/03 arXiv:2505.18333v1 dm616703

Boosting MLLM Reasoning with Text-Debiased Hint-GRPO

MLLM推理因其出色的解决问题的能力而引起了广泛的研究。当前的推理方法分为两种类型：PRM，该方法监督了中间推理步骤，而ORM则是监督最终结果。最近，DeepSeek-R1挑战了传统观点，即PRM优于ORM，该观点使用ORM方法证明了强大的概括性能（i ...

0 0 0 0 2025/05/30 arXiv:2503.23905v1 dm616703

TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation

零射击对象导航（ZSON）任务要求体现的代理通过在不熟悉的环境中导航来查找以前看不见的对象。这种面向目标的探索在很大程度上依赖于根据环境的空间信息感知，理解和理性的能力。但是，当前基于LLM的方法将视觉观察转换为语言描述和语言空间中的理由，从而导致空间信息的丢失 ...

0 0 0 0 2025/05/30 arXiv:2411.16425v2 dm616703

Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence

多模式大语言模型（MLLM）的最新进步在2D视觉任务上的性能显着提高。但是，改善其空间情报仍然是一个挑战。现有的3D MLLM始终依赖其他3D或2 ...

0 0 0 0 2025/05/30 arXiv:2505.23747v1 dm616703

Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought

多模式大语言模型（MLLM）的最新进展已在视觉任务中表现出了显着的功能，但是他们经常在以视觉为中心的情况下挣扎，在这些方案中，需要精确的视觉焦点以进行准确的推理。在本文中，我们介绍了Argus，以一种新的视觉注意接地机制来解决这些局限性。我们的方法采用以对象为中心的基础作为视觉链信号，从而在多模式推理任务中实现了更有效的目标条件的视觉注意力 ...

0 0 0 0 2025/05/30 arXiv:2505.23766v1 dm616703

LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts

这项研究揭示了多轮交互中大型语言模型（LLM）的安全漏洞，其中恶意用户可以掩盖多个查询中的有害意图。我们介绍了 ActorAttack，这是一种受行动者网络理论启发的新型多轮攻击方法，它将语义链接的行动者网络建模为攻击线索，以生成针对有害目标的多样化且有效的攻击路径。 ActorAttack 解决了多轮攻击中的两个主要挑战：(1) 通过创建有关攻击者的无害对话主题来隐藏有害意图，以及 (2) 通过利用 LLM 的知识来指定相关攻击者，揭示针对同一有害目标的不同攻击路径作为各种攻击线索 ...

0 1 0 0 2025/05/30 arXiv:2410.10700v2 dm616703

Improving Medical Reasoning with Curriculum-Aware Reinforcement Learning

通过可验证的，基于规则的奖励的增强学习的最新进展极大地增强了VLMS/LLM的推理能力和分布式概括，从而消除了需要手动制作的推理链的需求。尽管在一般领域中有这些有希望的发展，但它们向医学成像的转化仍然有限。当前的医疗加强微调（RFT）方法主要集中在近端VQA上，从而限制了该模型参与世界知识检索和灵活的任务适应的能力 ...

0 0 0 0 2025/05/29 arXiv:2505.19213v1 dm616703