abc123897035432的文档

Assessing Modality Bias in Video Question Answering Benchmarks with Multimodal Large Language Models

多模态大语言模型 (MLLM) 可以同时处理视觉、文本和听觉数据，捕获补充人类分析的见解。然而，现有的视频问答 (VidQA) 基准和数据集通常表现出对单一模式的偏见，尽管其目标是需要集成不同模式来回答查询的高级推理技能。在这项工作中，我们引入了模态重要性评分（MIS）来识别这种偏差。它旨在评估哪种模式嵌入了回答问题所需的信息。此外，我们提出了一种使用最先进的 MLLM 来估计模态重要性的创新方法，该方法可以作为人类对模态感知判断的代理。通过这个 MIS，我们证明了现有数据集中存在单峰偏差和真正多峰问题的稀缺性。我们通过多项消融研究进一步验证模态重要性得分，以评估 MLLM 在排列特征集上的性能。我们的结果表明，由于现有数据集中的模态不平衡，当前模型无法有效地整合信息。我们提出的 MLLM 衍生 MIS 可以指导模态平衡数据集的管理，从而推进多模态学习并增强 MLLM 理解和利用跨模态协同关系的能力 ...

0 0 0 0 2026/02/09 arXiv:2408.12763v2 abc123897035432

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval

近年来，用于视频文本检索的视觉语言对齐学习引起了广泛关注。现有的大多数方法要么将图像文本预训练模型的知识转移到视频文本检索任务中，而没有充分探索视频的多模态信息，要么在没有明确指导的情况下简单地以强力方式融合多模态特征。在本文中，我们通过标签以显式的方式集成多模态信息，并使用标签作为锚点以更好地进行视频文本对齐。利用各种预训练的专家来提取多种模态的信息，包括物体、人、运动、音频等。为了充分利用这些信息，我们提出了TABLE（TAgging Before aLignmEnt）网络，该网络由视觉编码器、标签编码器、文本编码器和标签引导跨模态编码器组成，用于联合编码多帧视觉特征和多模态标签信息。此外，为了加强视频和文本之间的交互，我们构建了一个具有[视觉、标签、文本]三元组输入的联合跨模态编码器，并执行两个额外的监督任务：视频文本匹配（VTM）和掩码语言建模（MLM）。大量的实验结果表明，TABLE 模型能够在各种视频文本检索基准上实现 State-Of-The-Art (SOTA) 性能，包括 MSR-VTT、MSVD、LSMDC 和 DiDeMo ...

0 0 0 0 2026/02/09 arXiv:2301.12644v1 abc123897035432

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

多模态大语言模型（MLLM）的最新进展已经证明了视频理解的巨大潜力。然而，现有的基准无法全面评估跨音频和视觉模式的协同推理能力，常常忽略其中一种模式或以逻辑不一致的方式将它们集成。为了弥补这一差距，我们引入了 OmniVideoBench，这是一个大规模且严格设计的基准，致力于评估协同视听理解，重点强调模态互补性和逻辑一致性。具体来说，OmniVideoBench 包含 1000 个高质量的问答 (QA) 对，每个对都附有逐步推理轨迹注释，源自 628 个不同视频，从几秒到 30 分钟不等，并经过手动验证以保证完全正确性和唯一性。此外，OmniVideoBench 包含 13 种精心设计的问题类型，涵盖时间推理、空间定位、计数、因果推理、总结等，从而捕捉视频理解的基本挑战。在 OmniVideoBench 上对多个 MLLM 的评估揭示了模型性能与人类推理之间的明显差距，开源模型明显落后于闭源模型，这凸显了真正的视听推理的固有难度。我们将发布 OmniVideoBench，以促进具有更强、更通用推理能力的 MLLM 的发展 ...

0 0 0 0 2026/02/09 arXiv:2510.10689v1 abc123897035432

Token-Level Marginalization for Multi-Label LLM Classifiers

本文解决了应用于多标签内容安全分类时从生成语言模型 (LLM) 导出可解释置信度分数的关键挑战。虽然像 LLaMA Guard 这样的模型可以有效识别不安全内容及其类别，但它们的生成架构本质上缺乏直接的类级概率，这阻碍了模型置信度评估和性能解释。这种限制使内容审核的动态阈值的设置变得复杂，并阻碍了细粒度的错误分析。本研究提出并评估了三种新颖的 Token 级概率估计方法来弥补这一差距。目的是增强模型的可解释性和准确性，并评估该框架在不同指令调整模型中的通用性。通过对综合生成的、严格注释的数据集进行大量实验，结果表明，利用 token logits 可以显着提高生成分类器的可解释性和可靠性，从而实现更细致的内容安全审核 ...

0 0 0 0 2026/01/30 arXiv:2511.22312v1 abc123897035432

Cycles of Thought: Measuring LLM Confidence through Stable Explanations

在许多高风险的机器学习应用中，模型必须指出预测何时不确定。虽然大型语言模型（LLM）可以在各种基准上达到甚至超过人类水平的准确性，但它们对错误响应的过度自信仍然是一种有据可查的失败模式。由于实现的计算成本和许多模型的闭源性质，传统的机器学习不确定性量化方法可能很难直接适应 LLM 。最近提出了各种黑盒方法，但这些方法通常依赖于启发式方法，例如自我语言信心。相反，我们提出了一个框架来衡量 LLM 在生成答案的解释分布方面的不确定性。虽然利用解释本身并不是一个新想法，但通过将每个可能的模型+解释对解释为测试时分类器，我们可以计算这些分类器中最有可能的后验答案分布。我们演示了该框架的特定实例如何使用解释蕴含作为我们的分类器可能性，在五个不同数据集的基线上提高置信度得分指标（特别是 AURC 和 AUROC）。我们相信这些结果表明我们的框架是量化 LLM 不确定性的原则良好且有效的方法 ...

0 0 0 0 2026/01/30 arXiv:2406.03441v1 abc123897035432

A Survey of Uncertainty Estimation in LLMs: Theory Meets Practice

随着大型语言模型 (LLM) 的不断发展，理解和量化其预测的不确定性对于提高应用程序的可信度至关重要。然而，现有的LLM不确定性估计相关文献往往依赖于启发式方法，缺乏对方法的系统分类。在本次调查中，我们阐明了不确定性和置信度的定义，强调了它们的区别以及对模型预测的影响。在此基础上，我们整合贝叶斯推理、信息论和集成策略等理论视角，对启发式方法派生的各类不确定性估计方法进行分类。此外，我们还解决了将这些方法应用于 LLM 时出现的挑战。我们还探索将不确定性纳入不同应用的技术，包括分布外检测、数据注释和问题澄清。我们的评论从定义和理论角度提供了对不确定性估计的见解，有助于全面理解 LLM 的这一关键方面。我们的目标是激励 LLM 在现实场景中开发更可靠、更有效的不确定性估计方法 ...

0 0 0 0 2026/01/30 arXiv:2410.15326v1 abc123897035432

LAPRAD: LLM-Assisted PRotocol Attack Discovery

为了提高互联网协议的安全性，我们寻求更快的半自动方法来发现 DNS、BGP 等协议中的新漏洞。为此，我们引入了 LLM 辅助协议攻击发现 (LAPRAD) 方法，使具有一定 DNS 知识的安全研究人员能够有效地发现原本难以检测的漏洞。 LAPRAD 遵循三个阶段的过程。首先，我们咨询了一位 LLM (GPT-o1)，该硕士接受过广泛的 DNS 相关来源和之前的 DDoS 攻击语料库的培训，以识别潜在的漏洞。在第二阶段，不同的LLM使用通过LangChain（DNS区域文件生成）实现的ReACT方法自动构建相应的攻击配置。最后，在第三阶段，我们验证攻击的功能和有效性。使用 LAPRAD，我们发现了针对 DNS 协议的三种新的 DDoS 攻击，并重新发现了最近报告的两种未包含在 LLM 培训数据中的攻击。第一个新攻击采用诱饵和切换技术来诱骗解析器缓存大型、伪造的 DNSSEC RRSIG，将其服务能力降低至 6%。第二个利用具有多个密钥的大型 DNSSEC 加密算法 (RSA-4096)，从而绕过最近实施的默认 RRSet 限制。第三种利用任何类型的响应来产生类似的效果。这些缓存刷新 DDoS 攻击的变体（称为 SigCacheFlush）会规避现有补丁，严重降低解析器查询能力，并影响主要 DNS 解析器实现的最新版本 ...

0 0 0 0 2026/01/08 arXiv:2510.19264v1 abc123897035432

Retrieval Augmented Generation Based LLM Evaluation For Protocol State Machine Inference With Chain-of-Thought Reasoning

本文提出了一种新的方法，以评估网络包装种子生成中的基于抹布的代理大语模型（LLM）体系结构的效率，以实现网络协议模糊。通过促进链（COT）提示技术增强，提出的方法着重于改进种子结构质量，以通过对协议状态空间进行广泛的探索来指导协议模糊框架。我们的方法将抹布和文本嵌入在两个阶段中 ...

0 0 0 0 2026/01/08 arXiv:2502.15727v2 abc123897035432

Self-Attentive Sequential Recommendation

顺序动态是许多现代推荐系统的一个关键特征，它试图根据用户最近执行的操作来捕获用户活动的“上下文”。为了捕获此类模式，出现了两种方法：马尔可夫链 (MC) 和循环神经网络 (RNN)。马尔可夫链假设用户的下一个动作可以根据他们最后（或最后几个）动作来预测，而 RNN 原则上允许发现更长期的语义。一般来说，基于 MC 的方法在模型简约性至关重要的极其稀疏的数据集中表现最佳，而 RNN 在模型复杂性较高的密集数据集中表现更好。我们工作的目标是平衡这两个目标，提出一种基于自注意力的顺序模型（SASRec），该模型允许我们捕获长期语义（如 RNN），但使用注意力机制，根据相对较少的动作进行预测（如 MC）。在每个时间步骤，SASRec 都会尝试识别哪些项目与用户的操作历史记录“相关”，并使用它们来预测下一个项目。广泛的实证研究表明，我们的方法在稀疏和密集数据集上都优于各种最先进的序列模型（包括基于 MC/CNN/RNN 的方法）。此外，该模型比基于 CNN/RNN 的模型效率高一个数量级。注意力权重的可视化还展示了我们的模型如何自适应地处理具有不同密度的数据集，并揭示活动序列中有意义的模式 ...

0 0 0 0 2026/01/04 arXiv:1808.09781v1 abc123897035432

Stateful Greybox Fuzzing

许多协议实现都是反应式系统，其中协议进程与其他进程和环境持续交互。如果错误只能在某种状态下暴露，那么模糊器需要提供特定的事件序列作为输入，以便在错误出现之前将协议带入此状态。我们将这些错误称为“有状态”错误。通常，当我们测试协议实现时，我们没有可以依赖的详细的正式协议规范。如果不了解协议，模糊器本质上就很难发现这种有状态的错误。那么一个关键的挑战是在没有明确的协议规范的情况下覆盖状态空间。在这项工作中，我们假设对于状态协议模糊测试可以避免用于状态识别的手动注释。具体来说，我们依赖于一种编程直觉，即协议实现中使用的状态变量通常出现在枚举类型变量中，其值（状态名称）来自命名常量。在我们对前 50 个最广泛使用的开源协议实现的分析中，我们发现每个实现都使用分配有命名常量（具有易于理解的名称，如 INIT、READY）的状态变量来表示当前状态。在这项工作中，我们建议自动识别此类状态变量并跟踪模糊测试期间分配给它们的值序列，以生成所探索的状态空间的“地图”。我们的实验证实，我们的状态模糊器发现状态错误的速度是我们扩展的基线灰盒模糊器的两倍。从初始状态开始，我们的模糊器执行的状态/转换序列多了一个数量级，并且覆盖代码的速度比基线模糊器快两倍。我们的模糊器发现了著名协议实现中的几个零日错误，并分配了 8 个 CVE ...

0 0 0 0 2025/12/09 arXiv:2204.02545v3 abc123897035432