arxiv的文档

DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models

多年来，自动化程序修复领域引起了人们的极大兴趣，但尽管进行了大量的研究工作，但事实证明，创建一个能够很好地解决复杂语义错误（例如安全漏洞）的系统很困难。解决这一挑战的一个有前景的方向是利用大型语言模型 (LLM)，该模型越来越多地用于解决各种编程任务。在本文中，我们研究了 LLM 解决代码修复任务的有效性。我们表明，这项任务很困难，因为它需要模型学习远程代码关系，而这项任务本质上依赖于大量的训练数据。同时，为复杂的程序错误及其相应的修复创建一个大型、干净的数据集并非易事。我们提出了一种技术来通过查询和微调 LLM 的新方法来应对这些挑战。这个想法是使用程序分析来限制 LLM 对执行修复所需的代码部分的注意力机制，从而大大减少所需的训练数据量。具体来说，对于训练和推理，我们不是将整个程序提供给 LLM，而是将其代码缩减为更短的代码片段，其中包含报告的缺陷以及必要的上下文 - 并使用它。我们的评估表明，这种代码缩减方法极大地改进了可用模型，例如使用少样本学习的 GPT-4，以及微调模型。为了训练和评估我们的系统，我们通过广泛标记 156 个错误模式（包括 40 个安全规则）创建了一个全面的代码修复数据集，需要复杂的过程间数据流来发现。我们使用 Mixtral-8x7B 的最佳系统可以消除超过 80% 的报告缺陷，同时在 10% 到 50% 的情况下与人工修复完全匹配，优于基于 GPT-3.5 和 GPT-4 或基于基于窗口的模型（如 TFix）的基线 ...

0 0 0 0 2025/12/12 arXiv:2402.13291v2 acc

LRM-Zero: Training Large Reconstruction Models with Synthesized Data

我们提出了 LRM-Zero，这是一种完全基于合成 3D 数据训练的大型重建模型 (LRM)，可实现高质量的稀疏视图 3D 重建。 LRM-Zero 的核心是我们的程序 3D 数据集 Zeroverse，它是通过随机纹理和增强（例如高度场、布尔差异和线框）从简单的原始形状自动合成的。与以前的 3D 数据集（例如 Objaverse）通常由人类捕获或制作来近似真实的 3D 数据不同，Zeroverse 完全忽略了现实的全局语义，但富含复杂的几何和纹理细节，这些细节与真实物体局部相似甚至更复杂。我们证明，我们的 LRM-Zero 经过完全合成的 Zeroverse 训练后，可以在重建现实世界物体时实现高视觉质量，与 Objaverse 上训练的模型相媲美。我们还分析了 Zeroverse 的几个关键设计选择，这些选择有助于 LRM-Zero 的能力和训练稳定性。我们的工作表明，3D 重建（3D 视觉的核心任务之一）可以在没有现实世界对象语义的情况下得到解决。 Zeroverse 的程序综合代码和交互式可视化可在以下位置获得：此 https URL ...

0 0 0 0 2025/12/11 arXiv:2406.09371v2 douglas0406

3D-VirtFusion: Synthetic 3D Data Augmentation through Generative Diffusion Models and Controllable Editing

数据增强在深度学习中发挥着至关重要的作用，增强了基于学习的模型的泛化性和鲁棒性。标准方法涉及简单的转换，例如旋转和翻转以生成额外的数据。然而，这些增强受到初始数据集的限制，缺乏高水平的多样性。最近，语言模型和扩散模型等大型模型在感知和内容生成方面表现出了卓越的能力。在这项工作中，我们提出了一种新的范例，通过利用预训练的大型基础模型的力量来自动生成 3D 标记训练数据。对于每个目标语义类别，我们首先通过扩散模型和 chatGPT 生成的文本提示生成具有各种结构和外观的单个对象的 2D 图像。除了纹理增强之外，我们还提出了一种自动改变 2D 图像中对象形状的方法。随后，我们将这些增强图像转换为 3D 对象，并通过随机组合构建虚拟场景。该方法可以自动生成大量 3D 场景数据，而不需要真实数据，在解决小样本学习挑战和减轻长尾类不平衡方面提供了显着的好处。通过提供灵活的增强方法，我们的工作有助于增强 3D 数据多样性并提高场景理解任务中的模型能力 ...

0 0 0 0 2025/12/11 arXiv:2408.13788v1 douglas0406

Structural Pruning via Spatial-aware Information Redundancy for Semantic Segmentation

近年来，语义分割在各种应用中蓬勃发展。然而，高昂的计算成本仍然是阻碍其进一步采用的重大挑战。结构化网络瘦身的滤波器剪枝方法为减少分割网络提供了直接有效的解决方案。尽管如此，我们认为大多数现有的剪枝方法最初是为图像分类而设计的，忽视了分割是一项位置敏感的任务这一事实，这导致它们在应用于分割网络时表现不佳。为了解决这个问题，本文提出了一种新方法，称为空间感知信息冗余过滤器修剪（SIRFP），旨在减少通道之间的特征冗余。首先，我们将剪枝过程表述为图论中的最大边权重团问题（MEWCP），从而最小化剪枝后剩余特征之间的冗余。在此框架内，我们引入了基于特征图的空间感知冗余度量，从而赋予剪枝过程位置敏感性，以更好地适应剪枝分割网络。此外，基于 MEWCP，我们提出了一种低计算复杂度的贪婪策略来解决这个 NP 难问题，使得结构化剪枝变得可行且高效。为了验证我们方法的有效性，我们对各种具有挑战性的数据集进行了广泛的比较实验。结果证明了 SIRFP 在语义分割任务中的优越性能 ...

0 0 0 0 2025/12/11 arXiv:2412.12672v1 Abidalswark

Wukong's 72 Transformations: High-fidelity Textured 3D Morphing via Flow Models

我们提出了 WUKONG，一种新颖的免训练框架，用于高保真纹理 3D 变形，采用一对源和目标提示（图像或文本）作为输入。与依赖手动对应匹配和变形轨迹估计（限制泛化并需要昂贵的预处理）的传统方法不同，WUKONG 利用基于流的 Transformer 的生成先验来生成具有丰富纹理细节的高保真 3D 过渡。为了确保平滑的形状过渡，我们利用基于流的生成过程的固有连续性，并将变形制定为最佳传输重心问题。我们进一步引入了顺序初始化策略，以防止突然的几何扭曲并保持身份一致性。为了忠实地保存纹理，我们提出了一种相似性引导的语义一致性机制，可以选择性地保留高频细节，并能够精确控制混合动态。这可以避免常见的伪像，例如过度平滑，同时保持语义保真度。广泛的定量和定性评估表明，WUKONG 的性能显着优于最先进的方法，在不同的几何形状和纹理变化中均取得了优异的结果 ...

0 0 0 0 2025/12/11 arXiv:2511.22425v2 happy

Discrete JEPA: Learning Discrete Token Representations without Reconstruction

认知智能的基石在于从观察中提取隐藏的模式，并利用这些原理系统地预测未来的结果。然而，当前的图像标记化方法在需要系统推理所必需的符号抽象和逻辑推理能力的任务中表现出明显的局限性。为了应对这一挑战，我们提出了 Discrete-JEPA，通过语义标记化和新颖的互补目标扩展潜在预测编码框架，为符号推理任务创建强大的标记化。离散-JEPA 在视觉符号预测任务上的性能显着优于基线，同时引人注目的视觉证据揭示了在学习的语义标记空间内自发出现的故意系统模式。虽然是一个初始模型，但我们的方法有望对推进人工智能系统中的符号世界建模和规划能力产生重大影响 ...

0 0 0 0 2025/12/11 arXiv:2506.14373v2 wangteqi

MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

随着电子商务的快速发展，探索一般表示而不是特定任务的表示引起了越来越多的研究关注。对于产品理解，尽管现有的判别式双流架构推动了该领域的进步，但它们本质上难以对产品的多个图像和文本之间的多对一对齐进行建模。因此，我们认为生成式多模态大语言模型（MLLM）在改进产品表示学习方面具有巨大潜力。尽管如此，由于几个关键挑战，实现这一目标仍然很重要：典型的 LLM 缺乏多模式和方面感知建模模块；产品图像中普遍存在背景噪音；以及缺乏评估的标准基准。为了解决这些问题，我们提出了第一个基于生成 MLLM 的模型，名为 MOON，用于产品表示学习。我们的方法 (1) 采用引导专家混合 (MoE) 模块对多模式和特定方面的产品内容进行有针对性的建模；（2）有效检测产品图像中的核心语义区域，减轻背景噪声造成的分散和干扰； (3)引入专门的负采样策略，增加负样本的难度和多样性。此外，我们还针对各种产品理解任务发布了大规模多模态基准 MBE。在实验上，我们的模型在基准测试和公共数据集上都表现出了有竞争力的零样本性能，展示了跨各种下游任务的强大泛化能力，包括跨模式检索、产品分类和属性预测。此外，案例研究和可视化说明了 MOON 对于产品理解的有效性 ...

0 0 0 0 2025/12/11 arXiv:2508.11999v4 Carbon

From Captions to Keyframes: Efficient Video Summarization via Caption- and Context-Aware Frame Scoring

有效的视频语言理解需要选择一小组保留长视频中语义和上下文信息的帧。我们提出了 KeyScore，一种多模式帧评分框架，它联合利用字幕和视觉上下文来估计帧级重要性。通过结合语义相似性、时间多样性和上下文下降影响，KeyScore 为检索、字幕和视频语言推理等下游任务识别信息最丰富的帧。为了补充 KeyScore，我们引入了 STACFP（帧提议的时空自适应聚类），它可以为长视频生成紧凑且多样化的候选帧。与全帧推理相比，这些模块共同实现了高达 99% 的帧减少，并且在 MSRVTT、MSVD 和 DiDeMo 上的性能大大优于标准 8 帧编码器。我们的结果表明，强调视觉和文本信号之间的多模态对齐可以实现可扩展、高效且基于字幕的视频理解，而无需明确的视频摘要 ...

0 0 0 0 2025/12/11 arXiv:2510.06509v2 15622278494

Context Cascade Compression: Exploring the Upper Limits of Text Compression

长上下文任务中的百万级 Token 输入给大型语言模型（LLM）带来了巨大的计算和内存挑战。近期，DeepSeek-OCR对Contexts Optical Compression的可行性进行了研究，并取得了初步成果。受此启发，我们引入Context Cascade Compression C3来探索文本压缩的上限。我们的方法级联两个不同大小的 LLM 来处理压缩和解码任务。具体来说，小型 LLM 作为第一阶段，通过将长上下文压缩为一组潜在标记（例如，长度为 32 或 64）来执行文本压缩，从而实现文本标记与潜在标记的高比率。大型LLM作为第二阶段，然后在此压缩上下文上执行解码任务。实验表明，在 20 倍压缩比（其中文本标记数量是潜在标记数量的 20 倍）下，我们的模型实现了 98% 的解码准确率，而 DeepSeek-OCR 的解码准确率约为 60%。当我们进一步将压缩比提高到 40 倍时，准确率保持在 93% 左右。这表明在上下文压缩领域，C3 压缩表现出优于光学字符压缩的性能和可行性。 C3 使用更简单的纯文本管道，忽略布局、颜色和视觉编码器的信息丢失等因素。这也表明了光学字符压缩、OCR 和相关领域的未来工作中压缩比的潜在上限。代码和模型权重可通过此 https URL 公开访问 ...

0 0 0 0 2025/12/11 arXiv:2511.15244v2 xeal

Retrieval-Augmented Machine Translation with Unstructured Knowledge

检索增强生成 (RAG) 引入了附加信息来增强大型语言模型 (LLM)。在机器翻译 (MT) 中，以前的工作通常从配对的 MT 语料库中检索上下文中的示例，或从知识图中检索特定领域的知识，以增强 MT 模型。然而，大量的世界知识是以非结构化文档的形式组织的，并且可能无法在不同语言之间完全配对。在本文中，我们研究使用非结构化文档的检索增强机器翻译。具体来说，我们构建了 RAGtrans，这是训练和评估 LLM 检索增强机器翻译能力的第一个基准。 RAGtrans 包含通过 GPT-4o 和人工翻译收集的 169K MT 样本。此外，还提供了各种语言的文档来为这些样本提供知识。基于 RAGtrans，我们进一步提出了一种多任务训练方法来教导 LLM 如何在翻译过程中使用多语言文档中的信息。该方法使用现有的多语言语料库来创建辅助训练目标，无需额外的标签要求。大量实验表明，该方法在 En-Zh 中将 LLM 提高了 1.6-3.1 BLEU 和 1.0-2.0 COMET 分数，在 En-De 中提高了 1.7-2.9 BLEU 和 2.1-2.7 COMET 分数。我们还总结了当前 LLM 在这项任务中面临的关键困难 ...

0 0 0 0 2025/12/11 arXiv:2412.04342v2 zhs