arxiv的文档

arxiv 南京

个性签名 ...

Seed3D 1.0: From Images to High-Fidelity Simulation-Ready 3D Assets

开发具体的人工智能代理需要可扩展的训练环境，以平衡内容多样性和物理准确性。世界模拟器提供了这样的环境，但面临明显的限制：基于视频的方法生成不同的内容，但缺乏用于交互式学习的实时物理反馈，而基于物理的引擎提供准确的动态，但面临昂贵的手动资产创建的可扩展性限制。我们推出 Seed3D 1 ...

0 0 0 0 2025/10/25 arXiv:2510.19944v1 GUN

Generating Physically Stable and Buildable Brick Structures from Text

我们介绍 BrickGPT，这是第一种根据文本提示生成物理稳定的互连砖块装配模型的方法。为了实现这一目标，我们构建了一个大规模的、物理稳定的砖块结构数据集及其相关的标题，并训练一个自回归大型语言模型来通过下一个标记预测来预测要添加的下一个砖块。为了提高最终设计的稳定性，我们在自回归推理期间采用了有效的有效性检查和物理感知回滚，这使用物理定律和装配约束来修剪不可行的标记预测 ...

0 0 0 0 2025/10/25 arXiv:2505.05469v2 GUN

LongCodeZip: Compress Long Context for Code Language Models

由于需要大型语言模型 (LLM) 对代码库中的大量信息进行推理，因此长上下文下的代码生成变得越来越重要。虽然最近的进展使代码 LLM 能够处理长输入，但高 API 成本和生成延迟仍然是重大瓶颈。现有的上下文修剪技术（例如 LLMLingua）对于一般文本取得了有希望的结果，但忽略了特定于代码的结构和依赖性，导致编程任务的性能不佳 ...

0 0 1 1 2025/10/25 arXiv:2510.00446v1 bamanzi

Efficient Multimodal Dataset Distillation via Generative Models

数据集蒸馏的目的是从大数据集中合成小数据集，使在其上训练的模型能够在原始数据集上表现良好。随着大语言模型和多模态大语言模型的蓬勃发展，多模态数据集，特别是图像文本数据集的重要性显着增长。然而，现有的多模态数据集蒸馏方法受到匹配训练轨迹算法的限制，这显着增加了计算资源需求，并且需要数天的时间来处理蒸馏 ...

0 0 0 0 2025/10/25 arXiv:2509.15472v2 Ollama

Beyond Modality Collapse: Representations Blending for Multimodal Dataset Distillation

多模态数据集蒸馏（MDD）旨在将大规模图像文本数据集压缩为紧凑的替代项，同时保留其跨模态学习的有效性。尽管最近取得了进展，但现有的 MDD 方法经常遭受 \textit{\textbf{Modality Collapse}} 的困扰，其特点是模态内表示过度集中和模态间分布差距扩大。在本文中，我们首次将这个问题确定为源于数据集蒸馏固有的过度压缩行为与对比目标强加的跨模式监督之间的根本冲突 ...

0 0 1 3 2025/10/25 arXiv:2505.14705v1 Ollama

From 2:4 to 8:16 sparsity patterns in LLMs for Outliers and Weights with Variance Correction

随着大型语言模型 (LLM) 规模的增长，量化和稀疏化等高效压缩技术变得至关重要。虽然量化可以在精度降低的情况下保持性能，但结构化稀疏方法（例如 N:M 稀疏化）通常会由于灵活性有限以及对异常值权重的敏感性而达不到要求。我们探索 8:16 半结构化稀疏性，展示其超越性能阈值的能力，其中压缩模型在同等内存限制下与其未压缩或较小模型的准确性相匹配 ...

0 0 0 0 2025/10/25 arXiv:2507.03052v1 Daenerays

Pruning Large Language Models with Semi-Structural Adaptive Sparse Training

大型语言模型（LLM）在各种复杂任务中的巨大成功在很大程度上依赖于其巨大的规模，由于其大量的内存消耗，这给模型部署带来了挑战。最近，许多研究尝试使用一次性剪枝方法来压缩 LLM。然而，这些方法在复杂的语言理解任务上通常会出现相当大的性能下降，这使人们对 LLM 中剪枝的可行性产生了质疑 ...

0 0 0 0 2025/10/25 arXiv:2407.20584v3 Daenerays

SUES-200: A Multi-height Multi-scene Cross-view Image Benchmark Across Drone and Satellite

跨视角图像匹配旨在匹配从不同平台获取的同一目标场景的图像。随着无人机技术的快速发展，神经网络模型的交叉视图匹配已成为无人机定位或导航的广泛接受的选择。然而，现有的公共数据集不包含无人机在不同高度获得的图像，且场景类型相对同质，这在评估模型适应复杂多变场景的能力时产生了问题 ...

0 0 0 0 2025/10/25 arXiv:2204.10704v2 fgl362135

LightMem: Lightweight and Efficient Memory-Augmented Generation

尽管大型语言模型 (LLM) 具有卓越的功能，但它仍难以在动态和复杂的环境中有效利用历史交互信息。内存系统通过引入持久性信息存储、检索和利用机制，使 LLM 能够超越无状态交互。然而，现有的存储器系统经常引入大量的时间和计算开销 ...

0 0 0 0 2025/10/25 arXiv:2510.18866v1 elonmusk

What Can Grokking Teach Us About Learning Under Nonstationarity?

在持续学习问题中，通常需要覆盖神经网络学习表示的组件以响应数据流的变化；然而，神经网络经常表现出“首要偏差”，即早期的训练数据阻碍了网络泛化以后任务的能力。虽然非平稳学习问题的特征学习动态还没有得到很好的研究，但众所周知，特征学习动态的出现会推动“摸索”现象，其中神经网络最初会记住其训练数据，然后才表现出完美的泛化能力。这项工作推测，促进 grokking 泛化的相同特征学习动态也是覆盖先前学习特征的能力的基础，而通过促进特征学习动态来加速 grokking 的方法是解决非平稳学习问题中首要偏差的有希望的候选者 ...

0 0 0 0 2025/10/25 arXiv:2507.20057v1 zcr10086