arxiv的文档

arxiv 南京

个性签名 ...

Predicting the large-scale evolution of tag systems

我们提出了一种预测标签系统从其生产规则中大规模演变的方法。标签系统的演变首先分为称为“时代”的阶段，其中标签系统单调演变。每个时期开始时队列中符号的分布决定了标签系统在该时期期间的大规模属性，包括生长速率和弦密度 ...

0 0 0 0 2025/07/13 arXiv:1601.02014v2 parsifalster

ResSVD: Residual Compensated SVD for Large Language Model Compression

大型语言模型（LLM）在各种下游自然语言处理任务中表现出了令人印象深刻的功能。然而，它们的大小和内存需要阻碍实际部署，强调了制定有效的压缩策略的重要性。奇异值分解（SVD）将矩阵分解为正交组件，从而实现有效的低级近似值 ...

0 0 0 0 2025/07/13 arXiv:2505.20112v2 szfmsmdx

The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains

语言模型的改进通常是通过提高我们对数据训练的数据的质量来驱动的，当稀缺的强烈监督时，这可能会限制。在这项工作中，我们表明，由个别弱数据点组成的配对偏好数据可以超出每个单个数据点的强度。我们制定了三角洲学习假设来解释这一现象，认为点之间的相对质量三角洲足以通过偏好调整来驱动学习 - 即使在监督弱数据上进行填充时，也会受到较弱的数据伤害 ...

0 1 0 0 2025/07/12 arXiv:2507.06187v1 smpublic

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

尽管近年来在语言模型（LMS）方面取得了不可思议的进步，但主要是由于从设计的特定任务的专业模型转变为基于强大的体系结构（例如 Transformer ）的一般模型，这些模型从原始数据中学习了所有内容，这些步骤（例如，诸如 Token 化）仍然是真正端到端端到端基础模型的障碍 ...

0 0 0 0 2025/07/12 arXiv:2507.07955v1 hwrabbit

QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training

临床决策通常要求对异质数据进行推理，但是现有的多模式模型（MLLM）仍然基本以视力为中心，并且无法跨越临床专业。为了弥合这一差距，我们介绍了QOQ-MED-7B/32B，这是第一个开放的通用临床基础模型，该模型在医学图像，时间序列信号和文本报告中共同考虑。 QOQ-MED接受了域感知相对政策优化（DRPO）的训练，这是一个新颖的加强学习目标，根据域稀有性和模态难度，层次结构缩放归一化的奖励，从而减轻了由偏斜的临床数据分布引起的性能失衡 ...

0 0 0 0 2025/07/12 arXiv:2506.00711v1 duyuetian

Time-Aware Neighbor Sampling for Temporal Graph Networks

我们在时间图上提出了一种新的邻居抽样方法。在时间图中，预测不同节点的时间变化属性可能需要各种时间尺度的接受邻居。在这项工作中，我们提出了TNS（时间感知的邻居采样）方法：TNS从时间信息中学习，以随时为每个节点提供自适应的接受邻域 ...

0 0 0 0 2025/07/12 arXiv:2112.09845v1 jupiter078495

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor

多模式大语言模型（MLLM）的最新进展已启用基于图像的问答功能。但是，一个关键的限制是将夹子用作视觉编码器。尽管它可以捕获粗糙的全局信息，但通常会错过与输入查询相关的细粒细节。为了解决这些缺点，这项工作研究了预训练的文本对图像扩散模型是否可以用作具有指导感知的视觉编码器 ...

0 0 0 0 2025/07/12 arXiv:2507.07106v1 18811558339

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

空间推理是认知心理学的关键方面，仍然是当前视觉模型（VLM）的主要瓶颈。尽管广泛的研究旨在评估或改善VLM对基本空间关系的理解，例如区分左右，远离远处的左侧和对象计数，但这些任务仅代表了最基本的空间推理水平。在这项工作中，我们介绍了完全扎根于认知心理学的空间推理的全面且具有挑战性的基准 ...

0 0 0 0 2025/07/12 arXiv:2506.03135v1 S.X.K

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

空间认知对于人类智力是必不可少的，可以通过视觉模拟解决问题，而不仅仅是依靠口头推理。但是，现有的AI基准主要评估言语推理，忽略了非语言，多步视觉模拟的复杂性。我们介绍了凝视（空间转换和推理评估），这是一种基准测试，旨在严格评估通过多步视觉模拟来更好地解决任务上的多模式大语言模型 ...

0 0 0 0 2025/07/12 arXiv:2506.04633v1 S.X.K

Spatial Mental Modeling from Limited Views

视觉语言模型（VLM）能否像人类一样，想象一下只有几个观点的完整场景？人类形成空间心理模型，看不见的空间的内部表示，以理解布局，透视和运动。我们的新MindCube基准标有3,268张图像中有21,154个问题的基准，暴露了这一关键差距，其中现有VLM的表现接近随机性能。使用MindCube，我们系统地评估了VLM通过代表位置（认知映射），方向（透视图）和动态（“ what-if”运动的心理模拟）来构建强大的空间心理模型的能力 ...

0 0 0 0 2025/07/12 arXiv:2506.21458v1 S.X.K