arxiv的文档

arxiv 南京

个性签名 ...

The Delta Learning Hypothesis: Preference Tuning on Weak Data can Yield Strong Gains

语言模型的改进通常是通过提高我们对数据训练的数据的质量来驱动的，当稀缺的强烈监督时，这可能会限制。在这项工作中，我们表明，由个别弱数据点组成的配对偏好数据可以超出每个单个数据点的强度。我们制定了三角洲学习假设来解释这一现象，认为点之间的相对质量三角洲足以通过偏好调整来驱动学习 - 即使在监督弱数据上进行填充时，也会受到较弱的数据伤害 ...

0 1 0 0 2025/07/12 arXiv:2507.06187v1 smpublic

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling

尽管近年来在语言模型（LMS）方面取得了不可思议的进步，但主要是由于从设计的特定任务的专业模型转变为基于强大的体系结构（例如 Transformer ）的一般模型，这些模型从原始数据中学习了所有内容，这些步骤（例如，诸如 Token 化）仍然是真正端到端端到端基础模型的障碍 ...

0 0 0 0 2025/07/12 arXiv:2507.07955v1 hwrabbit

QoQ-Med: Building Multimodal Clinical Foundation Models with Domain-Aware GRPO Training

临床决策通常要求对异质数据进行推理，但是现有的多模式模型（MLLM）仍然基本以视力为中心，并且无法跨越临床专业。为了弥合这一差距，我们介绍了QOQ-MED-7B/32B，这是第一个开放的通用临床基础模型，该模型在医学图像，时间序列信号和文本报告中共同考虑。 QOQ-MED接受了域感知相对政策优化（DRPO）的训练，这是一个新颖的加强学习目标，根据域稀有性和模态难度，层次结构缩放归一化的奖励，从而减轻了由偏斜的临床数据分布引起的性能失衡 ...

0 0 0 0 2025/07/12 arXiv:2506.00711v1 duyuetian

Time-Aware Neighbor Sampling for Temporal Graph Networks

我们在时间图上提出了一种新的邻居抽样方法。在时间图中，预测不同节点的时间变化属性可能需要各种时间尺度的接受邻居。在这项工作中，我们提出了TNS（时间感知的邻居采样）方法：TNS从时间信息中学习，以随时为每个节点提供自适应的接受邻域 ...

0 0 0 0 2025/07/12 arXiv:2112.09845v1 jupiter078495

Towards Multimodal Understanding via Stable Diffusion as a Task-Aware Feature Extractor

多模式大语言模型（MLLM）的最新进展已启用基于图像的问答功能。但是，一个关键的限制是将夹子用作视觉编码器。尽管它可以捕获粗糙的全局信息，但通常会错过与输入查询相关的细粒细节。为了解决这些缺点，这项工作研究了预训练的文本对图像扩散模型是否可以用作具有指导感知的视觉编码器 ...

0 0 0 0 2025/07/12 arXiv:2507.07106v1 18811558339

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

空间推理是认知心理学的关键方面，仍然是当前视觉模型（VLM）的主要瓶颈。尽管广泛的研究旨在评估或改善VLM对基本空间关系的理解，例如区分左右，远离远处的左侧和对象计数，但这些任务仅代表了最基本的空间推理水平。在这项工作中，我们介绍了完全扎根于认知心理学的空间推理的全面且具有挑战性的基准 ...

0 0 0 0 2025/07/12 arXiv:2506.03135v1 S.X.K

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

空间认知对于人类智力是必不可少的，可以通过视觉模拟解决问题，而不仅仅是依靠口头推理。但是，现有的AI基准主要评估言语推理，忽略了非语言，多步视觉模拟的复杂性。我们介绍了凝视（空间转换和推理评估），这是一种基准测试，旨在严格评估通过多步视觉模拟来更好地解决任务上的多模式大语言模型 ...

0 0 0 0 2025/07/12 arXiv:2506.04633v1 S.X.K

Spatial Mental Modeling from Limited Views

视觉语言模型（VLM）能否像人类一样，想象一下只有几个观点的完整场景？人类形成空间心理模型，看不见的空间的内部表示，以理解布局，透视和运动。我们的新MindCube基准标有3,268张图像中有21,154个问题的基准，暴露了这一关键差距，其中现有VLM的表现接近随机性能。使用MindCube，我们系统地评估了VLM通过代表位置（认知映射），方向（透视图）和动态（“ what-if”运动的心理模拟）来构建强大的空间心理模型的能力 ...

0 0 0 0 2025/07/12 arXiv:2506.21458v1 S.X.K

Thermodynamics of the quantum Mpemba effect

我们从非平衡量子热力学的角度研究了量子MPEMBA效应，该量通过研究偶联的量子系统的松弛动力学与马尔可夫热水浴的相连，这是由Davies Maps描述的。从能量本质基因的状态开始，我们证明，如果状态在能量本质基因词中转化为对角线状态，则将始终发生指数的速度，前提是发电机的光谱是由复杂的特征值定义的。当转化状态具有较高的非平衡自由能时，我们会使用热力学推理说这是\ textit {quenine}量子mpemba效应 ...

0 0 0 0 2025/07/12 arXiv:2403.16959v3 kcyao

Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment Analysis

这项工作提出了一种新颖而简单的顺序学习策略，以在视频和文本上培训模型，以进行多模式分析。为了估计看不见的分发数据的情感极性，我们引入了一种多模型模型，该模型使用我们的学习策略在单个源域或多个源域中进行了训练。该策略始于文本中的学习域不变特征，然后从视频中学习稀疏的域 - 无知功能，并在文本中学到的选定功能的协助下 ...

0 0 0 0 2025/07/12 arXiv:2409.04473v1 蛙isme