arxiv的文档

arxiv 南京

个性签名 ...

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

空间推理是认知心理学的关键方面，仍然是当前视觉模型（VLM）的主要瓶颈。尽管广泛的研究旨在评估或改善VLM对基本空间关系的理解，例如区分左右，远离远处的左侧和对象计数，但这些任务仅代表了最基本的空间推理水平。在这项工作中，我们介绍了完全扎根于认知心理学的空间推理的全面且具有挑战性的基准 ...

0 0 0 0 2025/07/12 arXiv:2506.03135v1 S.X.K

Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations

空间认知对于人类智力是必不可少的，可以通过视觉模拟解决问题，而不仅仅是依靠口头推理。但是，现有的AI基准主要评估言语推理，忽略了非语言，多步视觉模拟的复杂性。我们介绍了凝视（空间转换和推理评估），这是一种基准测试，旨在严格评估通过多步视觉模拟来更好地解决任务上的多模式大语言模型 ...

0 0 0 0 2025/07/12 arXiv:2506.04633v1 S.X.K

Spatial Mental Modeling from Limited Views

视觉语言模型（VLM）能否像人类一样，想象一下只有几个观点的完整场景？人类形成空间心理模型，看不见的空间的内部表示，以理解布局，透视和运动。我们的新MindCube基准标有3,268张图像中有21,154个问题的基准，暴露了这一关键差距，其中现有VLM的表现接近随机性能。使用MindCube，我们系统地评估了VLM通过代表位置（认知映射），方向（透视图）和动态（“ what-if”运动的心理模拟）来构建强大的空间心理模型的能力 ...

0 0 0 0 2025/07/12 arXiv:2506.21458v1 S.X.K

Thermodynamics of the quantum Mpemba effect

我们从非平衡量子热力学的角度研究了量子MPEMBA效应，该量通过研究偶联的量子系统的松弛动力学与马尔可夫热水浴的相连，这是由Davies Maps描述的。从能量本质基因的状态开始，我们证明，如果状态在能量本质基因词中转化为对角线状态，则将始终发生指数的速度，前提是发电机的光谱是由复杂的特征值定义的。当转化状态具有较高的非平衡自由能时，我们会使用热力学推理说这是\ textit {quenine}量子mpemba效应 ...

0 0 0 0 2025/07/12 arXiv:2403.16959v3 kcyao

Learning in Order! A Sequential Strategy to Learn Invariant Features for Multimodal Sentiment Analysis

这项工作提出了一种新颖而简单的顺序学习策略，以在视频和文本上培训模型，以进行多模式分析。为了估计看不见的分发数据的情感极性，我们引入了一种多模型模型，该模型使用我们的学习策略在单个源域或多个源域中进行了训练。该策略始于文本中的学习域不变特征，然后从视频中学习稀疏的域 - 无知功能，并在文本中学到的选定功能的协助下 ...

0 0 0 0 2025/07/12 arXiv:2409.04473v1 蛙isme

Pix2seq: A Language Modeling Framework for Object Detection

我们提出Pix2Seq，这是一个简单而通用的对象检测框架。与明确整合有关该任务的先验知识的现有方法不同，我们将对象检测作为一种语言建模任务，以观察到的像素输入为条件。对象描述（e ...

0 0 0 0 2025/07/12 arXiv:2109.10852v2 yiweima

Big Bird: Transformers for Longer Sequences

基于变形金刚的模型（例如BERT）一直是NLP最成功的深度学习模型之一。不幸的是，由于其全部注意机制，其核心局限性之一是对序列长度的二次依赖性（主要是在记忆方面）。为了解决这个问题，我们提出了大鸟，这是一种稀疏的注意机制，可降低这种二次依赖性线性 ...

0 0 0 0 2025/07/12 arXiv:2007.14062v2 DamnMan

Have You Merged My Model? On The Robustness of Large Language Model IP Protection Methods Against Model Merging

模型合并是一种有希望的轻型模型授权技术，不依赖昂贵的计算设备（例如GPU）或需要收集特定培训数据 ...

0 0 0 0 2025/07/12 arXiv:2404.05188v2 kkkk

From Large to Super-Tiny: End-to-End Optimization for Cost-Efficient LLMs

大型语言模型（LLM）通过优化传统的自然语言处理（NLP）工作流程，具有显着高级的人工智能，从而促进了它们与各种系统的集成。许多这样的NLP系统（包括我们的NLP系统）直接合并了LLM。但是，这种方法要么带来昂贵的成本，要么在微调后会产生次优的性能 ...

0 0 0 0 2025/07/12 arXiv:2504.13471v3 kkkk

Editing Across Languages: A Survey of Multilingual Knowledge Editing

尽管知识编辑已在单语设置中进行了广泛的研究，但在多语言上下文中仍然没有被忽视。这项调查使有关多语言知识编辑（MKE）的最新研究系统化，这是一个越来越多的模型编辑子域，旨在确保事实编辑可靠地跨语言概括。我们提出了MKE方法的全面分类学，涵盖基于参数的，基于内存的，微调和超网络方法 ...

0 0 0 0 2025/07/12 arXiv:2505.14393v1 kkkk