dm616703的文档

FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in High-Resolution Remote Sensing Imagery

随着深度学习的快速发展，许多基于深度学习的方法在对象检测任务中取得了重大成就。人们普遍知道，深度学习是一种数据驱动的方法。数据在某种程度上直接影响对象探测器的性能 ...

0 0 0 0 2025/06/12 arXiv:2103.05569v2 dm616703

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

对象引用旨在检测与给定自然语言描述匹配的图像中的所有对象。我们认为应将强大的对象引用模型扎根，这意味着其预测应该既可以解释又忠实于视觉内容。具体而言，它应该满足两个关键特性：1）可验证，通过产生可解释的推理来证明其预测合理并清楚地将其与视觉证据联系起来； 2）值得信赖的，当图像中没有对象满足给定表达时，学会弃权 ...

0 0 0 0 2025/06/11 arXiv:2506.04034v1 dm616703

Topology of Reasoning: Understanding Large Reasoning Models through Reasoning Graph Properties

最近的大规模推理模型已经在具有挑战性的数学基准方面取得了最先进的表现，但其成功的内部机制仍然很少理解。在这项工作中，我们介绍了一个推理图的概念，该概念是通过在每个推理步骤中群集隐藏态表示提取的，并系统地分析了跨多个任务（GSM8K，MATH500，AIME 2024）的三个关键图理论属性：环状，直径和小世界索引。我们的发现表明，蒸馏推理模型（e ...

0 0 0 0 2025/06/11 arXiv:2506.05744v2 dm616703

VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

DeepSeek-R1通过强化学习在激励大语模型（LLM）的推理和概括能力方面表现出了出色的有效性。然而，在图像质量评估（IQA）的背景下，尚未对推理引起的计算建模的潜力进行彻底探讨，这是一项至关重要的任务。在本文中，我们介绍了VisualQuality-R1，这是一种推理引起的无参考IQA（NR-IQA）模型，并通过强化学习来训练它，这是一种针对视觉质量本质上相对性质的学习算法 ...

0 0 0 0 2025/06/11 arXiv:2505.14460v1 dm616703

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

视觉生成模型在从文本提示中创建逼真的图像方面取得了显着的进步，但是在具有精确空间关系和属性的多个对象的复杂提示中挣扎。有效处理此类提示需要明确推理语义内容和空间布局。我们提出了GOT-R1，该框架应用了增强学习以增强视觉生成中的语义空间推理 ...

0 1 0 0 2025/06/11 arXiv:2505.17022v1 dm616703

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

主动视觉（也称为主动感知）是指积极选择在何处以及如何看待以收集与任务相关的信息的过程。它是人类和先进的体现药物有效感知和决策的关键组成部分。最近，将多模式大语模型（MLLM）用作机器人系统中的中央计划和决策模块，引起了广泛关注 ...

0 0 0 0 2025/06/11 arXiv:2505.21457v1 dm616703

Grounded Reinforcement Learning for Visual Reasoning

尽管在数学和编码等任务中，对思想链的增强学习（RL）具有显着高级的语言模型，但视觉推理通过要求模型直接视觉注意，解释感知输入以及空间证据中的地面抽象推理引入了增加的复杂性。我们介绍了Vigorl（视觉扎根的增强学习），这是一种视觉语言模型，该模型训练了RL，可以将每个推理步骤明确锚定为特定的视觉坐标。受到人类视觉决策的启发，Vigorl学会了产生空间扎根的推理痕迹，从而指导视觉关注与任务相关区域的视觉关注 ...

0 0 0 0 2025/06/10 arXiv:2505.23678v1 dm616703

Misaligning Reasoning with Answers -- A Framework for Assessing LLM CoT Robustness

LLMS的决策过程是不透明的，促使人们需要进行解释技术等思想链。为了研究答案与推理之间的关系，我们设计了一个新颖的评估框架，抹茶。在教育和医疗保健等领域，推理是模型可信度的关键 ...

0 1 0 0 2025/06/10 arXiv:2505.17406v1 dm616703

TACO: Think-Answer Consistency for Optimized Long-Chain Reasoning and Efficient Data Learning via Reinforcement Learning in LVLMs

DeepSeek R1对于大型语言模型（LLM）具有显着高级的复杂推理。尽管最近的方法试图在多模式设置中复制R1的推理能力，但它们面临局限性，包括推理和最终答案之间的矛盾，在长链探索过程中模型不稳定性和崩溃，以及数据学习效率低。为了应对这些挑战，我们提出了炸玉米饼，这是一种新颖的强化学习算法，用于视觉推理 ...

0 0 0 0 2025/06/09 arXiv:2505.20777v1 dm616703

More Thinking, Less Seeing? Assessing Amplified Hallucination in Multimodal Reasoning Models

测试时间计算已经授权多模式大型语言模型生成扩展的推理链，从而在诸如多模式数学推理等任务上产生了强大的性能。但是，这种提高的推理能力通常会增加幻觉：随着世代的变长，模型往往会偏离图像的内容，并更加依赖语言先验。注意分析表明，较长的推理链导致对视觉输入的关注减少，这导致了幻觉 ...

0 0 0 0 2025/06/09 arXiv:2505.21523v2 dm616703