Barca的文档

MSA at ImageCLEF 2025 Multimodal Reasoning: Multilingual Multimodal Reasoning With Ensemble Vision Language Models

我们提出了一个基于强大的集合系统，用于多语言多模式推理，该系统为Imageclef 2025考试V挑战而设计。我们的方法集成了Gemini 2.5闪光灯进行视觉描述，双子座1 ...

0 0 0 0 2025/07/16 arXiv:2507.11114v1 Barca

EmbRACE-3K: Embodied Reasoning and Action in Complex Environments

最近的高级视觉模型（VLM）在被动，离线图像和视频理解任务上表现出了很强的表现。但是，它们在体现的设置中的有效性（需要在线互动和积极的场景理解仍然有限）仍然有限。在这种情况下，代理从第一人称角度看待环境，每个动作都会动态塑造随后的观察 ...

0 0 0 0 2025/07/15 arXiv:2507.10548v1 Barca

Squeeze the Soaked Sponge: Efficient Off-policy Reinforcement Finetuning for Large Language Model

强化学习（RL）证明了其提高大语模型（LLM）推理能力的潜力。大多数现有的增强者（RFT）方法的一个主要局限性是它们本质上是政策的RL，即 ...

0 0 0 0 2025/07/10 arXiv:2507.06892v1 Barca

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

这项工作探讨了使思想链（COT）推理可以链接多个图像的视觉提示。一个简单的解决方案是将基于规则的增强学习适应视觉模型（VLMS）。但是，这种方法通常依赖于手动策划的问答对，在处理精细的粒度视觉细节和跨图像的复杂逻辑时，这可能特别具有挑战性 ...

0 0 0 0 2025/06/30 arXiv:2506.22434v1 Barca

HumanOmniV2: From Understanding to Omni-Modal Reasoning with Context

随着多模式大语言模型的快速发展，深入理解和解释人类意图的能力已成为一种关键能力，这需要详细且周到的推理。在最近的研究中，增强学习（RL）证明了增强大语言模型（LLMS）的推理能力的潜力。尽管如此，与将RL适应多模式数据和格式相关的挑战在很大程度上仍未得到解决 ...

0 0 0 0 2025/06/27 arXiv:2506.21277v1 Barca

AutoRule: Reasoning Chain-of-thought Extracted Rule-based Rewards Improve Preference Learning

基于规则的奖励提供了一种有前途的策略来改善从人类反馈（RLHF）中学习的强化学习，但是当前的方法通常依赖于手动规则工程。我们提出自动化，这是一种完全自动化的方法，用于从偏好反馈中提取规则并将其提出为基于规则的奖励。自动提取分为三个阶段：它利用推理模型来解释用户偏好，从这些解释的推理链中识别候选规则，并将其合成为统一规则集 ...

0 0 0 0 2025/06/20 arXiv:2506.15651v1 Barca

An Empirical Study of LLM-as-a-Judge: How Design Choices Impact Evaluation Reliability

随着大型语言模型（LLM）继续发展，可靠的评估方法是至关重要的，特别是对于开放式，指导遵循的任务。 LLM-AS-A-Gudge可以使用LLMS作为评估者进行自动评估，但其可靠性仍然不确定。在这项工作中，我们分析了影响其可信度的关键因素，重点是与人类判断和评估一致性保持一致 ...

0 0 0 0 2025/06/17 arXiv:2506.13639v1 Barca