我们提出了一个基于强大的集合系统,用于多语言多模式推理,该系统为Imageclef 2025考试V挑战而设计。我们的方法集成了Gemini 2.5闪光灯进行视觉描述,双子座1 ...
最近的高级视觉模型(VLM)在被动,离线图像和视频理解任务上表现出了很强的表现。但是,它们在体现的设置中的有效性(需要在线互动和积极的场景理解仍然有限)仍然有限。在这种情况下,代理从第一人称角度看待环境,每个动作都会动态塑造随后的观察 ...
强化学习(RL)证明了其提高大语模型(LLM)推理能力的潜力。大多数现有的增强者(RFT)方法的一个主要局限性是它们本质上是政策的RL,即 ...
这项工作探讨了使思想链(COT)推理可以链接多个图像的视觉提示。一个简单的解决方案是将基于规则的增强学习适应视觉模型(VLMS)。但是,这种方法通常依赖于手动策划的问答对,在处理精细的粒度视觉细节和跨图像的复杂逻辑时,这可能特别具有挑战性 ...
随着多模式大语言模型的快速发展,深入理解和解释人类意图的能力已成为一种关键能力,这需要详细且周到的推理。在最近的研究中,增强学习(RL)证明了增强大语言模型(LLMS)的推理能力的潜力。尽管如此,与将RL适应多模式数据和格式相关的挑战在很大程度上仍未得到解决 ...
基于规则的奖励提供了一种有前途的策略来改善从人类反馈(RLHF)中学习的强化学习,但是当前的方法通常依赖于手动规则工程。我们提出自动化,这是一种完全自动化的方法,用于从偏好反馈中提取规则并将其提出为基于规则的奖励。自动提取分为三个阶段:它利用推理模型来解释用户偏好,从这些解释的推理链中识别候选规则,并将其合成为统一规则集 ...
随着大型语言模型(LLM)继续发展,可靠的评估方法是至关重要的,特别是对于开放式,指导遵循的任务。 LLM-AS-A-Gudge可以使用LLMS作为评估者进行自动评估,但其可靠性仍然不确定。在这项工作中,我们分析了影响其可信度的关键因素,重点是与人类判断和评估一致性保持一致 ...