多模式大语模型(MLLM)具有令人印象深刻的功能,但在复杂的视觉推理中仍然面临挑战。尽管最近的努力试图通过通过明确的搜索结构或教师指导的蒸馏来纳入类似OpenAi O1的结构化思维来增强MLLM的推理,但他们经常努力平衡性能和效率。一个关键的限制是他们对广泛的数据和搜索空间的严重依赖,从而导致低效率的隐性见解提取和数据利用 ...
我们介绍了代理推理,该框架通过整合使用外部工具的代理来增强大型语言模型(LLM)推理。与传统的基于LLM的推理方法不同,这些方法仅依赖于内部推理,代理推理动态参与Web搜索,代码执行和结构化的推理 - 上下文内存,以解决需要深入研究和多步逻辑扣除的复杂问题。我们的框架介绍了思维地图代理,该框架构建了一个结构化的知识图来跟踪逻辑关系,从而改善了演绎推理 ...
尽管取得了长足的进步,但现有的多模式大型语言模型(MLLM)容易出现视觉幻觉,极大地阻碍了他们值得信赖的应用。在本文中,我们从视觉空间推理的角度研究了这个问题,并为MLLM提出了一项新的学习任务,该任务称为扎根链(GCOT)。与最近关注视觉知识推理的最新视觉COT研究不同,GCOT渴望帮助MLLM逐步识别和扎根相关的视觉提示,从而以接地坐标为直观的基础来预测正确的答案 ...
通过复杂的自定义环境和多个要求,实现有效的设计和改进奖励功能(RL)任务。在本文中,我们建议使用LLMS的有效奖励函数搜索器ERFSL,这使LLMS能够成为有效的白色盒子搜索器,并突出显示其高级语义理解功能。具体来说,我们为每个数字上明确的用户需求生成奖励组件,并使用奖励评论家来确定正确的代码表格 ...
基于大语言模型(LLM)的智能代理系统在现实世界应用中显示出巨大的潜力。但是,现有的代理框架仍然面临任务计划和执行的关键限制,从而限制了其有效性和可推广性。具体而言,当前的计划方法通常缺乏明确的全球目标,导致代理人陷入本地分支机构或制定不可执行的计划 ...
文档内容提取在计算机视觉中至关重要,尤其是满足大型语言模型(LLM)和检索增强生成(RAG)技术的高质量数据需求。然而,当前的文档解析方法在多样性和综合评估方面存在很大的局限性。为了应对这些挑战,我们推出了 OmniDocBench,这是一种新颖的多源基准测试,旨在推进自动化文档内容提取 ...
将空间布局与文本相结合的最新方法在大型语言模型(LLMS)中以文档理解(LLMS)显示出令人鼓舞的结果。一种常用的方法是将布局信息表示为文本 Token ,并将其与文本内容作为LLMS的输入交织在一起。但是,这种方法仍然显示出局限性,因为它需要用于代表布局信息的 Token 的其他位置ID ...
检索增强的生成(RAG)系统赋予大型语言模型(LLMS)在推理过程中访问外部知识。最近的进步使LLM能够通过增强学习(RL)充当搜索剂,从而通过与检索引擎进行多转交互通过多转交流来改善信息的获取。但是,现有方法要么使用仅搜索指标来优化检索(e ...