由于缺乏3D数据,从单个图像中生成灵活视图3D场景,包括360°旋转和缩放。为此,我们介绍了Flexworld,这是一个由两个关键组成部分组成的新颖框架:(1)强大的视频对视频(V2V)扩散模型,以从粗糙场景中呈现出不完整的输入的高质量的新视图图像,以及(2)渐进式扩展过程来构建完整的3D场景。特别是,利用先进的预训练的视频模型和准确的深度估计训练对,我们的V2V模型可以在大型摄像头姿势变化下产生 ...
0 0 0 2025/05/21 arXiv:2503.13265v2 wonglliam
大型语言模型的最新出现激起了人们关于人类认知能力是否可能在此类通用模型中出现的辩论。特别令人感兴趣的是这些模型在没有任何直接训练的情况下推理新问题的能力。在人类的认知中,这种能力与类比的推理能力紧密相关 ...
0 0 0 2025/05/21 arXiv:2212.09196v3 luxiaoti
多模式大语模型(MLLM)具有令人印象深刻的功能,但在复杂的视觉推理中仍然面临挑战。尽管最近的努力试图通过通过明确的搜索结构或教师指导的蒸馏来纳入类似OpenAi O1的结构化思维来增强MLLM的推理,但他们经常努力平衡性能和效率。一个关键的限制是他们对广泛的数据和搜索空间的严重依赖,从而导致低效率的隐性见解提取和数据利用 ...
0 0 0 2025/05/21 arXiv:2502.02339v2 fulyace
我们介绍了代理推理,该框架通过整合使用外部工具的代理来增强大型语言模型(LLM)推理。与传统的基于LLM的推理方法不同,这些方法仅依赖于内部推理,代理推理动态参与Web搜索,代码执行和结构化的推理 - 上下文内存,以解决需要深入研究和多步逻辑扣除的复杂问题。我们的框架介绍了思维地图代理,该框架构建了一个结构化的知识图来跟踪逻辑关系,从而改善了演绎推理 ...
0 1 2 2025/05/21 arXiv:2502.04644v1 smarto
尽管取得了长足的进步,但现有的多模式大型语言模型(MLLM)容易出现视觉幻觉,极大地阻碍了他们值得信赖的应用。在本文中,我们从视觉空间推理的角度研究了这个问题,并为MLLM提出了一项新的学习任务,该任务称为扎根链(GCOT)。与最近关注视觉知识推理的最新视觉COT研究不同,GCOT渴望帮助MLLM逐步识别和扎根相关的视觉提示,从而以接地坐标为直观的基础来预测正确的答案 ...
0 0 0 2025/05/21 arXiv:2503.12799v2 fulyace
通过复杂的自定义环境和多个要求,实现有效的设计和改进奖励功能(RL)任务。在本文中,我们建议使用LLMS的有效奖励函数搜索器ERFSL,这使LLMS能够成为有效的白色盒子搜索器,并突出显示其高级语义理解功能。具体来说,我们为每个数字上明确的用户需求生成奖励组件,并使用奖励评论家来确定正确的代码表格 ...
0 0 0 2025/05/21 arXiv:2409.02428v3 JayLiu
基于大语言模型(LLM)的智能代理系统在现实世界应用中显示出巨大的潜力。但是,现有的代理框架仍然面临任务计划和执行的关键限制,从而限制了其有效性和可推广性。具体而言,当前的计划方法通常缺乏明确的全球目标,导致代理人陷入本地分支机构或制定不可执行的计划 ...
0 0 0 2025/05/21 arXiv:2504.16563v3 Flyer-Jia
文档内容提取在计算机视觉中至关重要,尤其是满足大型语言模型(LLM)和检索增强生成(RAG)技术的高质量数据需求。然而,当前的文档解析方法在多样性和综合评估方面存在很大的局限性。为了应对这些挑战,我们推出了 OmniDocBench,这是一种新颖的多源基准测试,旨在推进自动化文档内容提取 ...
0 0 0 2025/05/21 arXiv:2412.07626v2 15501287966

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)