生成人工智能(Genai)构成了一种变革性的技术浪潮,该浪潮通过其无与伦比的内容来创建内容,推理,计划和多模式理解来重新配置行业。这种革命力量为解决工程最大的挑战之一提供了最有前途的途径:实现可靠,完全自主的驾驶,尤其是追求5级自治的驾驶。这项调查提供了Genai在自主驾驶堆栈中新兴作用的全面和关键综合 ...
受深度学习在计算机视觉和语言理解方面取得巨大成功的影响,推荐研究已转向发明基于神经网络的新推荐模型。近年来,我们见证了神经推荐模型的发展取得了重大进展,由于神经网络强大的表示能力,神经推荐模型泛化并超越了传统的推荐模型。在这篇综述论文中,我们从推荐建模的角度 ...
由于缺乏3D数据,从单个图像中生成灵活视图3D场景,包括360°旋转和缩放。为此,我们介绍了Flexworld,这是一个由两个关键组成部分组成的新颖框架:(1)强大的视频对视频(V2V)扩散模型,以从粗糙场景中呈现出不完整的输入的高质量的新视图图像,以及(2)渐进式扩展过程来构建完整的3D场景。特别是,利用先进的预训练的视频模型和准确的深度估计训练对,我们的V2V模型可以在大型摄像头姿势变化下产生 ...
大型语言模型的最新出现激起了人们关于人类认知能力是否可能在此类通用模型中出现的辩论。特别令人感兴趣的是这些模型在没有任何直接训练的情况下推理新问题的能力。在人类的认知中,这种能力与类比的推理能力紧密相关 ...
多模式大语模型(MLLM)具有令人印象深刻的功能,但在复杂的视觉推理中仍然面临挑战。尽管最近的努力试图通过通过明确的搜索结构或教师指导的蒸馏来纳入类似OpenAi O1的结构化思维来增强MLLM的推理,但他们经常努力平衡性能和效率。一个关键的限制是他们对广泛的数据和搜索空间的严重依赖,从而导致低效率的隐性见解提取和数据利用 ...
我们介绍了代理推理,该框架通过整合使用外部工具的代理来增强大型语言模型(LLM)推理。与传统的基于LLM的推理方法不同,这些方法仅依赖于内部推理,代理推理动态参与Web搜索,代码执行和结构化的推理 - 上下文内存,以解决需要深入研究和多步逻辑扣除的复杂问题。我们的框架介绍了思维地图代理,该框架构建了一个结构化的知识图来跟踪逻辑关系,从而改善了演绎推理 ...
尽管取得了长足的进步,但现有的多模式大型语言模型(MLLM)容易出现视觉幻觉,极大地阻碍了他们值得信赖的应用。在本文中,我们从视觉空间推理的角度研究了这个问题,并为MLLM提出了一项新的学习任务,该任务称为扎根链(GCOT)。与最近关注视觉知识推理的最新视觉COT研究不同,GCOT渴望帮助MLLM逐步识别和扎根相关的视觉提示,从而以接地坐标为直观的基础来预测正确的答案 ...
通过复杂的自定义环境和多个要求,实现有效的设计和改进奖励功能(RL)任务。在本文中,我们建议使用LLMS的有效奖励函数搜索器ERFSL,这使LLMS能够成为有效的白色盒子搜索器,并突出显示其高级语义理解功能。具体来说,我们为每个数字上明确的用户需求生成奖励组件,并使用奖励评论家来确定正确的代码表格 ...