我们提出了第一个深度学习模型,可以使用强化学习直接从高维感官输入成功学习控制策略。该模型是一个卷积神经网络,采用Q学习的变体进行训练,其输入是原始像素 ...
在本文中,我们调查了使用大语言模型(LLM)推理的加强学习(RL)的最新进展。 RL在推进LLM功能的前沿方面取得了巨大的成功,特别是在解决复杂的逻辑任务(例如数学和编码)方面。结果,RL已成为将LLMS转化为LRM的基础方法 ...
我们引入了 MCTS-RAG,这是一种新颖的方法,它通过利用检索增强生成(RAG)提供相关上下文和蒙特卡罗树搜索(MCTS)来细化推理路径,从而增强小语言模型在知识密集型任务上的推理能力。 MCTS-RAG 通过迭代决策过程动态集成检索和推理。与标准 RAG 方法(通常独立于推理检索信息,从而以次优方式集成知识)或传统 MCTS 推理(仅依赖于内部模型知识而不依赖外部事实)不同,MCTS-RAG ...
在本文中,我们开发了用于多视图,3d对象检测的位置嵌入变换(PETR)。petr将3d坐标的位置信息编码为图像特征,产生3d位置感知特征。对象查询可以感知3d位置感知特征并执行端到端对象检测... ...
时间推理对人类认知至关重要,对于各种现实世界的应用至关重要。尽管大型语言模型的最新进展表明了时间推理中有希望的能力,但现有的基准主要依赖于基于规则的构造,缺乏上下文深度,并且涉及有限的时间实体。为了解决这些局限性,我们引入了中国时间推理(CTM),这是一种基准,旨在评估中国王朝年表的广泛范围内的时间推理LLM ...
视觉语言模型(VLM)可以通过文本互动灵活地解决各种视觉任务。尽管在语义理解方面取得了成功,但包括GPT-5在内的最先进的VLM仍在努力从2D输入中理解3D。另一方面,专家纯视觉模型在度量深度估计中达到了超人的准确性,这是一个关键的3D理解任务 ...
扩散模型已经证明了它们产生多样化和高质量图像的能力,这引起了他们对真实图像编辑应用的潜力的极大兴趣。但是,由于液体靶图像和扩散潜在变量的潜在混合,现有的基于扩散的方法对于本地图像编辑通常会遭受不希望的人工制品的影响,这缺乏维持图像一致性的必要语义。为了解决这些问题,我们提出了PFB-DIFF,这是一种用于基于扩散图像编辑的渐进式功能混合方法 ...
首先描述了 Transformer 每个部分的矩阵表达式。基于矩阵的半张量产物(STP),重新考虑了高量向量,并通过使用投影构建对向量上的线性转换。获得其特性和计算公式 ...