“预训练$ \ rightarrow $ downstream改编”为持续学习带来了新的机会和挑战(CL)。尽管CL中最近的最新技术是通过参数效率调整(PET)适应范式实现的,但仅探索了提示,仅限制了其应用于 Transformer 。在本文中,我们将促使PET的一个实例化定位,并用一般PET提出一个统一的CL框架,被称为学习蓄能 - 征服 - 综合(LAE) ...
基于嵌入的检索是工业推荐系统匹配的候选项目的主要方法。随着生成AI的成功,生成的检索最近成为了推荐的新检索范式,该范式将项目检索视为一代问题。它的模型由两个阶段组成:语义 Token 化和自回归产生 ...
减轻奖励黑客 - 由于其学习目标中的缺陷或错误的特定问题,AI系统行为不当 - 造成了构建能力和调整模型的关键挑战。我们表明,我们可以通过使用另一个观察该模型的经济链(COT)推理的LLM来监视诸如OpenAI O3-Mini之类的前沿推理模型,以便在代理编码环境中进行奖励黑客入侵。 COT监视可以比单独监测剂的动作和输出更有效,我们进一步发现,比O3-Mini(即GPT-4O)弱的LLM可以有效 ...
视频生成的最新进展显示出了生成未来场景的希望,这对于自动驾驶和体现智能的计划和控制至关重要。但是,现实世界的应用要求在视觉上的合理预测中要求更多。他们需要基于明确定义的边界条件的对象运动的推理,例如初始场景图像和部分对象运动。我们称此能力边界条件运动推理 ...
随着城市化的加速,现代的城市交通系统变得越来越复杂,导致交通异常。这些异常不仅包含常见的交通拥堵,还包括更具挑战性的问题,例如幻影交通拥堵,交叉路口僵局和事故责任分析,它们严重影响交通流量,车辆安全性和整体运输效率。目前,现有解决方案主要依赖于交通警察或基于人工智能的检测系统的手动干预 ...
大型语言模型(LLM)的奖励信号使用方面的最新进展是显着的。但是,将奖励信号转移到多模式领域时,存在重大挑战,包括劳动密集型注释,对一步奖励的过度依赖和评估不足。为了解决这些问题,我们提出了SVIP,这是一种新型的方法,可以自动训练阶梯级多维链链〜(COT)奖励模型 ...
尽管最初是为了自然语言处理而引入的,但 Transformer 仍被广泛用作计算机视觉中的通用骨干。最近,长短期记忆 (LSTM) 已扩展到可扩展且高性能的架构 - xLSTM - 它通过指数门控和可并行矩阵记忆结构克服了长期存在的 LSTM 限制。在本报告中,我们介绍了 Vision-LSTM (ViL),它是 xLSTM 构建块对计算机视觉的适应 ...
人工智能研究的长期目标是构建能够用自然语言与人类交流、感知环境并执行现实世界任务的智能代理。视觉和语言导航((VLN))是实现这一目标的基础性跨学科研究课题,并受到自然语言处理、计算机视觉、机器人和机器学习社区越来越多的关注。在本文中,我们回顾了vln这一新兴领域的当代研究 ...