我们引入了VidlPro,这是一种专门为机器人和腹腔镜手术设计的新型视频语言(VL)预训练框架。尽管现有的手术VL模型主要依赖于对比度学习,但我们提出了一种更全面的方法来捕获复杂的时间动力学并与语言保持一致。 VidlPro集成了视频文本对比学习,视频文本匹配和蒙版语言建模目标,以学习丰富的VL表示 ...
以推理为中心的语言模型的最新进展突出了增强学习(RL),作为将模型与可验证奖励保持一致的有前途的方法。但是,RL是真正扩展模型的推理功能还是仅仅放大基本模型分布中已经潜在的高回报输出,以及是否不断扩大RL计算会可靠地导致推理性能提高,这仍然是有争议的。在这项工作中,我们通过证明延长的RL(PRORL)培训可以发现基本模型无法访问的新型推理策略,即使在广泛的采样中也无法访问,我们可以挑战普遍的假设 ...
最近,DeepSeek-R1(例如DeepSeek-R1)等深层推理大型语言模型(LLM)在数学和编码等任务中取得了重大进展。受到这一点的启发,一些研究采用了加强学习(RL)来增强模型的深层推理能力并提高机器翻译(MT)质量。但是,术语翻译是MT中的重要任务,在深度推理LLM中仍未探索 ...
内存是基于大型语言模型(LLMS)代理的基础AI系统的基本组成部分。虽然先前的调查专注于LLMS的内存应用,但它们经常忽略内存动态的原子操作。在此调查中,我们首先将内存表示形式分为参数,上下文结构化和上下文非结构化,然后引入六个基本内存操作:合并,更新,索引,遗忘,检索和压缩 ...
多模式代理将控制器(例如,视觉语言模型)与外部工具集成在一起,在解决复杂的多模式任务方面具有显着的功能 ...
手性活性颗粒(盖)是自传粒子,通过绕或旋转而打破时间反转对称性,导致有趣的行为。在这里,我们检查了通过活跃的布朗动力学模拟和草种子的粒状实验在磁盘障碍物的2D晶格中移动的帽动力学。我们发现,盖的有效扩散率对障碍物晶格的结构敏感,这是ACHIRAL活性颗粒中不存在的特征 ...
最近,大型语言模型(LLM)在自然语言理解和生成任务中的惊人表现引发了对将它们用作中央控制器的人们来构建代理系统的大量探索。扩展应用场景。然而,目前的 LLM 工具使用能力仅限于单个文本查询,这可能会导致用户真正理解含糊不清... ...
作为最基本的场景理解任务,目标检测和分割在深度学习时代取得了巨大的进步。由于昂贵的手动标记成本,现有数据集中的注释类别通常是小规模的和预定义的,即... ...