我们通过将奖励建模作为政策歧视者提出奖励建模,提供了一种新颖的看法,该歧视者量化了两种政策之间产生奖励信号的差异,从而指导培训政策以所需的行为实现目标政策。基于这种概念上的见解,我们提出了一种名为策略判别学习(Polar)的可扩展培训方法,该方法训练奖励模型(RM)以辨别相同的政策并区分不同的政策。与依靠绝对偏好的传统奖励建模方法不同,Polar捕获了一个策略和任意目标策略之间的相对差异,这是一个 ...
常规的多对象跟踪(MOT)系统主要是为行人跟踪设计的,并且通常对其他对象类别表现出有限的概括。本文提出了一个通用的跟踪框架,能够处理多种对象类型,并特别强调复杂的交通场景中的车辆跟踪。提出的方法结合了两个关键组成部分:(1)一种闭塞感的重新识别机制,可增强身份保存,以保护大量闭塞物体,以及(2)采用道义意识的轨道改进策略,该曲目的精致策略,该策略,以语义场景的态度,例如巷道,交叉行动,交叉界和公路 ...
用于图形用户界面(GUI)的自主代理的开发提出了人工智能的主要挑战。尽管本地代理模型的最新进展通过终端学习统一,推理,行动和记忆表现出了希望,但在数据可扩展性,多转弯加固学习(RL),GUI-FOLLY操作的局限性和环境稳定性中仍然存在开放性问题。在这份技术报告中,我们提出了一个以GUI为中心的代理模型UI-TARS-2,该模型通过系统培训方法来解决这些挑战:可扩展数据生成的数据飞轮,稳定的多转移 ...
大型视力和语言模型(LVLM)的传统一致性方法主要依赖于人类策划的偏好数据。人类生成的偏好数据成本高昂;机器生成的偏好数据的质量有限;自我监督的偏好数据通常会引入幻觉。为了克服这些局限性,我们提出了一个新颖的同伴学习框架,灵感来自于人类之间的协作学习 ...
知识图应答(KGQA)旨在通过利用其关系和语义结构来检索准确的答案来解释自然语言查询并通过知识图执行结构性推理。最近的KGQA方法主要遵循检索到期的范式,依靠GNN或启发式规则进行静态路径提取,或使用使用大语言模型(LLMS)的动态路径生成策略,以促使共同执行检索和推理。但是,前者由于静态路径提取和缺乏上下文精致而受到有限的适应能力,而后者则造成了高计算成本,并且由于依赖固定得分功能和广泛的LLM ...
有条件的运动产生已经在计算机视觉中进行了广泛的研究,但仍有两个关键的挑战。首先,虽然掩盖的自回旋方法最近超过了基于扩散的方法,但现有的遮罩模型缺乏基于给定条件的动态框架和身体部位优先级的机制。其次,现有的不同条件方式的方法通常无法有效整合多种模态,从而限制了生成运动中的控制和连贯性 ...
在DeepSeek-V2中引入的多头潜在注意力(MLA)将钥匙值状态压缩到低级别的潜在矢量中,仅缓存该向量以减少内存。但是,在张量并行性(TP)中,注意力头是在多个设备上计算的,并且每个设备必须加载完整的缓存,从而侵蚀MLA优于分组查询注意力(GQA)。我们提出了张量 - 平行的潜在注意力(TPLA):一种将潜在表示和每个头部的输入维度划分的方案跨设备,每片独立地执行注意力,然后将结果与全降低结合 ...
复合图是包含多种亚法物质的多面板复合材料,在生物医学文献中无处不在,但大规模的亚法提取仍然在很大程度上未得到压制。在数据集大小和概括性上,有关亚图提取的先前工作受到限制,留下了一个关键的开放问题:通过大规模的亚图提取影响表示在视觉模型中,高保真图像文本如何通过大规模的亚图提取影响表示?我们通过基于基于 Transformer 的对象检测引入可扩展的亚图提取管道来解决这一差距,该管道对500,000 ...