法律文献检索和判决预测是智能法律系统中的关键任务。在实践中,确定两篇文献是否具有相同的判断对于确定它们在法律检索中的相关性至关重要。然而,现有的法律检索研究要么忽视了判断预测的重要作用,要么依赖隐含的训练目标,期望根据判断对向量空间中的法律文档进行适当的对齐。这两种方法都没有为相关性建模的判断一致性提供明确的证据,导致检索不准确且缺乏透明度。为了解决这个问题,我们在生成检索框架内提出了一种法律引导的方法,即 GEAR。 GEAR 以序列到序列的方式明确地将判断预测与法律文档检索集成起来。在两个中国法律案例检索数据集上的实验表明,GEAR 相对于最先进的方法具有优越性,同时保持了竞争性判断预测性能。此外,我们在法国法定文章检索数据集上验证了其跨语言和跨领域的稳健性 ...

0 0 0 0 2026/01/26 arXiv:2312.09591v2 sunshine3399

生成动画 3D 对象是许多应用程序的核心,但大多数先进的作品通常难以在实践中应用,因为它们的设置有限、运行时间长或质量有限。我们引入了 ActionMesh,这是一种生成模型,可以前馈方式预测“正在运行”的可用于生产的 3D 网格。从早期视频模型中汲取灵感,我们的主要见解是修改现有的 3D 扩散模型以包含时间轴,从而形成我们称为“时间 3D 扩散”的框架。具体来说,我们首先调整 3D 扩散阶段来生成一系列代表时变且独立的 3D 形状的同步潜在变量。其次,我们设计了一个时间 3D 自动编码器,它将一系列独立形状转换为预定义参考形状的相应变形,从而使我们能够构建动画。将这两个组件结合起来,ActionMesh 可根据不同的输入生成动画 3D 网格,例如单目视频、文本描述,甚至带有描述其动画的文本提示的 3D 网格。此外,与以前的方法相比,我们的方法速度很快,并且产生的结果是无装备且拓扑一致的,因此可以实现快速迭代和无缝应用,例如纹理和重定向。我们在标准视频到 4D 基准(Consistent4D、Objaverse)上评估我们的模型,并报告几何精度和时间一致性方面的最先进性能,证明我们的模型可以以前所未有的速度和质量提供动画 3D 网格 ...

0 0 0 0 2026/01/26 arXiv:2601.16148v1 陆三七

我们引入了 PhysGaussian,这是一种新方法,可将基于物理的牛顿动力学无缝集成到 3D 高斯中,以实现高质量的新颖运动合成。我们的方法采用定制的质点方法 (MPM),通过具有物理意义的运动变形和机械应力属性丰富了 3D 高斯核,所有这些都符合连续介质力学原理。我们方法的一个决定性特征是物理模拟和视觉渲染之间的无缝集成:两个组件都使用相同的 3D 高斯内核作为其离散表示。这消除了三角形/四面体网格划分、行进立方体、“笼式网格”或任何其他几何嵌入的必要性,突出了“所见即所模拟(WS$^2$)”的原则。我们的方法在各种材料(包括弹性实体、金属、非牛顿流体和颗粒材料)中展示了卓越的多功能性,展示了其以新颖的观点和运动创建多样化视觉内容的强大能力。我们的项目页面位于:此 https URL ...

0 0 0 0 2026/01/26 arXiv:2311.12198v3 wonglliam

根据语言指令,视觉语言导航(VLN)代理的任务是在看不见的环境中导航。虽然增强多方面的视觉表示推动了 VLN 的进步,但视觉观察中前景和背景的重要性仍未得到充分探索。直观上,前景区域提供语义线索,而背景包含空间连接信息。受这一见解的启发,我们提出了一种共识驱动的在线特征增强策略(COFA),具有替代的前景和背景特征,以促进可导航的泛化。具体来说,我们首先利用语义增强的地标识别来分离前景和背景作为候选增强特征。随后,共识驱动的在线增强策略鼓励代理根据不同的指令和导航位置整合关于特征偏好的两阶段投票结果。 REVERIE 和 R2R 上的实验表明,我们的在线前景-背景增强增强了基线的泛化能力,并获得了最先进的性能 ...

0 0 0 0 2026/01/26 arXiv:2510.00604v1 hll

最近的视觉感知政策强化学习框架已经开始纳入以自然语言表达的中间推理链。经验观察表明,这种纯粹的语言中间推理通常会降低感知任务的表现。我们认为,核心问题不在于推理本身,而在于推理的形式:虽然这些链在非结构化的语言空间中进行语义推理,但视觉感知需要在空间和以对象为中心的空间中进行推理。作为回应,我们引入了 Artemis,一个感知策略学习框架,它执行基于结构化提议的推理,其中每个中间步骤都表示为捕获可验证视觉状态的(标签,边界框)对。这种设计可以明确跟踪中间状态,直接监督提案质量,并避免基于语言的推理引入的歧义。 Artemis 基于 Qwen2.5-VL-3B 构建,在接地和检测任务上实现了强大的性能,并对计数和几何感知任务表现出了实质性的泛化能力。这些不同环境中的一致改进证实,将推理与空间表示相结合可以增强感知策略学习。由于其强化的视觉推理,Artemis 还在一般 MLLM 基准上取得了有竞争力的表现,这表明空间推理为可扩展和一般感知策略提供了原则性途径 ...

0 0 0 0 2026/01/26 arXiv:2512.01988v1 gonghaibin

本文介绍了 UI-TARS,这是一种原生 GUI 代理模型,它仅将屏幕截图视为输入并执行类似人类的交互(例如键盘和鼠标操作)。与依赖于严格包装的商业模型(例如 GPT-4o)以及专家制作的提示和工作流程的主流代理框架不同,UI-TARS 是一种端到端模型,其性能优于这些复杂的框架。实验证明了其卓越的性能:UI-TARS 在 10 多个评估感知、基础和 GUI 任务执行的 GUI 代理基准测试中实现了 SOTA 性能。值得注意的是,在 OSWorld 基准测试中,UI-TARS 在 50 个步骤中获得了 24.6 的分数,在 15 个步骤中获得了 22.7 的分数,优于 Claude(分别为 22.0 和 14.9)。在AndroidWorld中,UI-TARS达到了46.6,超过了GPT-4o(34.5)。 UI-TARS 融合了几项关键创新:(1) 增强感知:利用大规模 GUI 屏幕截图数据集,实现对 UI 元素的上下文感知理解和精确的字幕; (2)统一动作建模,将动作标准化到跨平台的统一空间,通过大规模的动作轨迹实现精准落地和交互; (3)System-2推理,将深思熟虑的推理融入多步骤决策中,涉及任务分解、反思思维、里程碑识别等多种推理模式。(4)反思性在线痕迹迭代训练,通过自动收集、过滤和反思性提炼数百个虚拟机上的新交互痕迹来解决数据瓶颈。通过迭代训练和反射调整,UI-TARS 不断从错误中学习,并以最少的人为干预适应不可预见的情况。我们还分析了 GUI 代理的演化路径,以指导该领域的进一步发展 ...

0 0 0 0 2026/01/26 arXiv:2501.12326v1 sher

在本文中,我们重点关注视听问答(AVQA)任务,该任务旨在回答有关视频中不同视觉对象、声音及其关联的问题。该问题需要对视听场景进行全面的多模态理解和时空推理。为了对这项任务进行基准测试并促进我们的研究,我们引入了一个大规模的 MUSIC-AVQA 数据集,其中包含超过 45K 个问答对,涵盖 33 个不同的问题模板,涵盖不同的模式和问题类型。我们开发了几个基线,并为 AVQA 问题引入了一个时空接地视听网络。我们的结果表明 AVQA 受益于多感官感知,并且我们的模型优于最近的 A、V 和 AVQA 方法。我们相信我们构建的数据集有潜力作为评估和促进视听场景理解和时空推理进展的测试平台。代码和数据集:这个http URL ...

0 0 0 0 2026/01/26 arXiv:2203.14072v2 15622278494

强化学习 (RL) 在推进通用人工智能、代理智能和具身智能方面表现出了巨大的潜力。然而,强化学习工作流程固有的异构性和动态性往往会导致现有系统的硬件利用率低和训练速度慢。在本文中,我们提出了 RLinf,这是一种高性能 RL 训练系统,基于我们的关键观察,即高效 RL 训练的主要障碍在于系统灵活性 ...

0 0 0 0 2026/01/26 arXiv:2509.15965v2 ljycr123

学习文本视频嵌入通常需要带有手动提供的字幕的视频剪辑数据集。然而,此类数据集的创建成本高昂且耗时,因此难以大规模获取。在这项工作中,我们建议从视频数据中学习这种嵌入,并以自动转录叙述的形式使用容易获得的自然语言注释。这项工作的贡献有三个方面。首先,我们介绍 HowTo100M:一个包含 1.36 亿个视频剪辑的大型数据集,这些视频剪辑源自 122 万个带叙述的教学网络视频,这些视频描绘了人类执行和描述超过 23k 种不同的视觉任务。我们的数据收集过程快速、可扩展,并且不需要任何额外的手动注释。其次,我们证明了在这些数据上训练的文本视频嵌入可以在教学视频数据集(例如 YouCook2 或 CrossTask)上实现文本到视频检索和动作本地化的最先进结果。最后,我们表明这种嵌入可以很好地转移到其他领域:对通用 Youtube 视频(MSR-VTT 数据集)和电影(LSMDC 数据集)的微调优于单独在这些数据集上训练的模型。我们的数据集、代码和模型将在以下网址公开提供:此 http URL ...

0 0 0 0 2026/01/26 arXiv:1906.03327v2 15622278494

我们提出 Ming-Flash-Omni,它是 Ming-Omni 的升级版本,建立在 Ling-Flash-2.0 的稀疏专家混合 (MoE) 变体之上,总参数为 1000 亿个,其中每个 Token 只有 61 亿个活跃参数 ...

0 0 0 0 2026/01/26 arXiv:2510.24821v2 18943768508