实时角色控制是交互式体验的重要组成部分,具有广泛的应用,包括物理模拟、视频游戏和虚拟现实。用于图像合成的扩散模型的成功导致了这些模型用于运动合成。然而,大多数这些运动扩散模型主要是为离线应用而设计的,其中时空模型用于以预先指定的长度同时合成整个帧序列。为了通过允许时变控制的扩散模型实现实时运动合成,我们提出了 A-MDM(自回归运动扩散模型)。我们的条件扩散模型将初始姿势作为输入,并自动回归生成以前一帧为条件的连续运动帧。尽管其简化的网络架构使用简单的 MLP,但我们的框架能够生成多样化、长范围和高保真度的运动序列。此外,我们还引入了一套将交互式控件合并到 A-MDM 中的技术,例如面向任务的采样、修复和分层强化学习。这些技术使预先训练的 A-MDM 能够有效地适应各种新的下游任务。我们进行了一系列全面的实验来证明 A-MDM 的有效性,并将其性能与最先进的自回归方法进行比较 ...

0 0 0 0 2026/01/26 arXiv:2306.00416v4 zyyleo

应急计划是一种架构功能,使自动驾驶车辆 (AV) 能够预测和减轻离散的高影响危险,例如传感器故障和对抗性交互。本文对该领域进行了全面的调查,将零散的文献综合成一个统一的逻辑条件混合控制框架。在这种形式主义中,我们将方法分为两种不同的范式:反应安全,通过强制安全约束或执行故障安全操作来响应已意识到的危险;主动安全,通过对潜在的模式转换进行分支来优化未来的追索权。此外,我们提出了一种细粒度的分类法,将景观划分为外部意外事件(环境和交互危害)和内部意外事件(系统故障)。通过批判性的比较分析,我们揭示了一个根本的结构分歧:内部故障主要通过反应式故障安全机制来解决,而外部交互的不确定性越来越需要主动的分支策略。此外,我们发现了一个关键的方法论分歧:虽然物理危害通常通过正式保证进行管理,但语义和分布外异常目前严重依赖于经验验证。最后,我们确定了弥合理论保证和实际验证之间差距的开放挑战,倡导混合架构和标准化基准测试,以将应急计划从制定过渡到可认证的实际部署 ...

0 0 0 0 2026/01/26 arXiv:2601.14880v1 布朗瓶

最近,视频生成技术发展迅速。鉴于视频内容在社交媒体平台上的流行,这些模型加剧了人们对虚假信息传播的担忧。因此,对能够区分人工智能生成的虚假视频并减轻虚假信息造成的潜在危害的探测器的需求不断增长。然而,缺乏来自最先进视频生成器的大规模数据集对此类检测器的开发构成了障碍。为了解决这一差距,我们引入了第一个人工智能生成的视频检测数据集 GenVideo。其具有以下特点:(1)视频量大,包括超过百万个人工智能生成和采集的真实视频; (2)丰富多样的生成内容和方法,涵盖广泛的视频类别和生成技术。我们对数据集进行了广泛的研究,并提出了两种针对真实场景的评估方法来评估检测器的性能:跨生成器视频分类任务评估经过训练的检测器在生成器上的泛化性;降级视频分类任务评估检测器处理传播过程中质量下降的视频的鲁棒性。此外,我们引入了一个名为 Detail Mamba (DeMamba) 的即插即用模块,旨在通过分析时间和空间维度的不一致性来识别人工智能生成的视频,从而增强检测器。我们的大量实验证明,与现有检测器相比,DeMamba 在 GenVideo 上具有卓越的通用性和鲁棒性。我们相信 GenVideo 数据集和 DeMamba 模块将显着推进 AI 生成视频检测领域的发展。我们的代码和数据集将在 \url{this https URL} 中提供 ...

0 0 0 0 2026/01/26 arXiv:2405.19707v3 ranking666

时间序列预测在经济、交通、能源和 AIOps 等各个领域具有重要价值,因为准确的预测有助于做出明智的决策。然而,现有的均方误差(MSE)损失函数有时无法准确捕获预测范围内的季节性或趋势,即使在前向传播中使用分解模块来分别对趋势和季节性进行建模也是如此。为了应对这些挑战,我们提出了一种简单而有效的基于分解的损失函数,称为 DBLoss。该方法使用指数移动平均线将时间序列分解为预测范围内的季节性和趋势分量,然后分别计算每个分量的损失,然后对其进行加权。作为通用损失函数,DBLoss 可以与任何深度学习预测模型结合。大量实验表明,DBLoss 显着提高了跨不同现实世界数据集的最先进模型的性能,并为时间序列损失函数的设计提供了新的视角 ...

0 0 0 0 2026/01/26 arXiv:2510.23672v1 bbbbban

近年来,大型语言模型(LLM)因其强大的推理能力和处理冷启动项目的有效性而被广泛用作推荐系统。为了更好地适应 LLM 的推荐,检索增强生成(RAG)已被纳入。大多数现有的RAG方法都是基于用户的,检索与目标用户相似的用户的购买模式并将其提供给LLM。在这项工作中,我们提出了 ItemRAG,一种基于项目的 RAG 方法,用于基于 LLM 的推荐,从项目-项目共同购买历史中检索相关项目(而不是用户)。 ItemRAG 帮助 LLM 捕获项目之间的共同购买模式,这有利于推荐。特别是,我们的检索策略结合了语义相似的项目,以更好地处理冷启动项目,并使用共同购买频率来提高检索到的项目的相关性。通过大量实验,我们证明 ItemRAG 始终如一地 (1) 在 Hit-Ratio-1 中将基于 LLM 的零样本推荐器提高了高达 43%,并且 (2) 在标准和冷启动项目推荐设置下均优于基于用户的 RAG 基线 ...

0 0 0 0 2026/01/26 arXiv:2511.15141v1 榴莲糯米甜甜

机器人辅助微创手术可以大大提高手术精度,减轻外科医生的疲劳。本文重点研究了针对高精度任务的腹腔镜手术机器人臂的运动学和人体工程学设计原理。我们提出了一种 7 自由度 (7-DOF) 机械臂系统,该系统在器械插入点处结合了远程运动中心 (RCM) 并考虑了人体工程学因素,以改善外科医生的互动。该设计在通用机器人平台上实现,并执行了一系列模拟手术任务,以评估与传统手动腹腔镜检查相比的瞄准精度、任务效率和外科医生舒适度。实验结果表明,优化的机器人设计显着提高了瞄准精度(误差减少了 50% 以上),缩短了任务完成时间,同时大大降低了操作员的肌肉劳损和不适。这些发现验证了运动学优化(例如增加关节和颤抖过滤)和以人为本的人体工程学设计在提高机器人辅助手术性能方面的重要性。这项工作的见解可以指导下一代手术机器人的开发,从而改善手术团队的手术结果和人体工程学 ...

0 0 0 0 2026/01/26 arXiv:2511.02167v1 7k7k

大型数据集是使用深度学习的计算机视觉最新进展的基石。相比之下,现有的人体动作捕捉(mocap)数据集较小且动作有限,阻碍了人体动作学习模型的进展。虽然有许多不同的数据集可用,但它们各自使用不同的主体参数化,因此很难将它们集成到单个元数据集中。为了解决这个问题,我们引入了 AMASS,这是一个大型且多样化的人体运动数据库,通过在通用框架和参数化中表示它们来统一 15 个不同的基于光学标记的动作捕捉数据集。我们使用一种新方法 MoSh++ 来实现这一目标,该方法将动作捕捉数据转换为由装备的身体模型表示的真实 3D 人体网格;这里我们使用 SMPL [doi:https://doi.org/10.1145/2816795.2818013],它被广泛使用并提供标准的骨架表示以及完全装配的表面网格。该方法适用于任意标记集,同时恢复软组织动力学和真实的手部运动。我们使用基于标记的动作捕捉联合记录的 4D 身体扫描新数据集来评估 MoSh++ 并调整其超参数。 AMASS 的一致表示使其很容易用于动画、可视化和生成深度学习训练数据。我们的数据集比以前的人体动作集合要丰富得多,拥有超过 40 小时的动作数据,涵盖 300 多个主题,超过 11,000 个动作,并将向研究界公开提供 ...

0 0 0 0 2026/01/26 arXiv:1904.03278v1 zyyleo

本文调查并组织了自然语言处理新范式的研究工作,我们将其称为“基于提示的学习”。与传统的监督学习不同,传统的监督学习训练模型接受输入 x 并将输出 y 预测为 P(y|x),基于提示的学习基于直接对文本概率进行建模的语言模型。为了使用这些模型执行预测任务,使用模板将原始输入x修改为具有一些未填充槽的文本字符串提示x',然后使用语言模型概率性地填充未填充的信息以获得最终字符串x,从中可以导出最终输出y。该框架功能强大且有吸引力,原因有很多:它允许语言模型在大量原始文本上进行预训练,并且通过定义新的提示函数,该模型能够执行少样本甚至零样本学习,适应很少或没有标记数据的新场景。在本文中,我们介绍了这一有前途的范式的基础知识,描述了一套统一的数学符号,可以涵盖各种现有的工作,并沿着多个维度组织现有的工作,即预训练模型、提示和调优策略的 http URL 选择。为了使感兴趣的初学者更容易进入该领域,我们不仅对现有作品进行了系统回顾,并对基于提示的概念进行了高度结构化的分类,而且还发布了其他资源,例如,一个包含不断更新的调查和论文列表的 http URL 网站 ...

0 0 0 0 2026/01/26 arXiv:2107.13586v1 heyi

我们开发信息几何技术来分析训练期间深度网络预测的轨迹。通过检查底层的高维概率模型,我们揭示了训练过程有效地探索了低维流形。具有各种架构、大小、使用不同优化方法、正则化技术、数据增强技术和权重初始化进行训练的网络位于预测空间中的同一流形上。我们研究了这个流形的细节,发现具有不同架构的网络遵循可区分的轨迹,但其他因素的影响很小;较大的网络沿着与较小网络类似的流形进行训练,只是速度更快;在预测空间的不同部分初始化的网络沿着类似的流形收敛到解 ...

0 0 0 0 2026/01/26 arXiv:2305.01604v3 hwrabbit

最近的自动驾驶视觉-语言-动作(VLA)模型探索推理时间推理,作为在具有挑战性的场景中提高驾驶性能和安全性的一种方法。大多数先前的工作在产生驾驶动作之前使用自然语言来表达思想链(CoT)推理。然而,文本可能不是最有效的推理表示。在这项工作中,我们提出了 Latent-CoT-Drive (LCDrive):一种用潜在语言表达 CoT 的模型,该语言捕获正在考虑的驾驶行为的可能结果。我们的方法通过在与动作一致的潜在空间中表示来统一 CoT 推理和决策。该模型不是通过自然语言进行推理,而是通过交错 (1) 动作建议标记,这些标记使用与模型的输出动作相同的词汇; (2) 世界模型 Token ,它基于学习的潜在世界模型并表达这些行为的未来结果。我们根据未来场景的真实情况,通过监督模型的行动建议和世界模型 Token 来冷启动潜在的 CoT。然后,我们通过闭环强化学习进行后期训练,以增强推理能力。在大规模端到端驾驶基准上,与非推理和文本推理基准相比,LCDrive 实现了更快的推理、更好的轨迹质量以及交互式强化学习的更大改进 ...

0 0 0 0 2026/01/26 arXiv:2512.10226v1 jane88