局部操纵是人形机器人在人类环境中实现多功能交互的基本挑战。尽管最近的研究在人形全身控制方面取得了重大进展,但局部操纵仍未得到充分探索,并且通常依赖于硬编码的任务定义或昂贵的现实世界数据收集,这限制了自主性和泛化性。我们提出了 DemoHLM,这是一个人形局部操纵框架,它可以通过模拟中的单个演示在真实的人形机器人上进行通用局部操纵。 DemoHLM采用层次结构,将低级通用全身控制器与针对多个任务的高级操纵策略集成在一起。全身控制器将全身运动命令映射到关节扭矩,并为仿人机器人提供全向移动性。通过我们的数据生成和模仿学习管道在模拟中学习的操纵策略,通过闭环视觉反馈命令全身控制器执行具有挑战性的局部操纵任务。实验表明,合成数据量与政策绩效之间呈正相关,强调了我们数据生成管道的有效性和我们方法的数据效率。在配备 RGB-D 相机的 Unitree G1 机器人上进行的真实实验验证了 DemoHLM 的模拟到真实的可转移性,展示了在十个局部操纵任务的空间变化下的稳健性能 ...

0 0 0 0 2026/01/12 arXiv:2510.11258v1 zhanghl1987

现有的人形控制系统通常依赖于远程操作或模块化生成管道,将语言理解与物理执行分开。然而,前者完全是人类驱动的,而后者缺乏语言命令和身体行为之间的紧密结合。在本文中,我们提出了 SENTINEL,一种用于人形全身控制的完全端到端语言动作模型。我们通过使用预先训练的全身控制器在模拟中跟踪人体运动并结合其文本注释来构建大规模数据集。该模型直接将语言命令和本体感受输入映射到低级动作,无需任何中间表示。该模型使用流匹配生成动作块,随后可以通过剩余动作头对其进行细化以进行实际部署。我们的方法在模拟和现实世界部署中都表现出强大的语义理解和对人形机器人的稳定执行,并且还通过将输入转换为文本来支持多模式扩展 ...

0 0 0 0 2026/01/12 arXiv:2511.19236v1 zhanghl1987

我们提出了一种端到端算法,用于训练深度神经网络来掌握新物体。我们的算法使用前向-后向自动微分方法构建抓取系统的所有基本组件,包括夹具的正向运动学、夹具和目标物体之间的碰撞以及抓取姿势的度量。特别是,我们表明,对于神经网络生成的不精确抓取,定义了广义 Q1 抓取度量并可微分,并且可以根据诱导优化问题的敏感性分析来计算广义 Q1 度量的导数。我们证明,(自)碰撞项的导数可以从低质量的防水三角形网格中有效地计算出来。总而言之,我们的算法允许在没有地面真实数据的无监督模式下计算高自由度夹具的抓取姿势,或者它使用小数据集改进监督模式下的结果。我们的新学习算法显着简化了基于学习的抓取系统的数据准备,并导致在常见 3D 形状数据集上学习抓取的质量更高 [7,49,26,25],在物理硬件上实现了 22% 的成功率提高,并且 Q1 抓取质量指标的值提高了 0.12 ...

0 0 0 0 2026/01/12 arXiv:2002.01530v2 zhanghl1987

Recognizing abnormal events such as traffic violations and accidents in natural driving scenes is essential for successful autonomous driving and advanced driver assistance systems. However, most work on video anomaly detection suffers from two crucial drawbacks. First, they assume cameras are fixed and videos have static backgrounds, which is reasonable for surveillance applications but not for vehicle-mounted cameras. Second, they pose the problem as one-class classification, relying on arduously hand-labeled training datasets that limit recognition to anomaly categories that have been explicitly trained. This paper proposes an unsupervised approach for traffic accident detection in first-person (dashboard-mounted camera) videos. Our major novelty is to detect anomalies by predicting the future locations of traffic participants and then monitoring the prediction accuracy and consistency metrics with three different strategies. We evaluate our approach using a new dataset of diverse traffic accidents, AnAn Accident Detection (A3D), as well as another publicly-available dataset. Experimental results show that our approach outperforms the state-of-the-art.

0 0 0 0 2026/01/12 arXiv:1903.00618v4 chenlei

网络表示学习的目标是学习捕获图结构并有助于解决下游任务的低维节点嵌入。然而,尽管此类方法不断涌现,但目前还没有研究它们对对抗性攻击的鲁棒性。我们针对广泛使用的基于随机游走的方法系列提供了第一个对抗性漏洞分析。我们得出有效的对抗性扰动,这些扰动会毒害网络结构,并对嵌入的质量和下游任务产生负面影响。我们进一步表明,我们的攻击是可转移的,因为它们可以推广到许多模型,并且即使攻击者受到限制也是成功的 ...

0 0 0 0 2026/01/12 arXiv:1809.01093v3 13460850092

大型视觉语言模型(LVLM)中语言和视觉的融合通过增强了传统体系结构以外的适应性,上下文推理和概括,从而彻底改变了基于学习的对象检测。这篇深入的评论提出了对LVLMS最先进的结构化探索,该探索是通过三步研究审查过程系统地组织的。首先,我们讨论视觉语言模型(VLM)的功能,以描述这些模型如何利用自然语言处理(NLP)和计算机视觉(CV)技术,以彻底改变对象检测和本地化 ...

0 0 0 0 2026/01/12 arXiv:2508.19294v2 whcjb

复杂游戏长期以来一直是检验人工智能算法进展的重要标杆。 AlphaGo、AlphaZero和MuZero在围棋和国际象棋领域击败了人类顶级棋手,引起了社会对人工智能的广泛关注。与此同时,大型语言模型(LLM)在各种任务中表现出了卓越的能力,这引发了一个问题:LLM 是否可以在复杂的游戏中取得类似的成功。在本文中,我们探讨了 LLM 在掌握复杂纸牌游戏方面的潜力。我们系统地评估了 LLM 在八种不同纸牌游戏中的学习能力,评估了微调对高质量游戏数据的影响,并检查了模型在掌握这些游戏的同时保留一般能力的能力。我们的研究结果表明:(1) LLM 可以通过对高质量数据进行监督微调来接近强大的游戏人工智能的性能,(2) LLM 可以同时在多个复杂的纸牌游戏中达到一定程度的熟练程度,对于具有相似规则的游戏和不同游戏的冲突有性能增强,以及(3) LLM 在掌握复杂游戏时会经历一般能力的下降,但可以通过集成一定量的通用指令数据来缓解这种下降。评估结果表明 LLM 具有较强的学习能力和多功能性。该代码可在此 https URL 获取 ...

0 0 0 0 2026/01/12 arXiv:2509.01328v5 13366395289

在本文中,我们提出了一种基于 FastConformer 架构的高效且准确的流式语音识别模型。我们通过以下方式针对流应用程序调整了 FastConformer 架构:(1) 约束编码器中的前瞻和过去上下文,以及 (2) 引入激活缓存机制,使非自回归编码器能够在推理过程中进行自回归操作。所提出的模型经过精心设计,旨在消除训练时间和推理时间之间的精度差异,这对于许多流模型来说很常见。此外,我们提出的编码器可与各种解码器配置配合使用,包括连接主义时间分类 (CTC) 和 RNN-Transducer (RNNT) 解码器。此外,我们引入了混合 CTC/RNNT 架构,该架构利用具有 CTC 和 RNNT 解码器的共享编码器来提高准确性并节省计算量。我们在 LibriSpeech 数据集和多域大规模数据集上评估了所提出的模型,并证明与传统的缓冲流模型基线相比,它可以以更低的延迟和推理时间实现更高的准确性。我们还表明,训练具有多个延迟的模型可以比单个延迟模型获得更好的准确性,同时它使我们能够使用单个模型支持多个延迟。我们的实验还表明,与单一解码器模型相比,混合架构不仅可以加速 CTC 解码器的收敛速度,而且还可以提高流模型的准确性 ...

0 0 0 0 2026/01/12 arXiv:2312.17279v3 puenzhou

在大规模数据集上训练的端到端自动驾驶模型在常见场景中表现良好,但由于场景多样性有限,在罕见的长尾情况下表现不佳。最近的视觉-语言-动作(VLA)模型利用预先训练的视觉语言模型中的广泛知识来解决这一限制,但面临着严峻的挑战:(1)由于离散标记化而导致轨迹预测的数值不精确,(2)严重依赖语言注释,从而引入语言偏差和注释负担,以及(3)多步骤思想链推理导致的计算效率低下阻碍了实时部署。我们提出了 LatentVLA,这是一种新颖的框架,它采用自我监督的潜在动作预测来训练没有语言注释的 VLA 模型,消除语言偏差,同时从未标记的轨迹数据中学习丰富的驾驶表示。通过知识蒸馏,LatentVLA将VLA模型的泛化能力转移到高效的基于视觉的网络,实现稳健的性能和实时效率。 LatentVLA 在 NAVSIM 基准上建立了新的最先进水平,PDMS 得分为 92.4,并在 nuScenes 基准上展示了强大的零样本泛化能力 ...

0 0 0 0 2026/01/12 arXiv:2601.05611v1 布朗瓶

像 OpenAI-o1 这样的大型推理模型 (LRM) 通过大规模强化学习展示了令人印象深刻的长逐步推理能力。然而,他们的扩展推理过程常常受到知识不足的影响,导致频繁的不确定性和潜在的错误。为了解决这个限制,我们引入了 \textbf{Search-o1},这是一个通过代理检索增强生成(RAG)机制和用于细化检索文档的 Reason-in-Documents 模块来增强 LRM 的框架。 Search-o1将代理搜索工作流程集成到推理过程中,当LRM遇到不确定的知识点时,能够动态检索外部知识。此外,由于检索到的文档的冗长性质,我们设计了一个单独的 Reason-in-Documents 模块,在将检索到的信息注入推理链之前对其进行深入分析,从而最大限度地减少噪音并保持连贯的推理流程。对科学、数学和编码领域复杂推理任务的大量实验,以及六个开放域 QA 基准测试,证明了 Search-o1 的强大性能。这种方法增强了 LRM 在复杂推理任务中的可信度和适用性,为更可靠和多功能的智能系统铺平了道路。该代码位于 \url{此 https URL} ...

0 0 0 0 2026/01/12 arXiv:2501.05366v1 JoyceNg