强大的 3D 语义占用对于腿式/人形机器人至关重要,但大多数语义场景完成 (SSC) 系统都针对带有前向传感器的轮式平台。我们推出 OneOcc,这是一种纯视觉全景 SSC 框架,专为步态引入的身体抖动和 360° 连续性而设计。 OneOcc 结合了:(i) 双投影融合 (DP-ER),利用环形全景图及其等距柱状图展开,保持 360° 连续性和网格对齐; (ii) 双网格体素化(BGV),用于在笛卡尔和圆柱极空间中进行推理,减少离散化偏差并锐化自由/占用边界; (iii) 具有分层 AMoE-3D 的轻量级解码器,用于动态多尺度融合和更好的远程/遮挡推理; (iv) 即插即用步态位移补偿 (GDC) 学习特征级运动校正,无需额外传感器。我们还发布了两个全景占用基准:QuadOcc(真正的四足动物,第一人称 360°)和 Human360Occ (H3O)(CARLA 人类自我 360°,带 RGB、深度、语义占用;标准化的城市内/跨城市分割)。 OneOcc 设定了新的最先进 (SOTA):在 QuadOcc 上,它击败了强大的视觉基线和流行的 LiDAR 基线;在 H3O 上,它获得了 +3.83 mIoU(城市内)和 +8.08(跨城市)。模块重量轻,可为腿式/人形机器人提供可部署的全环绕感知。数据集和代码将在此 https URL 上公开提供 ...

0 0 0 0 2025/11/24 arXiv:2511.03571v1 yukun

生成式预训练模型的出现促进了高质量文本的合成,但也给识别生成文本中的事实错误带来了挑战。特别是:(1)现在,更广泛的任务在由生成模型处理时面临着越来越大的包含事实错误的风险。 (2) 生成的文本往往很长,并且缺乏对各个事实的明确定义的粒度。 (三)事实核查过程中缺乏明确证据。考虑到上述挑战,在本文中,我们提出了 FacTool,这是一种与任务和领域无关的框架,用于检测大型语言模型(例如 ChatGPT)生成的文本的事实错误。对四种不同任务(基于知识的 QA、代码生成、数学推理和科学文献综述)的实验表明了该方法的有效性。我们在此 https URL 发布与 ChatGPT 插件接口相关的 FacTool 代码 ...

0 0 0 0 2025/11/24 arXiv:2307.13528v2 cella

各个机构开源大型语言模型(LLM)的激增凸显了对综合评估方法的迫切需要。然而,目前的评估平台,例如广受认可的HuggingFace开放式LLM排行榜,却忽略了一个至关重要的方面——不确定性,而这对于全面评估LLM至关重要。为了弥补这一差距,我们为 LLM 引入了一种新的基准测试方法,该方法集成了不确定性量化。我们的考试涉及九个 LLM ( LLM 系列),涵盖五个代表性的自然语言处理任务。我们的研究结果表明: I) 准确度较高的 LLM 可能表现出较低的确定性; II) 与规模较小的 LLM 相比,规模较大的 LLM 可能表现出更大的不确定性; III) 指令微调往往会增加 LLM 的不确定性。这些结果强调了在 LLM 评估中纳入不确定性的重要性 ...

0 0 0 0 2025/11/24 arXiv:2401.12794v3 cella

基于 Transformer 的大型语言模型 (LLM) 在各种自然语言处理任务中展示了令人印象深刻的性能。然而,由于瞬态(称为键值 (KV) 缓存)的巨大内存占用量,为生成长内容的 LLM 推理提供服务会带来挑战,它会随着序列长度和批量大小而扩展。在本文中,我们提出了 InfiniGen,这是一种专为长文本生成而定制的新型 KV 缓存管理框架,它与现代基于卸载的推理系统协同工作。 InfiniGen 利用了这样的关键见解:通过对当前层的输入以及后续层的部分查询权重和密钥缓存执行最小的演练,可以推测出对于计算 Transformer 中的后续注意力层至关重要的一些重要标记。这允许我们仅预取必要的 KV 缓存条目(而不获取全部),从而减轻基于卸载的 LLM 服务系统中从主机内存获取的开销。我们对几个具有代表性的 LLM 的评估表明,与之前的 KV 缓存管理方法相比,InfiniGen 将现代基于卸载的系统的整体性能提高了 3.00 倍,同时提供了更好的模型精度 ...

0 0 0 0 2025/11/24 arXiv:2406.19707v1 ldm

将概念学习作为决策过程中间步骤的机器学习模型可以与黑盒预测模型的性能相匹配,同时保留以人类可理解的术语解释结果的能力。然而,我们证明这些模型学习的概念表示编码的信息超出了预定义的概念,并且自然缓解策略不能完全发挥作用,从而使下游预测的解释产生误导。我们描述了信息泄漏的机制,并建议采取措施减轻其影响 ...

0 0 0 0 2025/11/24 arXiv:2106.13314v1 18804024672

红外和可见光图像融合由于这两种模式在复杂、恶劣的环境中具有很强的互补性而引起了广泛的关注。虽然基于深度学习的融合方法在特征提取、对齐、融合和重建方面取得了显着的进步,但它们仍然在很大程度上依赖于低级视觉线索,例如纹理和对比度,并且难以捕获嵌入图像中的高级语义信息。最近将文本合并为语义指导源的尝试依赖于非结构化描述,这些描述既不明确地对实体、属性和关系进行建模,也不提供空间定位,从而限制了细粒度的融合性能。为了克服这些挑战,我们引入了 MSGFusion,这是一种用于红外和可见光图像的多模态场景图引导融合框架。通过深度耦合源自文本和视觉的结构化场景图,MSGFusion 显式地表示实体、属性和空间关系,然后通过连续的场景图表示、层次聚合和图驱动融合模块同步细化高层语义和低层细节。对多个公共基准的大量实验表明,MSGFusion 显着优于最先进的方法,特别是在细节保留和结构清晰度方面,并在低光目标检测、语义分割和医学图像融合等下游任务中提供卓越的语义一致性和通用性 ...

0 0 0 0 2025/11/24 arXiv:2509.12901v1 lllianghe_123

从人类在自然环境中执行日常任务的过程中学习多指机器人策略一直是机器人社区的一个宏伟目标。实现这一目标将标志着人类环境中通用机器人操作的重大进展,因为它将减少对劳动密集型机器人数据收集的依赖。尽管付出了巨大的努力,但实现这一目标的进展仍然受到人类和机器人之间的体现差距以及提取相关上下文和运动线索以从野外人类视频中学习自主策略的困难的限制。我们声称,通过简单但足够强大的硬件来获取人类数据和我们提出的框架 AINA,我们现在离实现这一梦想又近了一步。 AINA 能够从任何人、任何地方、任何环境中使用 Aria Gen 2 眼镜收集的数据中学习多指策略。这些眼镜重量轻、便于携带,配备高分辨率 RGB 摄像头,提供准确的机载 3D 头部和手部姿势,并提供宽广的立体视图,可用于场景的深度估计。此设置支持学习多指手的基于 3D 点的策略,这些策略对背景变化具有鲁棒性,并且可以直接部署,无需任何机器人数据(包括在线校正、强化学习或模拟)。我们将我们的框架与之前的人机策略学习方法进行比较,消除我们的设计选择,并展示九种日常操作任务的结果。机器人的推出最好在我们的网站上查看:此 https URL ...

0 0 0 0 2025/11/24 arXiv:2511.16661v1 lkz

这项调查全面概述了机器学习领域内多模态对齐和融合的最新进展,这些进展是由文本、图像、音频和视频等数据模态的可用性和多样性不断增加所推动的。与以前通常关注特定模式或有限融合策略的调查不同,我们的工作提出了一个以结构为中心和方法驱动的框架,强调可推广的技术。我们通过结构视角(数据级、特征级和输出级融合)和方法范式(包括统计、基于内核、图形、生成、对比、基于注意力和基于大语言模型 (LLM) 的方法)对对齐和融合的关键方法进行系统分类和分析,从对 260 多项相关研究的广泛回顾中汲取见解。此外,这项调查还强调了跨模式错位、计算瓶颈、数据质量问题和模式差距等关键挑战,以及最近为解决这些问题所做的努力。探索了从社交媒体分析和医学成像到情感识别和嵌入式人工智能的应用,以说明强大的多模态系统对现实世界的影响。所提供的见解旨在指导未来的研究,以优化多模式学习系统,以提高跨不同领域的可扩展性、稳健性和普遍性 ...

0 0 0 0 2025/11/24 arXiv:2411.17040v2 lllianghe_123

人形机器人预计将在以人为中心的环境中执行各种任务,需要控制器将敏捷性与稳健的平衡性结合起来。运动和全身跟踪方面的最新进展在敏捷动态技能或稳定性关键行为方面取得了令人瞩目的进步,但现有方法仍然专业化,专注于一种能力,同时损害另一种能力。在这项工作中,我们引入了 AMS(敏捷性与稳定性),这是第一个将动态运动跟踪和极端平衡维护统一在单个策略中的框架。我们的关键见解是利用异构数据源:提供丰富、敏捷行为的人体动作捕捉数据集,以及捕捉稳定性配置的物理约束的合成平衡运动。为了协调敏捷性和稳定性的不同优化目标,我们设计了一种混合奖励方案,该方案将一般跟踪目标应用于所有数据,同时仅将特定于平衡的先验注入到合成运动中。此外,具有性能驱动采样和特定运动奖励塑造的自适应学习策略可以实现跨不同运动分布的高效训练。我们在模拟和真实的 Unitree G1 人形机器人上广泛验证了 AMS。实验表明,单个策略可以执行敏捷技能,例如跳舞和跑步,同时还可以执行零射击极限平衡运动,例如叶问的深蹲,这凸显了 AMS 作为未来人形应用程序的多功能控制范例 ...

0 1 0 0 2025/11/24 arXiv:2511.17373v1 晚餐杀手

在人工智能生成的图像检测中,当前的前沿方法通常通过部分参数微调来适应预先训练的基础模型。然而,这些方法通常很难推广到来自看不见的生成器的伪造,因为经过微调的模型仅从训练数据中捕获有限的模式,并且无法反映新模型不断演变的特征。为了克服这一限制,我们提出了图像自适应提示学习(IAPL),这是一种新颖的范例,可以根据每个测试图像动态调整输入编码器的提示,而不是在训练后修复它们。这种设计显着增强了鲁棒性和对各种伪造图像的适应性。动态提示通过轻量级的可学习缩放因子将条件信息与测试时自适应标记集成在一起。条件信息由条件信息学习器生成,它利用基于 CNN 的特征提取器对伪造特定条件和一般条件进行建模。通过在多个视图之间强制执行预测一致性,在单个样本的推理过程中优化测试时自适应 Token ,确保参数与当前图像对齐。对于最终决策,选择具有最高预测置信度的最佳输入。大量实验表明,IAPL 实现了最先进的性能,在广泛使用的 UniversalFakeDetect 和 GenImage 数据集上的平均准确率分别为 95.61% 和 96.7%。代码和权重将在此 https URL 上发布 ...

0 0 0 0 2025/11/24 arXiv:2508.01603v3 15966829631

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)