本文报告了开发一种称为 DRIFT 的实时不变本体感受机器人状态估计框架。提供了对不变卡尔曼滤波的教学介绍,以使这种尖端的对称性保持方法可用于更广泛的机器人应用。此外,这项工作深入开发了用于航位推算的本体感觉状态估计框架,该框架仅消耗来自机载惯性测量单元和机器人运动学的数据,具有两个可选模块,即用于低成本机器人的接触估计器和陀螺仪滤波器,使各种机器人平台能够在缺乏感知数据的情况下在长轨迹上跟踪机器人的状态。使用腿式机器人、室内轮式机器人、野外机器人和全尺寸车辆进行了大量的现实世界实验,以及海洋机器人的模拟结果,以了解 DRIFT 的局限性 ...

0 0 0 0 2026/01/28 arXiv:2311.04320v2 Kyrie

学习不同类型说话风格(例如情感、年龄和性别)的代表性嵌入对于识别任务(例如认知计算和人机交互)和生成任务(例如风格可控的语音生成)至关重要。在这项工作中,我们介绍了 ParaMETA,一个统一且灵活的框架,用于直接从语音中学习和控制说话风格。与依赖单任务模型或跨模态对齐的现有方法不同,ParaMETA 通过将语音投影到每种风格的专用子空间中来学习解开的、特定于任务的嵌入。这种设计减少了任务间干扰,减轻了负迁移,并允许单个模型处理多个副语言任务,例如情感、性别、年龄和语言分类。除了识别之外,ParaMETA 还可以在文本转语音 (TTS) 生成模型中实现细粒度的样式控制。它支持基于语音和文本的提示,并允许用户修改一种说话风格,同时保留其他风格。大量实验表明,ParaMETA 在分类准确性方面优于强大的基线,并生成更自然和更具表现力的语音,同时保持适合实际应用的轻量级且高效的模型 ...

0 0 0 0 2026/01/28 arXiv:2601.12289v1 ka

联合语音文本模型的最新进展显示出无缝语音交互的巨大潜力。然而,现有模型面临着严峻的挑战:语音标记(25Hz)和文本标记(~3Hz)之间的时间分辨率不匹配会稀释语义信息,产生高昂的计算成本,并导致文本 LLM 知识的灾难性遗忘。我们引入了 Fun-Audio-Chat,这是一种大型音频语言模型,通过我们之前的工作 DrVoice 的两项创新来解决这些限制。首先,双分辨率语音表示 (DRSR):共享 LLM 以高效的 5Hz 处理音频(通过 Token 分组),而语音优化头以 25Hz 生成高质量 Token ,平衡效率(GPU 减少约 50%)和质量。其次,核心鸡尾酒训练,这是一种带有中间合并的两阶段微调,可以减轻灾难性遗忘。然后,我们应用多任务 DPO 培训来增强鲁棒性、音频理解、指令遵循和语音同理心。这种多阶段的后期培训使 Fun-Audio-Chat 能够保留文本 LLM 知识,同时获得强大的音频理解、推理和生成能力。与最近需要大规模音频文本预训练的 LALM 不同,Fun-Audio-Chat 利用预训练模型和广泛的后训练。 Fun-Audio-Chat 8B 和 MoE 30B-A3B 在 Speech-to-Text 和 Speech-to-Speech 任务上实现了具有竞争力的性能,在 Spoken QA 基准上的类似规模模型中名列前茅。他们还在音频理解、语音功能调用、指令遵循和语音同理心方面实现了竞争甚至卓越的表现。我们开发了 Fun-Audio-Chat-Duplex,这是一种全双工变体,在口语 QA 和全双工交互方面具有强大的性能。我们开源了 Fun-Audio-Chat-8B 以及训练和推理代码,并提供了交互式演示 ...

0 0 0 0 2026/01/28 arXiv:2512.20156v4 jayllia

多模态大语言模型(MLLM)在视觉理解和推理方面取得了重大进展。然而,MLLM 使用的自回归 Transformer 架构需要对输入图像进行标记化,这限制了它们在 2D 图像空间内准确地面对象的能力。这就提出了一个重要的问题:如何改进序列语言标记,以便为 MLLM 提供更好的 2D 空间空间中的地面物体?为了解决这个问题,我们提出了一种用于基础对象的空间表示方法,即 GETok,它将可学习标记的专门词汇集成到 MLLM 中。 GETok 首先使用网格标记将图像平面划分为结构化空间锚点,然后利用偏移标记来实现定位预测的精确和迭代细化。通过将空间关系直接嵌入到标记中,GETok 显着提升了 MLLM 在本机 2D 空间推理中的性能,而无需修改自回归架构。大量实验表明,在监督微调和强化学习设置中,GETok 在各种引用任务中都实现了优于最先进方法的性能 ...

0 0 0 0 2026/01/28 arXiv:2512.10554v1 eileen

在这项工作中,我们首次将具有可验证奖励的强化学习(RLVR)应用于情感识别背景下的全多模态大语言模型,在该任务中,视觉和音频模态都发挥着至关重要的作用。我们利用 RLVR 来优化 Omni 模型,显着增强其在三个关键方面的性能:推理能力、情绪识别准确性和泛化能力。 RLVR 的引入不仅提高了模型在分布内数据上的整体性能,而且在分布外数据集上评估时也表现出了卓越的鲁棒性。更重要的是,推理能力的提高可以清楚地分析不同模式,特别是视觉和音频信息在情绪识别过程中的贡献。这为多模式大语言模型的优化提供了宝贵的见解 ...

0 0 0 0 2026/01/28 arXiv:2503.05379v2 adam6666

复杂的科学问题通常需要多种意图,例如识别基因突变并将其与相关疾病联系起来。这些任务需要来自不同来源的证据和多跳推理,而传统的检索增强生成(RAG)系统通常是面向单一意图的,导致证据覆盖不完整。为了评估这一限制,我们引入了多意图科学问答 (MuISQA) 基准,该基准旨在评估跨子问题的异构证据覆盖的 RAG 系统。此外,我们提出了一个意图感知检索框架,该框架利用大型语言模型(LLM)来假设潜在答案,将其分解为特定于意图的查询,并检索每个底层意图的支持段落。然后,检索到的片段通过倒数排名融合 (RRF) 进行聚合和重新排名,以平衡不同意图的覆盖范围,同时减少冗余。在 MuISQA 基准和其他通用 RAG 数据集上的实验表明,我们的方法始终优于传统方法,特别是在检索准确性和证据覆盖率方面 ...

0 0 0 0 2026/01/28 arXiv:2511.16283v1 timyeung

共享自主是一种操作概念,其中用户和自主代理协作控制机器人系统。在许多环境中,与完全远程操作和完全自主相比,它具有许多优势。共享自治的传统方法依赖于对环境动态的了解、先验已知的用户目标的离散空间或对用户策略的了解——这些假设在许多领域都是不切实际的。最近的工作通过无模型深度强化学习 (RL) 制定共享自主权,放松了其中一些假设。特别是,他们不再需要目标空间(例如,目标是离散的或受限的)或环境动态的知识。然而,他们需要了解特定于任务的奖励函数来训练策略。不幸的是,这种奖励规范可能是一个困难且脆弱的过程。最重要的是,这些制定本质上依赖于人机交互培训,这需要他们制定模仿用户行为的策略。在本文中,我们提出了一种共享自治的新方法,该方法采用扩散模型的前向和反向扩散过程的调制。我们的方法不假设已知的环境动态或用户目标的空间,并且与之前的工作相比,它不需要任何奖励反馈,也不需要在训练期间访问用户的策略。相反,我们的框架学习期望行为空间的分布。然后,它采用扩散模型将用户的操作转换为该分布中的样本。至关重要的是,我们表明可以以保留用户控制权限的方式执行此过程。我们在一系列具有挑战性的连续控制任务上评估我们的框架,并分析其有效纠正用户操作同时保持自主权的能力 ...

0 0 0 0 2026/01/28 arXiv:2302.12244v4 wchiyu98

稳健且可推广的机器人学习模型的开发关键取决于大规模、多样化的训练数据和可靠的评估基准的可用性。在物理世界中收集数据带来了高昂的成本和可扩展性挑战,并且流行的模拟基准经常受到碎片化、范围狭窄或保真度不足的影响,无法实现有效的模拟到真实的传输。为了应对这些挑战,我们推出了 Genie Sim 3.0,这是一个用于机器人操作的统一仿真平台。我们推出了 Genie Sim Generator,这是一种基于大型语言模型 (LLM) 的工具,可以根据自然语言指令构建高保真场景。其主要优势在于快速和多维泛化,促进不同环境的综合,以支持可扩展的数据收集和稳健的政策评估。我们推出第一个基准,开创了 LLM 自动化评估的应用。它利用 LLM 大规模生成评估场景,并采用视觉语言模型(VLM)建立自动化评估管道。我们还发布了一个开源数据集,其中包含 200 多个任务的 10,000 多个小时的合成数据。通过系统实验,我们验证了开源数据集强大的零样本模拟到真实传输能力,证明合成数据可以在受控条件下有效替代现实世界数据,以进行可扩展的政策训练。代码和数据集详细信息请参考:这个https URL ...

0 0 0 0 2026/01/28 arXiv:2601.02078v1 navigator

个性化肖像合成在社交娱乐等领域至关重要,最近取得了重大进展。基于个人微调的方法,例如 LoRA 和 DreamBooth,可以产生逼真的输出,但需要对单个样本进行训练,耗费时间和资源,并带来不稳定的风险。基于适配器的技术(例如IP-Adapter)冻结了基础模型参数,并采用插件架构来实现零样本推理,但它们经常表现出缺乏自然性和真实性,而这在肖像合成任务中是不容忽视的。在本文中,我们介绍了一种参数高效的自适应生成方法,即HyperLoRA,该方法使用自适应插件网络来生成LoRA权重,将LoRA的优越性能与适配器方案的零样本能力相结合。通过我们精心设计的网络结构和训练策略,我们实现了具有高真实感、保真度和可编辑性的零镜头个性化肖像生成(支持单图像和多图像输入) ...

0 0 0 0 2026/01/28 arXiv:2503.16944v1 xuan

图像生成模型的最新进展使得能够通过用户定义的主题(内容)和风格创建个性化图像。先前的工作通过基于优化的方法合并相应的低等级适配器(LoRA)来实现个性化,这些方法对计算量要求很高,并且不适合在智能手机等资源受限的设备上实时使用。为了解决这个问题,我们引入了 LoRA$.$rar,这种方法不仅可以提高图像质量,而且可以在合并过程中实现超过 4000\times$ 的显着加速。我们收集风格和主题 LoRA 数据集,并在一组不同的内容风格 LoRA 对上预训练超网络,学习一种有效的合并策略,该策略可推广到新的、未见过的内容风格对,从而实现快速、高质量的个性化。此外,我们确定了现有内容风格质量评估指标的局限性,并提出了一种使用多模式大语言模型(MLLM)进行更准确评估的新协议。经过 MLLM 评估和人工评估的验证,我们的方法在内容和风格保真度方面都显着优于当前最先进的技术 ...

0 0 0 0 2026/01/28 arXiv:2412.05148v2 xuan