大型语言模型 (LLM) 的最新进展凸显了滥用它们的风险,从而提高了准确检测 LLM 生成内容的需求。对此,一个可行的解决方案是将难以察觉的标识符注入 LLM,称为水印。我们的研究通过提出新颖的采样然后接受(STA-1)方法扩展了现有的水印方法。 STA-1是一种无偏水印,它保留了期望中的原始 Token 分布,并且与现有的无偏水印相比,在低熵场景下产生不令人满意的输出的风险较低。在水印检测中,STA-1不需要提示或白盒LLM,提供统计保证,表现出检测时间的高效率,并且对各种水印攻击保持鲁棒性。在低熵和高熵数据集上的实验结果表明,STA-1同时实现了上述特性,使其成为水印 LLM 的理想解决方案。本研究的实施代码可在线获取 ...
尽管对多代理系统(MAS)的热情越来越多,在该系统中,多个LLM代理商协作完成任务,但与单个代理框架相比,它们在流行的基准测试中的性能提高仍然很小。这一差距强调了分析阻碍MAS效力的挑战的必要性。在本文中,我们介绍了对MAS挑战的首次全面研究 ...
水印技术提供了一种有前途的方法,通过将隐藏信息嵌入到语言模型生成的内容中来识别机器生成的内容。该领域的一个挑战在于在加水印后保留原始生成内容的分布。我们的研究扩展并改进了现有的水印框架,强调 \textbf{Di}stribution-\textbf{P}reserving (DiP) 水印的重要性。与当前策略相反,我们提出的 DiPmark 同时保留了水印期间的原始 Token 分布(分布保留),无需访问语言模型 API 和提示即可检测到(可访问),并且被证明对 Token 的适度变化具有鲁棒性(弹性)。 DiPmark 的工作原理是在生成单词之前选择一组随机标记,然后通过保留分布的重加权函数修改标记分布,以提高采样过程中这些选定标记的概率。对各种语言模型和任务的广泛实证评估证明了我们的方法的分布保留属性、可访问性和弹性,使其成为需要无可挑剔的质量保留的水印任务的有效解决方案 ...
度量语义图的创建对人类先验知识进行编码,代表了环境的高级抽象。然而,构建这样的地图在多模态传感器数据的融合、实时测绘性能的实现以及结构和语义信息一致性的保存等方面提出了挑战。在本文中,我们介绍了一种在线度量语义映射系统,该系统利用激光雷达视觉惯性传感生成大规模室外环境的全局度量语义网格地图。利用 GPU 加速,我们的地图处理过程实现了卓越的速度,无论场景规模如何,帧处理时间都不到 7 毫秒。此外,我们将生成的地图无缝集成到现实世界的导航系统中,从而在校园环境中实现基于度量语义的地形评估和自主点对点导航。通过对包含 24 个序列的公开数据集和自行收集的数据集进行广泛的实验,我们证明了我们的绘图和导航方法的有效性。代码已公开:此https URL ...
视觉-语言-动作 (VLA) 模型在机器人操作方面实现了很强的泛化,但在很大程度上仍然是反应性的和以 2D 为中心的,这使得它们在需要精确 3D 推理的任务中不可靠。我们提出了 GeoPredict,这是一个几何感知的 VLA 框架,它通过预测运动学和几何先验增强了连续动作策略。 GeoPredict 引入了一个轨迹级模块,用于对运动历史进行编码并预测机器人手臂的多步 3D 关键点轨迹,以及一个预测性 3D 高斯几何模块,用于通过沿着未来关键点轨迹的轨迹引导细化来预测工作空间几何形状。这些预测模块专门通过基于深度的渲染充当训练时监督,而推理仅需要轻量级的附加查询标记,而无需调用任何 3D 解码。 RoboCasa Human-50、LIBERO 和现实世界操作任务的实验表明,GeoPredict 始终优于强大的 VLA 基线,特别是在几何密集型和空间要求较高的场景中 ...
尽管大型语言模型(LLM)在代码生成方面表现出了令人印象深刻的能力,但它们仍然在努力解决人类提供的复杂意图。人们普遍认为,人类通常在实施之前使用计划来分解复杂的问题并安排解决方案的步骤。为此,我们将规划引入代码生成中,帮助模型理解复杂的意图,降低解决问题的难度。本文提出了一种大型语言模型的自规划代码生成方法,该方法由两个阶段组成,即规划阶段和实现阶段。具体来说,在规划阶段, LLM 从意图中概述了简洁且格式化的规划步骤。随后,在实施阶段,模型在前面的规划步骤的指导下逐步生成代码。我们对跨多种编程语言的各种代码生成基准进行了广泛的实验。实验结果表明,与直接代码生成相比,自规划代码生成在 Pass@1 中相对提高了高达 25.4%,与 Chain-of-Thought 代码生成相比相对提高了 11.9%。此外,我们的自我规划方法还提高了生成代码在正确性、可读性和鲁棒性方面的质量,正如人类评估的那样 ...
本文报告了开发一种称为 DRIFT 的实时不变本体感受机器人状态估计框架。提供了对不变卡尔曼滤波的教学介绍,以使这种尖端的对称性保持方法可用于更广泛的机器人应用。此外,这项工作深入开发了用于航位推算的本体感觉状态估计框架,该框架仅消耗来自机载惯性测量单元和机器人运动学的数据,具有两个可选模块,即用于低成本机器人的接触估计器和陀螺仪滤波器,使各种机器人平台能够在缺乏感知数据的情况下在长轨迹上跟踪机器人的状态。使用腿式机器人、室内轮式机器人、野外机器人和全尺寸车辆进行了大量的现实世界实验,以及海洋机器人的模拟结果,以了解 DRIFT 的局限性 ...
学习不同类型说话风格(例如情感、年龄和性别)的代表性嵌入对于识别任务(例如认知计算和人机交互)和生成任务(例如风格可控的语音生成)至关重要。在这项工作中,我们介绍了 ParaMETA,一个统一且灵活的框架,用于直接从语音中学习和控制说话风格。与依赖单任务模型或跨模态对齐的现有方法不同,ParaMETA 通过将语音投影到每种风格的专用子空间中来学习解开的、特定于任务的嵌入。这种设计减少了任务间干扰,减轻了负迁移,并允许单个模型处理多个副语言任务,例如情感、性别、年龄和语言分类。除了识别之外,ParaMETA 还可以在文本转语音 (TTS) 生成模型中实现细粒度的样式控制。它支持基于语音和文本的提示,并允许用户修改一种说话风格,同时保留其他风格。大量实验表明,ParaMETA 在分类准确性方面优于强大的基线,并生成更自然和更具表现力的语音,同时保持适合实际应用的轻量级且高效的模型 ...
联合语音文本模型的最新进展显示出无缝语音交互的巨大潜力。然而,现有模型面临着严峻的挑战:语音标记(25Hz)和文本标记(~3Hz)之间的时间分辨率不匹配会稀释语义信息,产生高昂的计算成本,并导致文本 LLM 知识的灾难性遗忘。我们引入了 Fun-Audio-Chat,这是一种大型音频语言模型,通过我们之前的工作 DrVoice 的两项创新来解决这些限制。首先,双分辨率语音表示 (DRSR):共享 LLM 以高效的 5Hz 处理音频(通过 Token 分组),而语音优化头以 25Hz 生成高质量 Token ,平衡效率(GPU 减少约 50%)和质量。其次,核心鸡尾酒训练,这是一种带有中间合并的两阶段微调,可以减轻灾难性遗忘。然后,我们应用多任务 DPO 培训来增强鲁棒性、音频理解、指令遵循和语音同理心。这种多阶段的后期培训使 Fun-Audio-Chat 能够保留文本 LLM 知识,同时获得强大的音频理解、推理和生成能力。与最近需要大规模音频文本预训练的 LALM 不同,Fun-Audio-Chat 利用预训练模型和广泛的后训练。 Fun-Audio-Chat 8B 和 MoE 30B-A3B 在 Speech-to-Text 和 Speech-to-Speech 任务上实现了具有竞争力的性能,在 Spoken QA 基准上的类似规模模型中名列前茅。他们还在音频理解、语音功能调用、指令遵循和语音同理心方面实现了竞争甚至卓越的表现。我们开发了 Fun-Audio-Chat-Duplex,这是一种全双工变体,在口语 QA 和全双工交互方面具有强大的性能。我们开源了 Fun-Audio-Chat-8B 以及训练和推理代码,并提供了交互式演示 ...
多模态大语言模型(MLLM)在视觉理解和推理方面取得了重大进展。然而,MLLM 使用的自回归 Transformer 架构需要对输入图像进行标记化,这限制了它们在 2D 图像空间内准确地面对象的能力。这就提出了一个重要的问题:如何改进序列语言标记,以便为 MLLM 提供更好的 2D 空间空间中的地面物体?为了解决这个问题,我们提出了一种用于基础对象的空间表示方法,即 GETok,它将可学习标记的专门词汇集成到 MLLM 中。 GETok 首先使用网格标记将图像平面划分为结构化空间锚点,然后利用偏移标记来实现定位预测的精确和迭代细化。通过将空间关系直接嵌入到标记中,GETok 显着提升了 MLLM 在本机 2D 空间推理中的性能,而无需修改自回归架构。大量实验表明,在监督微调和强化学习设置中,GETok 在各种引用任务中都实现了优于最先进方法的性能 ...