视觉接地旨在通过自然语言接地视觉区域,是一项严重依赖于跨模式对齐的任务。现有的工作利用单模态预训练模型来分别传输视觉或语言知识,而忽略多模态相应信息。受对比语言图像预训练和低秩适应(LoRA)方法最新进展的推动,我们的目标是解决基于多模态预训练的基础任务。然而,预训练和基础训练之间存在显着的任务差距。因此,为了解决这些差距,我们提出了一种简洁高效的分层多模态细粒度调制框架,即 HiVG。具体来说,HiVG 由多层自适应跨模态桥和分层多模态低秩自适应(HiLoRA)范式组成。跨模态桥梁可以解决视觉特征与接地所需特征不一致的问题,并在多层次的视觉特征和文本特征之间建立联系。 HiLoRA 通过以分层方式从浅层到深层调整跨模态特征来防止感知错误的累积。五个数据集的实验结果证明了我们方法的有效性,并展示了显着的接地能力以及有希望的能源效率优势。项目页面:此 https URL ...
深度学习已经成为商业词典中的常见现象。近年来深度学习取得的空前成功可归因于:丰富的数据、GPU 提供的庞大计算能力以及研究人员和业界对开源理念的采用。深度神经网络可以分解为一系列不同的算子。 MIOpen 是 AMD 的 GPU 开源深度学习原语库,提供此类运算符的高度优化实现,使研究人员免受内部实现细节的影响,从而加快发现时间。本文介绍了 MIOpen 并提供了有关该库的内部工作原理和支持的功能的详细信息。 MIOpen 在多个方面进行创新,例如实现融合以优化内存带宽和 GPU 启动开销,提供自动调整基础设施以克服问题配置的巨大设计空间,以及实现不同的算法以优化不同滤波器和输入大小的卷积。 MIOpen 是首批公开支持 bfloat16 卷积数据类型的库之一,允许以较低精度进行高效训练,而不会损失准确性 ...
大型语言模型 (LLM) 的最新进展凸显了滥用它们的风险,从而提高了准确检测 LLM 生成内容的需求。对此,一个可行的解决方案是将难以察觉的标识符注入 LLM,称为水印。我们的研究通过提出新颖的采样然后接受(STA-1)方法扩展了现有的水印方法。 STA-1是一种无偏水印,它保留了期望中的原始 Token 分布,并且与现有的无偏水印相比,在低熵场景下产生不令人满意的输出的风险较低。在水印检测中,STA-1不需要提示或白盒LLM,提供统计保证,表现出检测时间的高效率,并且对各种水印攻击保持鲁棒性。在低熵和高熵数据集上的实验结果表明,STA-1同时实现了上述特性,使其成为水印 LLM 的理想解决方案。本研究的实施代码可在线获取 ...
尽管对多代理系统(MAS)的热情越来越多,在该系统中,多个LLM代理商协作完成任务,但与单个代理框架相比,它们在流行的基准测试中的性能提高仍然很小。这一差距强调了分析阻碍MAS效力的挑战的必要性。在本文中,我们介绍了对MAS挑战的首次全面研究 ...
水印技术提供了一种有前途的方法,通过将隐藏信息嵌入到语言模型生成的内容中来识别机器生成的内容。该领域的一个挑战在于在加水印后保留原始生成内容的分布。我们的研究扩展并改进了现有的水印框架,强调 \textbf{Di}stribution-\textbf{P}reserving (DiP) 水印的重要性。与当前策略相反,我们提出的 DiPmark 同时保留了水印期间的原始 Token 分布(分布保留),无需访问语言模型 API 和提示即可检测到(可访问),并且被证明对 Token 的适度变化具有鲁棒性(弹性)。 DiPmark 的工作原理是在生成单词之前选择一组随机标记,然后通过保留分布的重加权函数修改标记分布,以提高采样过程中这些选定标记的概率。对各种语言模型和任务的广泛实证评估证明了我们的方法的分布保留属性、可访问性和弹性,使其成为需要无可挑剔的质量保留的水印任务的有效解决方案 ...
度量语义图的创建对人类先验知识进行编码,代表了环境的高级抽象。然而,构建这样的地图在多模态传感器数据的融合、实时测绘性能的实现以及结构和语义信息一致性的保存等方面提出了挑战。在本文中,我们介绍了一种在线度量语义映射系统,该系统利用激光雷达视觉惯性传感生成大规模室外环境的全局度量语义网格地图。利用 GPU 加速,我们的地图处理过程实现了卓越的速度,无论场景规模如何,帧处理时间都不到 7 毫秒。此外,我们将生成的地图无缝集成到现实世界的导航系统中,从而在校园环境中实现基于度量语义的地形评估和自主点对点导航。通过对包含 24 个序列的公开数据集和自行收集的数据集进行广泛的实验,我们证明了我们的绘图和导航方法的有效性。代码已公开:此https URL ...
视觉-语言-动作 (VLA) 模型在机器人操作方面实现了很强的泛化,但在很大程度上仍然是反应性的和以 2D 为中心的,这使得它们在需要精确 3D 推理的任务中不可靠。我们提出了 GeoPredict,这是一个几何感知的 VLA 框架,它通过预测运动学和几何先验增强了连续动作策略。 GeoPredict 引入了一个轨迹级模块,用于对运动历史进行编码并预测机器人手臂的多步 3D 关键点轨迹,以及一个预测性 3D 高斯几何模块,用于通过沿着未来关键点轨迹的轨迹引导细化来预测工作空间几何形状。这些预测模块专门通过基于深度的渲染充当训练时监督,而推理仅需要轻量级的附加查询标记,而无需调用任何 3D 解码。 RoboCasa Human-50、LIBERO 和现实世界操作任务的实验表明,GeoPredict 始终优于强大的 VLA 基线,特别是在几何密集型和空间要求较高的场景中 ...
尽管大型语言模型(LLM)在代码生成方面表现出了令人印象深刻的能力,但它们仍然在努力解决人类提供的复杂意图。人们普遍认为,人类通常在实施之前使用计划来分解复杂的问题并安排解决方案的步骤。为此,我们将规划引入代码生成中,帮助模型理解复杂的意图,降低解决问题的难度。本文提出了一种大型语言模型的自规划代码生成方法,该方法由两个阶段组成,即规划阶段和实现阶段。具体来说,在规划阶段, LLM 从意图中概述了简洁且格式化的规划步骤。随后,在实施阶段,模型在前面的规划步骤的指导下逐步生成代码。我们对跨多种编程语言的各种代码生成基准进行了广泛的实验。实验结果表明,与直接代码生成相比,自规划代码生成在 Pass@1 中相对提高了高达 25.4%,与 Chain-of-Thought 代码生成相比相对提高了 11.9%。此外,我们的自我规划方法还提高了生成代码在正确性、可读性和鲁棒性方面的质量,正如人类评估的那样 ...
本文报告了开发一种称为 DRIFT 的实时不变本体感受机器人状态估计框架。提供了对不变卡尔曼滤波的教学介绍,以使这种尖端的对称性保持方法可用于更广泛的机器人应用。此外,这项工作深入开发了用于航位推算的本体感觉状态估计框架,该框架仅消耗来自机载惯性测量单元和机器人运动学的数据,具有两个可选模块,即用于低成本机器人的接触估计器和陀螺仪滤波器,使各种机器人平台能够在缺乏感知数据的情况下在长轨迹上跟踪机器人的状态。使用腿式机器人、室内轮式机器人、野外机器人和全尺寸车辆进行了大量的现实世界实验,以及海洋机器人的模拟结果,以了解 DRIFT 的局限性 ...
学习不同类型说话风格(例如情感、年龄和性别)的代表性嵌入对于识别任务(例如认知计算和人机交互)和生成任务(例如风格可控的语音生成)至关重要。在这项工作中,我们介绍了 ParaMETA,一个统一且灵活的框架,用于直接从语音中学习和控制说话风格。与依赖单任务模型或跨模态对齐的现有方法不同,ParaMETA 通过将语音投影到每种风格的专用子空间中来学习解开的、特定于任务的嵌入。这种设计减少了任务间干扰,减轻了负迁移,并允许单个模型处理多个副语言任务,例如情感、性别、年龄和语言分类。除了识别之外,ParaMETA 还可以在文本转语音 (TTS) 生成模型中实现细粒度的样式控制。它支持基于语音和文本的提示,并允许用户修改一种说话风格,同时保留其他风格。大量实验表明,ParaMETA 在分类准确性方面优于强大的基线,并生成更自然和更具表现力的语音,同时保持适合实际应用的轻量级且高效的模型 ...