3D视觉接地(3DVG)旨在使用自然语言描述在3D场景中定位目标对象,从而实现下游应用程序,例如增强现实和机器人技术。现有方法通常依赖于标记的3D数据和预定义的类别,从而将可扩展性限制为开放世界设置。我们提出了Seeground,这是一个零射击3DVG框架,利用2D视觉模型(VLM)绕过了对3D特定训练的需求 ...
本文研究了大型语言模型 (LLM) 中持续学习 (CL) 的不断发展的领域,重点是制定高效和可持续培训的策略。我们的主要重点是持续的领域自适应预训练,这一过程旨在使 LLM 能够整合来自各个领域的新信息,同时保留以前学到的知识并增强跨领域知识转移,而无需依赖于特定领域的识别。与以前的研究主要集中在有限的任务或领域选择并主要旨在解决遗忘问题不同,我们的研究评估了 LLM 在实际场景中不断变化的数据环境的适应性和能力 ...
通过可验证的奖励(RLVR)扩展增强学习到现实世界任务通常需要平衡客观和主观评估标准。但是,许多这样的任务缺乏单一的,明确的地面真相,很难为培训后语言模型定义可靠的奖励信号。尽管传统的基于偏好的方法提供了解决方法,但它们依靠难以解释的不透明奖励功能,并且容易出现虚假的相关性 ...
2D图像和视频的大型多模型模型(LMM)的快速开发刺激了这些模型来解释3D场景的努力。但是,缺乏大规模3D视觉数据集构成了重要的障碍。为了解决这个问题,典型的方法通过设计3D输入级场景表示形式,将3D意识注入2D LMM ...
无论设备功能的进步如何,由于设备内存和功率限制有限,在边缘上有效推理高级大语言模型(LLM)仍然具有挑战性。现有的策略,例如积极的量化,修剪或远程推断,贸易准确性,以提高效率或导致巨大的成本负担。该立场论文介绍了一种利用投机解码的新方法,以前主要是一种用于自动回归的LLM的解码加速技术,作为一种有希望的方法,专门针对边缘计算,通过在异构设备上策划计算来进行边缘计算 ...
人类的交流不仅涉及明确的语义,具有隐性信号和上下文提示在塑造含义中起着关键作用。但是,现代语音技术,例如自动语音识别(ASR)和文本到语音(TTS)通常无法捕获这些超越语义的维度。为了更好地表征和基准言语智能的发展,我们引入了口头交互系统能力水平(L1-L5),一个层次结构框架说明了口语对话系统从基本命令识别到类似人类的社会互动的演变 ...
随着深度学习领域的数据集,模型和设备的量的快速增长,人们对大规模分布式深度学习的关注越来越多。与传统的分布式深度学习相反,大规模的场景提出了新的挑战,包括容错性,算法和基础架构的可扩展性以及数据集,模型和资源中的异质性。由于模型的密集同步以及在分布式培训和推理过程中跨GPU和计算节点的数据共享,沟通效率成为大规模实现高性能的瓶颈 ...
培训语言模型当前需要预先确定固定的计算预算,因为典型的余弦学习率计划取决于步骤的总数。相比之下,热身稳定 - 纪念日(WSD)的时间表使用恒定的学习率来产生迭代的主要分支,原则上可以无限期地继续没有预先指定的计算预算。然后,鉴于任何计算预算,一个人可以在适当的时候从主分支分支,并以快速衰减的学习率来产生强大的模型 ...
由在保证显示广告中优化分配的问题的动机,我们开发了一种高效,轻巧的方法,用于生成紧凑型{\ em分配计划},该方法可用于指导广告服务器的决策。该计划本身仅使用o(1)每个保证合同,对噪声具有鲁棒性,并且使我们能够(证明)几乎最佳地服务。我们开发的优化方法是可扩展的,具有小的内存足迹,并且在迭代中以线性时间工作 ...
图像到视频(I2V)生成旨在根据给定的图像和条件(例如文本)合成视频剪辑 ...