我们提出位置3D,这是一种在3D场景中定位对象的模型,该模型从称为“沙发和灯之间的小咖啡桌”之类的表达式。定位3D设置了标准参考基准测试基准的新最新设备,并展示了强大的概括功能。值得注意的是,定位3D直接在传感器观察流(摆置RGB-D帧)上运行,从而在机器人和AR设备上实现了现实世界的部署 ...
最先进的NPU通常被架构为具有多个异构硬件计算模块的独立子系统和数据流驱动的编程模型。在该行业中缺乏完善的方法和工具来评估和比较来自不同建筑的NPU的性能。我们提出了一个基于事件的性能建模框架VPU-EM,针对多元化的AI工作负载的现代NPU的可扩展性能评估 ...
掩码语言建模(MLM)预训练方法(例如 bert)通过用[mask]替换一些标记来破坏输入,然后训练模型来重建原始标记。虽然它们在转移到下游nlp任务时会产生良好的结果,但它们通常需要大量计算才能有效。作为替代方案 ...
结合语言,愿景和最近动作的基础模型已彻底改变了利用互联网规模数据的能力,以推理有用的任务。但是,训练体现的基础模型的主要挑战之一是缺乏基于物理世界的数据。在本文中,我们提出了Autort,该系统利用现有的基础模型来扩大在人类的监督下完全看不见的情况下运营机器人的部署 ...
大型语言模型(LLMS)的快速发展已在多机器人系统(MRS)中开辟了新的可能性,从而实现了增强的沟通,任务计划和人类机器人的互动。与传统的单机器人和多代理系统不同,太太提出了独特的挑战,包括协调,可扩展性和现实世界的适应性。这项调查提供了对LLM集成在MRS中的首次全面探索 ...
大型语言模型(LLM)的推理工作负载越来越多地主导数据中心成本和资源利用率。因此,了解有关不断发展的CPU-GPU耦合体系结构的推理工作量特征对于优化至关重要。本文对松散耦合(PCIE A100/H100)和紧密耦合(GH200)系统的LLM推理行为进行了深入分析 ...
由于大型语言模型(LLM)的资源高度要求,因此在消费级设备上实现了广泛的部署,提出了重大挑战。通常,个人或消费级设备,包括在大型型号时代之前配置的服务器,通常具有相对较弱的GPU且CPU相对较强。但是,大多数当前方法主要取决于GPU进行计算 ...
在实际情况下,多模式联合学习通常会面临错综复杂的模式缺失的实际挑战,这对构建联合框架构成了限制,并大大降低了模型的推理准确性。解决丢失模式的现有解决方案通常涉及在客户端上开发特定于模式的编码器,并在服务器上培训模式融合模块。但是,这些方法主要限制在单峰客户端或完整的多模式客户端的特定情况下,努力在复杂的模态缺失方案中有效地概括 ...