Transformer 中的注意机制是准确可扩展的序列建模的重要原始性。它的二次计算和线性内存复杂性仍然是显着的瓶颈。线性注意力和状态空间模型实现线性时间,恒定内存序列建模,并且可以通过跨序列长度富含矩阵的并行化来有效地训练 ...
移动边缘计算(MEC)启用的空中网络是6G的关键组成部分,采用航空站(ABSS),例如无人驾驶飞机(UAV)(UAV)和高空平台站(HAPS),为地面IoT设备(IOTDS)提供动态服务。这些IOTD支持实时应用程序(例如 ...
开发人员越来越多地使用代码大语言模型(代码LLM)来提高生产力,但它们通常会生成脆弱的代码。因此,迫切需要确保Code LLMS生成的代码正确且安全。先前的研究主要集中于生成安全的代码,忽略了安全代码也需要正确的事实 ...
感知和理解高度动态和不断变化的环境是机器人自主权的关键能力。尽管已经在开发机器人姿势准确的动态大满贯方法方面取得了长足的进步,但较少的重点是构建机器人环境的密集时空表示。对场景及其在时间演变的详细理解对于长期的机器人自主权至关重要,对于需要长期推理的任务至关重要,例如在与人类和其他代理商共享的环境中有效运行,因此要经受短期和长期的动态 ...
我们为树生的 Transformer 架构和培训策略提供了建议。该体系结构以多种分辨率处理数据,并具有沙漏形状,中间层处理的 Token 少于外层。与卷积网络类似,我们引入了更长的范围跳过连接到完成此多分辨率方法 ...
社会导航是自治人(例如机器人)在其他智能代理(例如人类)的面前以“社会符合社会规定”方式导航的能力。随着人口稠密环境中自动导航移动机器人的出现(例如 ...
我们介绍了视觉注意力蒸馏(VI-LAD),这是一种新颖的方法,用于将社会符合性的导航知识从大型视觉语言模型(VLM)提炼为实时机器人导航的轻质 Transformer 模型。与依靠专家演示或人类宣传数据集的传统方法不同,VI-LAD在中间层表示级别(即 ...
基于大型语言模型(LLM)的列表排名在许多段落排名任务中表现出卓越的性能。随着大型推理模型的发展,许多研究表明,测试时间期间的分步推理有助于提高列表的排名绩效。但是,由于缺乏推理密集型培训数据,在许多复杂的排名方案中,现有的读者表现较差,而推理密集型重读者的排名能力仍然很大程度上欠发达 ...