音频语言模型的最新进步强调了音频 Token 化的关键作用,该音频 Token 将音频信号转换为离散 Token ,从而促进了语言模型体系结构在音频域上的应用。在这项研究中,我们介绍了Almtokenizer,这是一种新型的低焦甲酸盐和语义丰富的音频编解码器,用于音频语言模型。先前的方法(例如Encodec)通常将单个音频帧编码为离散 Token ,而无需考虑跨帧的上下文信息 ...
未知复杂环境下的自主导航仍然是一个难题,无人机),而言。本文提出了一种基于神经网络的反应控制器,用于四旋翼飞行器在未知的室外环境中自主飞行。导航控制器仅使用当前传感器数据来生成控制信号,无需任何优化或配置空间搜索,这减少了内存和计算需求... ...
(kg)为我们提供了一种结构化、灵活、透明、跨系统和协作的方式来组织社会、工业和科学学科各个领域的知识和数据。就有效性而言,kg超越任何其他形式的代表形式。然而,知识图谱工程( kge)需要对图结构、网络技术、现有模型和词汇、规则集、逻辑以及最佳实践的深入经验 ... ...
我们提出了mbappe,这是一种将树搜索与部分学习的环境模型相结合的自动驾驶运动规划的新颖方法。利用蒙特卡罗搜索树(mcts)固有的可解释探索和优化功能 ...
由于道路使用者的意图未知,在复杂的城市环境中,在复杂的城市环境中做出反应性驾驶行为仍然是一个具有挑战性的话题。基于模型的强化学习(MBRL)通过构建可以提供信息丰富的状态和想象力培训的世界模型,为学习反应性政策提供了巨大的潜力。但是,相关研究的关键局限性在于场景级的重建表示学习,这可能会忽略关键的交互式工具,几乎无法对车辆及其长期意图之间的交互作用进行建模 ...
大型语言模型(LLM)在医学和其他知识领域表现出越来越复杂的表现。创建专业LLM的传统方法需要大量的微调和培训大型数据集上的模型。最近,及时的工程,而不是微调,已经显示出可能提高一般基础模型的性能的潜力 ...
肖像视频编辑的重点是修改肖像视频的特定属性,在音频或视频流的指导下。以前的方法通常集中于唇部区域重新制定,或者需要训练专用模型以提取运动转移到新身份的关键。在本文中,我们介绍了无训练的通用肖像视频编辑框架,该框架提供了一种多功能且适应性的编辑策略 ...
最近学习的图像压缩(LIC)取得了巨大进步,甚至超过了使用DCT或离散小波变换(DWT)的传统方法。但是,LIC主要在自动编码器网络和熵编码中降低空间冗余,但没有像DCT或DWT中那样完全删除频域相关性。为了利用两全其美的最好,我们提出了一个令人惊讶的简单但有效的框架,该框架将DWT引入了基于CNN的LIC的卷积层和熵编码 ...