音频语言模型的最新进步强调了音频 Token 化的关键作用,该音频 Token 将音频信号转换为离散 Token ,从而促进了语言模型体系结构在音频域上的应用。在这项研究中,我们介绍了Almtokenizer,这是一种新型的低焦甲酸盐和语义丰富的音频编解码器,用于音频语言模型。先前的方法(例如Encodec)通常将单个音频帧编码为离散 Token ,而无需考虑跨帧的上下文信息 ...
0 0 0 2025/04/15 arXiv:2504.10344v1 13724122396
未知复杂环境下的自主导航仍然是一个难题,无人机),而言。本文提出了一种基于神经网络的反应控制器,用于四旋翼飞行器在未知的室外环境中自主飞行。导航控制器仅使用当前传感器数据来生成控制信号,无需任何优化或配置空间搜索,这减少了内存和计算需求... ...
0 0 0 2025/04/15 arXiv:2009.14551v2 raintzz
(kg)为我们提供了一种结构化、灵活、透明、跨系统和协作的方式来组织社会、工业和科学学科各个领域的知识和数据。就有效性而言,kg超越任何其他形式的代表形式。然而,知识图谱工程( kge)需要对图结构、网络技术、现有模型和词汇、规则集、逻辑以及最佳实践的深入经验 ... ...
0 0 0 2025/04/15 arXiv:2307.06917v1 泽泽泽
我们提出了mbappe,这是一种将树搜索与部分学习的环境模型相结合的自动驾驶运动规划的新颖方法。利用蒙特卡罗搜索树(mcts)固有的可解释探索和优化功能 ...
0 0 0 2025/04/15 arXiv:2309.08452v1 布朗瓶
由于道路使用者的意图未知,在复杂的城市环境中,在复杂的城市环境中做出反应性驾驶行为仍然是一个具有挑战性的话题。基于模型的强化学习(MBRL)通过构建可以提供信息丰富的状态和想象力培训的世界模型,为学习反应性政策提供了巨大的潜力。但是,相关研究的关键局限性在于场景级的重建表示学习,这可能会忽略关键的交互式工具,几乎无法对车辆及其长期意图之间的交互作用进行建模 ...
0 0 0 2025/04/15 arXiv:2501.16733v1 feitianyong
大型语言模型(LLM)在医学和其他知识领域表现出越来越复杂的表现。创建专业LLM的传统方法需要大量的微调和培训大型数据集上的模型。最近,及时的工程,而不是微调,已经显示出可能提高一般基础模型的性能的潜力 ...
0 0 0 2025/04/15 arXiv:2502.15944v1 chenshuoxiaoy
肖像视频编辑的重点是修改肖像视频的特定属性,在音频或视频流的指导下。以前的方法通常集中于唇部区域重新制定,或者需要训练专用模型以提取运动转移到新身份的关键。在本文中,我们介绍了无训练的通用肖像视频编辑框架,该框架提供了一种多功能且适应性的编辑策略 ...
0 0 0 2025/04/15 arXiv:2503.11571v1 dourcer
最近学习的图像压缩(LIC)取得了巨大进步,甚至超过了使用DCT或离散小波变换(DWT)的传统方法。但是,LIC主要在自动编码器网络和熵编码中降低空间冗余,但没有像DCT或DWT中那样完全删除频域相关性。为了利用两全其美的最好,我们提出了一个令人惊讶的简单但有效的框架,该框架将DWT引入了基于CNN的LIC的卷积层和熵编码 ...
0 0 0 2025/04/15 arXiv:2407.09983v1 zcr10086

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)