尽管发展了十多年,但在复杂的城市环境中的自主驾驶轨迹计划仍在遇到重大挑战。这些挑战包括容纳轨迹的多模式性质的困难,在管理各种场景方面的单一专家的局限性以及对环境互动的不足。为了解决这些问题,本文介绍了Emoe-Planner,其中包含了三种创新方法 ...
很少有射击学习(FSL)的目的是根据有限数量的样本进行预测。已利用结构化数据,例如知识图和本体学库,以使各种任务中的几弹性设置受益。但是,现有方法采用的先验遭受了挑战性知识,知识噪音和知识异质性的困扰,这阻碍了几次学习的表现 ...
DKPLM: Decomposable Knowledge-enhanced Pre-trained Language Model for Natural Language Understanding
知识增强的预训练的语言模型(KEPLM)是预先训练的模型,其关系三元将从知识图注入以提高语言理解能力。为了确保有效的知识注入,以前的研究将模型与知识编码者集成在一起,以表示从知识图中检索的知识。知识检索和编码的操作带来了巨大的计算负担,限制了需要高推理速度的现实世界应用中此类模型的使用 ...
符号语言是使用手动发音和非手动元素传达信息的视觉语言。对于手语识别和翻译,大多数现有方法将RGB视频直接编码为隐藏表示形式。但是,RGB视频是具有大量视觉冗余性的原始信号,导致编码器忽略了关键信息以了解手语的理解 ...
大型推理模型(LRMS),例如DeepSeek-R1和OpenAI O1,在各种推理任务中表现出了非凡的功能。他们在中间思想上产生和理性的强大能力也导致了论点,即他们可能不再需要广泛的及时工程或优化来解释人类的指示并产生准确的输出。在这项工作中,我们旨在使用案例研究的事件提取的结构化任务来系统地研究这个空旷的问题 ...
我们推出了最新一代的 MobileNet,称为 MobileNetV4 (MNv4),具有适用于移动设备的通用高效架构设计。在其核心,我们引入了通用倒瓶颈(UIB)搜索块,这是一种统一且灵活的结构,融合了倒瓶颈(IB)、ConvNext、前馈网络(FFN)和新颖的额外深度(ExtraDW)变体。除了 UIB 之外,我们还推出了 Mobile MQA,这是一个专为移动加速器量身定制的注意力模块,可实 ...
现有的多模式基于大型模型的图像压缩框架通常依赖于语义检索,潜在压缩和生成模型的零散集成,从而在重建保真度和编码效率中均可降低性能。为了应对这些挑战,我们提出了一个名为Resulic的残留引导的超低率图像压缩,该图像resulic将残留信号纳入语义检索和基于扩散的生成过程中。具体而言,我们引入语义残差编码(SRC),以捕获原始图像与其压缩潜在表示之间的语义差异 ...
视听细分(AVS)旨在实现视频中声源的像素级定位,而视听语义分段(AVSS)作为AVS的扩展,进一步追求对音频视频场景的语义理解。但是,由于AVSS任务需要同时建立视听对应和语义理解,因此我们观察到以前的方法在端到端培训中努力处理这种目标的混搭,从而导致学习和亚次观。因此,我们提出了一种称为\ textit {踏板石}的两阶段训练策略,该策略将AVSS任务分解为从本地化到语义理解的两个简单子任务, ...