视频文本检索(VTR)旨在搜索与给定句子中语义相关的最相关的视频,反之亦然。通常,此检索任务由四个连续的步骤组成:视频和文本特征表示提取,功能嵌入和匹配以及目标功能。在最后,根据数据集检索到的样本的列表是根据与查询的匹配相似之处进行排名的 ...
Visuo-Tactile传感器旨在模仿人类的触觉感知,使机器人能够精确理解和操纵物体。随着时间的流逝,许多精心设计的Visuo-Tactile传感器已集成到机器人系统中,有助于完成各种任务。但是,这些低标准的视觉触诊传感器的独特数据特性阻碍了强大的触觉感知系统的建立 ...
在这项工作中,我们为日益访问的基于视觉的触觉传感器介绍通用触摸表示。这些传感器已导致机器人操纵的许多最新进展,因为它们明显地补充了视觉,但是当今的解决方案通常依靠任务和传感器特定的手工感知模型。用以任务为中心的地面真实标签(如接触力和滑移)大规模收集真实数据,这是一个挑战,其挑战是各种形式的传感器在照明和凝胶标记等方面有所不同的挑战 ...
行人轨迹预测是自动驾驶中的一项关键技术,由于行人之间的复杂互动,这仍然非常具有挑战性。但是,以前基于密集的无向相互作用的作品遭受了对多余的相互作用和忽略轨迹运动趋势的建模,因此不可避免地会导致与现实的相当大偏差。为了应对这些问题,我们提出了一个稀疏的图形卷积网络〜(SGCN),用于人行道轨迹预测 ...
由于当今大部分数据可以表示为图形,因此需要将神经网络模型推广到图形数据。图表卷积神经网络(GCN)的使用情况是,最近显示出富有成果的结果并因此越来越兴趣。已证明它们可以在网络分析中对广泛的任务进行重大改进,其中之一是节点表示学习 ...
参数效率调整(PEFT)技术(例如低级别适应性(LORA))在大语言模型上提供培训效率,但它们对模型性能的影响仍然有限。最近的努力集成了洛拉和专家的混合物(MOE),以提高PEFT方法的性能。尽管结果有希望,但有关提高MOE洛拉效率的研究仍处于早期阶段 ...
这项工作是由两个关键趋势激励的。一方面,大型语言模型(LLMS)在各种生成任务(例如写作,绘图和问题答案)中表现出显着的多功能性,从而大大减少了许多常规任务所需的时间。另一方面,研究人员的工作不仅是耗时的,而且是高度专业知识,他们面临越来越多的挑战,因为他们必须花更多的时间阅读,写作和审查论文 ...
从图形数据中学习时,图和节点具有有关节点标签的嘈杂信息。在本文中,我们提出了一种算法,以共同降低特征并重新布线图(JDR),从而改善了下游节点分类图形神经网(GNNS)的性能。 JDR通过对齐图和特征矩阵的主要光谱空间来起作用 ...