多模态搜索在为用户提供自然有效的表达搜索意图的方式方面变得越来越重要。图像提供所需产品的细粒度细节,而文本则允许轻松合并搜索修改。然而,一些现有的多模式搜索系统不可靠并且无法解决简单的查询 ...
0 0 0 2024/04/26 arXiv:2404.15790v1 huang_k
知识编辑旨在通过向语言模型中注入相应的预期知识来改变语言模型在几种特殊情况(即编辑范围)上的性能 ...
0 0 0 2024/04/26 arXiv:2309.08952v1 czxx
最近,当标记数据稀缺时,半监督学习在改进深度学习模型方面表现出了很大的希望。最近的方法中常见的是对大量未标记数据使用一致性训练来约束模型预测对输入噪声不变。在这项工作中,我们提出了关于如何有效地对未标记示例进行噪声处理的新视角,并认为噪声的质量,特别是由先进的数据增强方法产生的噪声的质量,在半监督学习中起着至关重要的作用 ...
0 0 0 2024/04/25 arXiv:1904.12848v6 豆芽ya
我们提出了移动视频网络 (MoViNets),这是一系列计算和内存高效的视频网络,可以在流视频上运行以进行在线推理。 3D 卷积神经网络(CNN)在视频识别方面非常准确,但需要大量的计算和内存预算,并且不支持在线推理,这使得它们很难在移动设备上工作。我们提出了一种三步方法来提高计算效率,同时大幅降低 3D CNN 的峰值内存使用量 ...
0 0 0 2024/04/25 arXiv:2103.11511v2 Benjam1n
准确检测和跟踪周围物体对于实现自动驾驶车辆至关重要。虽然光探测和测距 (LiDAR) 传感器为高性能设定了基准,但仅摄像头解决方案的吸引力在于其成本效益。值得注意的是,尽管无线电探测和测距 (RADAR) 传感器在汽车系统中广泛使用,但由于数据稀疏和测量噪声,它们在 3D 探测和跟踪方面的潜力在很大程度上被忽视 ...
0 0 0 2024/04/25 arXiv:2403.15313v1 卡崩卡
标准的多任务基准对于开发可以推广到各种下游任务的预训练模型至关重要。现有的自然语言处理(NLP)基准通常只关注理解或生成短文本。然而,长文本建模需要许多与短文本不同的能力,例如长距离话语和常识关系的建模,以及生成的连贯性和可控性 ...
0 0 0 2024/04/25 arXiv:2108.12960v2 beaver
使用不精确监督的弱监督视觉识别是一个关键但具有挑战性的学习问题。它显着降低了人工标记成本,并且传统上依赖于多实例学习和伪标记。本文介绍了WeakSAM,并利用视觉基础模型中包含的预先学习的世界知识来解决弱监督目标检测(WSOD)和分割问题 ...
0 0 0 2024/04/25 arXiv:2402.14812v1 hzl
我们提出了一种新的视觉提示方法 Set-of-Mark (SoM),以释放大型多模态模型 (LMM)(例如 GPT-4V)的视觉基础能力。如图 1(右)所示,我们采用现成的交互式分割模型(例如 SEEM/SAM)将图像划分为不同粒度级别的区域,并用一组标记 e 覆盖这些区域 ...
0 0 0 2024/04/25 arXiv:2310.11441v2 bage

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)