在自动驾驶中检索复杂场景数据的需求正在增加,尤其是因为乘用车已经配备了驾驶城市环境的能力,因此必须解决长尾方案。同时,在先前存在的二维图像检索方法下,场景检索可能会引起一些问题,例如缺乏全局特征表示和不足的文本检索能力。为了解决这些问题,我们提出了\ textbf {bev-clip},这是第一个多模式的鸟类视图(BEV)检索方法,该方法利用描述性文本作为检索相应场景的输入 ...
0 0 0 2025/05/14 arXiv:2401.01065v2 zhouzhengjun
本文为语义文本相似性(STS)贡献了新的最新技术(SOTA)。我们比较并结合了一些最近提出的STS句子嵌入方法,并提出了一种新颖而简单的合奏知识蒸馏方案,以改进以前的方法。我们的实验表明,经过训练的模型,可以从多个合奏学生那里学习平均嵌入空间,以较高的鲁棒性优于所有其他单个模型 ...
0 0 0 2025/05/14 arXiv:2104.06719v1 llleo
最近,像GPT-O1和DeepSeek-R1这样的缓慢思考的系统在通过明确反思来解决具有挑战性的问题方面具有巨大的潜力。在各种数学和科学基准上,他们的表现极大地超过了最好的快速思维模型,例如GPT-4O。但是,它们的多模式推理能力与快速思维的模型相当 ...
0 0 0 2025/05/14 arXiv:2504.08837v3 kangningfei
多模式大语言模型(MLLM)的最新进展已在各种视觉任务中表现出令人印象深刻的结果。但是,在遥感(RS)中,高分辨率和一小部分对象对现有的MLLM构成了挑战,这些挑战与以对象为中心的任务困难,尤其是在精确的本地化和每个对象的精确粒度属性描述中。这些RS MLLM尚未超过经典的视觉感知模型,因为它们仅提供粗略的图像理解,从而在现实世界中导致有限的增长 ...
0 0 0 2025/05/14 arXiv:2503.23330v1 dm616703
时尚域涵盖了各种现实世界的多模式任务,包括多模式检索和多模式生成。人工智能生成的内容的快速进步,尤其是在诸如用于文本生成的大语言模型和视觉生成的扩散模型之类的技术中,引发了广泛的研究兴趣,即将这些多模型应用于时尚域中。但是,由于多模式时尚域的多样性,从这个角度忽略了涉及嵌入的任务,例如图像到文本或文本对图像检索 ...
0 0 0 2025/05/14 arXiv:2408.11305v2 Archer
图神经网络(GNN)已实现了链接预测的最先进性能。但是,GNNS的解释性差,这限制了他们在关键场景中的收养,这些情况需要知道为什么预测某些链接。尽管提出了各种用于GNN的解释性的方法,但其中大多数是用于解释节点分类的事后解释者 ...
0 0 0 2025/05/14 arXiv:2305.12578v1 QingXiang
我们研究了在知识图嵌入(KGE)模型中解释链接预测的问题。我们提出了一种基于示例的方法,该方法利用了知识图中节点和边缘的潜在空间表示以解释预测。我们通过观察到有影响力的三元组后,通过观察模型性能的降低来评估了鉴定的三元组的重要性 ...
0 0 0 2025/05/14 arXiv:2212.02651v1 QingXiang
Graph Machine Learning(GML)在现实世界中有许多应用程序,例如节点/图形分类和链接预测。为GML模型提供人为理解的解释是促进其采用的一项具有挑战性但根本的任务,但是对链接预测模型的验证解释很少受到关注。在本文中,我们提供定量指标,以评估链接预测解释的质量,无论有无基础 ...
0 0 0 2025/05/14 arXiv:2308.01682v1 QingXiang

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)