深层代表性学习和培训预训练技术带来的里程碑改进导致了下游NLP,IR和视觉任务的巨大增长。多模式建模技术旨在利用大型高质量的粘性语言数据集来学习互补信息(跨图像和文本模式)。在本文中,我们介绍了基于Wikipedia的图像文本(WIT)数据集(此HTTPS URL),以更好地促进多模式的多语言学习 ...
0 0 0 2025/03/19 arXiv:2103.01913v2 shiwei
移动操作是机器人技术在日常生活中为人类提供各种任务和环境的基本挑战。但是,由于缺乏大规模培训,传统的移动操纵方法通常很难跨越不同的任务和环境。相比之下,视觉语言动作(VLA)模型的最新进展显示出令人印象深刻的概括能力,但是这些基础模型是用于固定基础操纵任务的 ...
0 0 0 2025/03/19 arXiv:2503.13446v1 蔡明方
大规模数据集上的视觉语言预训练(VLP)显示了各种下游任务的首要表现。与大量具有英语语料库的可用基准相反,大规模的预训练数据集和带有中国语料库的下游数据集仍然在很大程度上没有探索。在这项工作中,我们为研究界建立了一个名为CCMB的大规模高质量的中国跨模式基准,该基准包含目前最大的公共培训培训数据集零和五个用于下游任务的人类通知的微调数据集 ...
0 0 0 2025/03/19 arXiv:2205.03860v6 shiwei
大型语言模型(LLMS)通过其上下文化表示,在经验上已被证明可以封装句法,语义,单词智慧和常识性知识。但是,对他们的身体推理能力的探索有限,特别是关于理解日常物体的关键属性。为了解决这一差距,我们介绍了牛顿,牛顿是一个存储库和基准,用于评估LLM的物理推理技能 ...
0 0 0 2025/03/19 arXiv:2310.07018v1 IvanXie
当前的视觉问题回答数据集并未考虑图像中文本传达的丰富语义信息。在这项工作中,我们提出了一个新的数据集ST-VQA,旨在突出显示图像中存在的高级语义信息作为VQA过程中的文本提示的重要性。我们使用此数据集来定义一系列的任务,这些任务增加了难以在视觉信息提供的上下文中读取场景文本的难度,以推理和生成适当的答案 ...
0 0 0 2025/03/19 arXiv:1905.13648v2 zl1994
在大规模推荐系统中,在资源约束下准确检索前 N 个相关候选者至关重要。为了评估此类检索模型的性能,Recall@N(前 N 排名中正样本被检索的频率)被广泛使用。然而,大多数检索模型的传统损失函数(例如softmax交叉熵和成对比较方法)并不直接优化Recall@N ...
0 0 0 2025/03/19 arXiv:2208.02971v3 kylecat
图表非常受欢迎用于分析数据。在探索图表时,人们经常提出各种复杂的推理问题,涉及多个逻辑和算术操作。他们还通常在问题中指出图表的视觉特征 ...
0 0 0 2025/03/19 arXiv:2203.10244v1 zl1994
由于其固有的能量效率,尖峰神经网络(SNN)正在成为人工神经网络(ANN)的一种有希望的替代品。由于SNN中尖峰产生的固有稀疏性,经常忽略了中间输出尖峰​​的深入分析和优化。这一监督显着限制了SNN的固有能源效率,并降低了它们在时空特征提取方面的优势,从而导致缺乏准确性和不必要的能量消耗 ...
0 0 0 2025/03/19 arXiv:2501.14744v2 长空

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)