Flickr30k数据集已成为基于句子的图像描述的标准基准。本文介绍了Flickr30k实体,该实体将Flickr30k带有244K COREFERCE链的158K字幕,链接在同一图像的不同字幕上链接相同的实体,并将其与276K手动注释的边界框关联。这种注释对于自动图像描述和基础语言理解中的持续进展至关重要 ...
0 0 0 2025/03/19 arXiv:1505.04870v4 shiwei
本文提出了一个简单的食谱,用于训练最先进的多语言语法误差校正(GEC)模型。我们通过首先提出一种语言不足的方法来实现这一目标,以生成大量的合成示例。第二个成分是使用大规模的多语言语言模型(最多11B参数) ...
0 0 0 2025/03/19 arXiv:2106.03830v2 554
深层代表性学习和培训预训练技术带来的里程碑改进导致了下游NLP,IR和视觉任务的巨大增长。多模式建模技术旨在利用大型高质量的粘性语言数据集来学习互补信息(跨图像和文本模式)。在本文中,我们介绍了基于Wikipedia的图像文本(WIT)数据集(此HTTPS URL),以更好地促进多模式的多语言学习 ...
0 0 0 2025/03/19 arXiv:2103.01913v2 shiwei
移动操作是机器人技术在日常生活中为人类提供各种任务和环境的基本挑战。但是,由于缺乏大规模培训,传统的移动操纵方法通常很难跨越不同的任务和环境。相比之下,视觉语言动作(VLA)模型的最新进展显示出令人印象深刻的概括能力,但是这些基础模型是用于固定基础操纵任务的 ...
0 0 0 2025/03/19 arXiv:2503.13446v1 蔡明方
大规模数据集上的视觉语言预训练(VLP)显示了各种下游任务的首要表现。与大量具有英语语料库的可用基准相反,大规模的预训练数据集和带有中国语料库的下游数据集仍然在很大程度上没有探索。在这项工作中,我们为研究界建立了一个名为CCMB的大规模高质量的中国跨模式基准,该基准包含目前最大的公共培训培训数据集零和五个用于下游任务的人类通知的微调数据集 ...
0 0 0 2025/03/19 arXiv:2205.03860v6 shiwei
大型语言模型(LLMS)通过其上下文化表示,在经验上已被证明可以封装句法,语义,单词智慧和常识性知识。但是,对他们的身体推理能力的探索有限,特别是关于理解日常物体的关键属性。为了解决这一差距,我们介绍了牛顿,牛顿是一个存储库和基准,用于评估LLM的物理推理技能 ...
0 0 0 2025/03/19 arXiv:2310.07018v1 IvanXie
当前的视觉问题回答数据集并未考虑图像中文本传达的丰富语义信息。在这项工作中,我们提出了一个新的数据集ST-VQA,旨在突出显示图像中存在的高级语义信息作为VQA过程中的文本提示的重要性。我们使用此数据集来定义一系列的任务,这些任务增加了难以在视觉信息提供的上下文中读取场景文本的难度,以推理和生成适当的答案 ...
0 0 0 2025/03/19 arXiv:1905.13648v2 zl1994
在大规模推荐系统中,在资源约束下准确检索前 N 个相关候选者至关重要。为了评估此类检索模型的性能,Recall@N(前 N 排名中正样本被检索的频率)被广泛使用。然而,大多数检索模型的传统损失函数(例如softmax交叉熵和成对比较方法)并不直接优化Recall@N ...
0 0 0 2025/03/19 arXiv:2208.02971v3 kylecat

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)