我们为接地视频字幕生成提出了一个新任务,数据集和模型。此任务统一了视频中的字幕和对象接地,在该视频中,标题中的对象是通过暂时一致的边界框在视频中接地的。我们介绍以下贡献 ...
0 0 0 2025/04/06 arXiv:2411.07584v1 2889932594
鉴于起源(O),目的地(D)和出发时间(T)(t),旅行时间估计(TTE)中的不确定性量化旨在估算旅行时间的置信区间。准确地量化这种不确定性需要产生最可能的路径并评估沿路径的旅行时间不确定性。这涉及两个主要挑战:1)预测一条与地面真理保持一致的路径,以及2)对每个细分市场中旅行时间在不同条件下的总体不确定性的影响进行建模 ...
0 0 0 2025/04/06 arXiv:2408.12809v2 jackson118
视频文本检索在多模态研究中发挥着重要作用,clip (对比语言图像预训练)是一种图像语言预训练模型,它展示了从网络收集的图像文本数据集中学习视觉概念的强大功能。在本文中,clip4clip模型 ...
0 0 0 2025/04/06 arXiv:2104.08860v2 betask
在多个尺度上表示特征对于许多视觉任务非常重要。主干卷积神经网络(CNN)的最新进展不断展现出更强的多尺度表示能力,从而在广泛的应用中实现一致的性能提升。然而,大多数现有方法以分层方式表示多尺度特征... ...
0 0 0 2025/04/06 arXiv:1904.01169v3 ninelie02
在图像-文本对上调整大语言模型(LLM)的视觉指令已经实现了通用视觉-语言能力。然而,区域文本对的缺乏限制了它们在细粒度多模态理解方面的进步。在本文中,我们提出了空间指令调整,它在指令中引入了对感兴趣区域(RoI)的引用 ...
0 0 0 2025/04/06 arXiv:2307.03601v4 hx5563
计算机使用代理通过直接与计算机和移动设备上的图形用户界面(GUI)进行交互来自动化数字任务,从而通过完成用户查询的开放式空间来提高人类生产力。但是,当前的代理商面临重大挑战:GUI元素的不精确基础,长期任务计划的困难以及依靠单个通才模型来执行各种认知任务的绩效瓶颈。为此,我们介绍了Agent S2,这是一个新颖的构图框架,该框架将各种通才和专业模型的认知责任委托 ...
0 0 0 2025/04/06 arXiv:2504.00906v1 liuweitang
在本文中,我们提出了Huatuogpt,这是一种大型语言模型(LLM),用于医学咨询。 Huatuogpt的核心食谱是在受监督的微型阶段中利用\ textit {devilled {来自Doctors的蒸馏数据和\ textit {真实世界数据}。 Chatgpt的回答通常是详细的,富有说明和信息丰富的,而在许多方面都不能像医生一样表现 ...
0 0 0 2025/04/06 arXiv:2305.15075v1 王德发
知识图完成〜(kgc)任务旨在从不完整的三倍中推断出缺失的实体。现有的基于嵌入的方法仅依赖于公园中的三元组,这很容易受到相当的关系模式和长尾实体的影响。另一方面,基于文本的方法在KG三元和自然语言之间的语义差距上挣扎 ...
0 1 0 2025/04/06 arXiv:2411.08165v1 stringify

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)