视频接地旨在定位视频中与输入文本查询相对应的时空部分。本文通过引入开放词汇时空视频接地任务,解决了当前视频接地方法中的一个关键限制。与由于训练数据和预定义词汇有限而难以应对开放词汇场景的流行封闭集方法不同,我们的模型利用基础空间基础模型的预训练表示 ...

0 0 0 0 2024/09/27 arXiv:2401.00901v2 ko440124

我们借鉴了此类模型最近在图像分类中取得的成功,提出了基于纯 Transformer 的视频分类模型。我们的模型从输入视频中提取时空标记,然后由一系列转换器层进行编码。为了处理视频中遇到的长标记序列,我们提出了模型的几种有效变体,它们分解了输入的空间和时间维度 ...

0 0 0 0 2024/09/27 arXiv:2103.15691v2 ko440124

我们推出了 VideoPrism,这是一种通用视频编码器,可以使用单个冻结模型来处理各种视频理解任务。我们在包含 36M 高质量视频字幕对和 582M 带有噪声并行文本的视频剪辑(例如, ...

0 0 0 0 2024/09/27 arXiv:2402.13217v2 ko440124

我们考虑在视频中定位与给定文本查询相对应的时空管的问题。这是一项具有挑战性的任务,需要对时间、空间和多模态交互进行联合有效的建模。为了解决这个任务,我们提出了 TubeDETR,一种基于转换器的架构,其灵感来自于此类文本条件对象检测模型最近取得的成功 ...

0 0 0 0 2024/09/27 arXiv:2203.16434v2 ko440124

大型语言模型 (LLM) 在生成类人响应方面表现出了令人印象深刻的能力。然而,它们缺乏特定领域的知识限制了它们在医疗保健环境中的适用性,在医疗保健环境中,上下文和全面的响应至关重要。为了应对这一挑战并能够生成上下文相关且全面的以患者为中心的响应,我们提出了 MedInsight:一种新颖的检索增强框架,可以使用来自多个来源的相关背景信息来增强 LLM 输入(提示) ...

0 0 0 0 2024/09/27 arXiv:2403.08607v1 ko440124

自深度学习复兴以来,由大型语言模型 (LLM) 增强的视觉语言模型 (VLM) 的受欢迎程度呈指数级增长。然而,虽然 LLM 可以通过上下文学习利用广泛的背景知识和任务信息,但大多数 VLM 仍然难以理解具有多个图像的复杂多模态提示,这使得 VLM 在下游视觉语言任务中效率较低。在本文中,我们通过以下方法解决了上述限制:1)引入具有多模态上下文学习的视觉语言模型(MMICL),这是一种允许 VLM 有效处理多模态输入的新方法; 2)提出一种新颖的上下文方案来增强VLM的上下文学习能力; 3)构建多模态情境学习(MIC)数据集,旨在增强VLM理解复杂多模态提示的能力 ...

0 0 0 0 2024/09/24 arXiv:2309.07915v3 ko440124

3D 医学成像计算研究的一个主要挑战是缺乏全面的数据集。为了解决这个问题,我们的研究引入了 CT-RATE,这是第一个将图像与文本报告配对的 3D 医学成像数据集。 CT-RATE 由 21,304 名独特患者的 25,692 个非对比胸部 CT 卷组成,通过各种重建扩展到 50,188 个卷,以及相应的放射学文本报告 ...

0 0 0 0 2024/07/17 arXiv:2403.17834v1 ko440124

对于个体患者来说,与肺部疾病相关的症状表现可能在不同深度上有所不同,这凸显了 CT 扫描中 3D 信息对于医学图像分类的重要性。虽然 Vision Transformer 在图像分类任务中表现出优于卷积神经网络的性能,但它们的有效性通常在足够大的 2D 数据集上得到证明,并且很容易在小型医学图像数据集上遇到过拟合问题。为了解决这个限制,我们提出了一种基于扩散的 3D Vision Transformer (Diff3Dformer),它利用扩散模型的潜在空间形成用于 3D 分析的切片序列,并将聚类注意力纳入 ViT 中以聚合 3D CT 扫描中的重复信息,从而在小型数据集的 3D 分类任务中利用高级转换器的强大功能 ...

0 0 0 0 2024/07/09 arXiv:2406.17173v2 ko440124

在过去的几年里,扩展图像或文本的表示已经得到了广泛的研究,并引发了学习和语言的革命。然而,3D 对象和场景的可扩展表示相对尚未被探索。在这项工作中,我们提出了Uni3D,这是一个3D基础模型,用于探索大规模的统一3D表示... ...

0 0 0 0 2024/10/21 arXiv:2310.06773v1 ko440124

人们对在医疗领域开发人工智能应用程序的兴趣日益浓厚,但由于缺乏高质量的数据集,这主要是由于隐私相关问题。此外,最近多模态大语言模型(MLLM)的兴起导致了对多模态医疗数据集的需求,其中临床报告和结果附加到相应的 CT 或 MR 扫描中。本文阐述了构建 MedPix 2 数据集的整个工作流程 ...

0 0 0 0 2024/07/08 arXiv:2407.02994v1 ko440124

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)