视觉语言预训练(VLP)模型已被证明在许多计算机视觉应用中是有效的。在本文中,我们考虑在医学领域开发一种 VLP 模型,用于根据电子健康记录中的图像扫描和文本描述进行计算机辅助诊断 (CAD),正如实践中所做的那样。为了实现我们的目标,我们提出了一个轻量级 CAD 系统 MedBLIP,这是一种从现成的冻结预训练图像编码器和冻结大型语言模型引导 VLP 的新范例 ...
自然语言解释(NLE)旨在通过用自然语言提供详细的、人性化的解释来阐明决策过程。它通过使用语言模型帮助揭开大型视觉语言模型 (LVLM) 决策过程的神秘面纱。虽然创建自然语言解释视觉问答 (VQA-NLE) 数据集的现有方法可以提供解释,但它们严重依赖人工注释,既耗时又昂贵 ...
我们提出了 Samba ASR,这是第一个最先进的自动语音识别 (ASR) 模型,利用新颖的 Mamba 架构作为编码器和解码器,建立在状态空间模型 (SSM) 的基础上。与基于 Transformer 的 ASR 模型不同,它依赖于自我- 捕获依赖关系的注意力机制,Samba ASR 使用高效的状态空间动态有效地建模本地和全局时间依赖关系,实现了卓越的性能,此 http URL 解决了转换器的局 ...
我们都依赖于机动性,车辆交通影响着我们大多数人的日常生活。因此,预测道路网络中的交通状态的能力是一项重要的功能,也是一项艰巨的任务。交通数据通常是从在道路网络中的部署传感器获得的... ...
时空预测学习是一种学习范式,它使模型能够通过以无监督的方式根据给定的过去帧预测未来帧来学习空间和时间模式。尽管近年来取得了显着的进展,但由于环境的多样性、实施的复杂性和重现性的困难,仍然缺乏系统的理解。如果没有标准化,比较可能会不公平,见解也可能没有结论 ...
时空图建模是分析系统中组件的空间关系和时间趋势的一个重要任务。现有的方法主要捕获对固定图结构的空间依赖,假设实体之间的基础关系是预先确定的。然而,显式的图结构(关系)并不一定反映真实的依赖关系,并且由于数据中的不完整连接可能会丢失真正的关系…… ...
迁移学习首先针对数据丰富的任务对模型进行预训练,然后针对下游任务进行调整,它已成为自然语言处理(NLP)领域的一项基础技术。迁移学习的迁移产生了多种方法、方法论和方法实践。在本文中,我们通过引入一个统一的框架来探索 NLP 迁移学习技术的前景,该框架将所有基于文本的语言问题转换为文本到文本的格式... ...
在科学研究及其应用中,科学文献分析至关重要,因为它使研究人员能够以他人的工作为基础。然而,科学知识的快速增长导致学术文章大量增加,使得深入的文献分析变得越来越具有挑战性和耗时。大型语言模型(LLM)的出现为应对这一挑战提供了一种新方法 ...