视觉问题回答(VQA)是一项挑战任务,结合了自然语言处理和计算机视觉技术,并逐渐成为多模式大语模型(MLLM)中的基准测试任务。我们调查的目的是概述VQA的开发以及及时性高的最新模型的详细描述。这项调查提供了对图像和文本的自然语言理解的最新综合,以及基于核心VQA任务的图像问题信息的知识推理模块 ...
生成对抗网络(GAN)已被广泛应用于图像超分辨率(SR),以提高感知质量。但是,大多数现有的基于GAN的SR方法通常直接在图像上执行粗粒歧视,而忽略了图像的语义信息,这使得超级分辨率网络(SRN)具有挑战性,以学习与细粒度和语义相关的纹理细节。为了减轻此问题,我们提出了一种语义特征歧视方法SFD,以进行感知SR ...
风格的手写文本生成(HTG)最近从计算机视觉和文档分析社区中受到了关注,这些社区开发了几种基于gan-或扩散的解决方案,这些解决方案取得了令人鼓舞的结果。但是,这些策略未能推广到新型样式并具有技术限制,尤其是在最大产出长度和训练效率方面。为了克服这些局限性,在这项工作中,我们提出了一个新颖的文本图像生成框架,称为Emuru ...
最近的研究表明,GNN容易受到对抗攻击的影响。为了防御此类攻击,可靠的图形结构改进(GSR)方法旨在最大程度地减少基于节点特征,图形结构或外部信息的对抗边缘的影响。但是,我们发现现有的GSR方法受到狭窄量的限制,例如假设干净的节点功能,中等结构攻击以及外部清洁图的可用性,从而在现实世界中限制了适用性 ...
计算机断层扫描(CT)在医学诊断中起关键作用;但是,重建内核的变异性会阻碍数据驱动的方法,例如深度学习模型,无法实现可靠和广义的性能。为此,通过在不同来源或条件上标准化数据来最大程度地降低此类非生物方差的有希望的解决方案。在这种情况下,事实证明,生成的对抗网络(GAN)是协调的强大框架,将其作为样式转移问题 ...
我们提出了一种直接但高效的几次微型微调策略,以将任何细分(SAM)调整为医学图像中的解剖分段任务。我们的新方法围绕着对SAM内的面具解码器进行重新介绍,该方法利用了从有限的标记图像(少数弹出集合)中得出的几个嵌入,作为查询图像嵌入中捕获的解剖对象的提示。这种创新的重新印度大大减少了对标记体积图像标记的耗时的在线用户互动的需求,例如详尽的标记点和边界框,以通过切片提供提示 ...
结直肠癌(CRC)是与癌症相关死亡的主要原因,结肠镜检查期间早期的息肉检测和去除对于预防至关重要。虽然深度学习方法在息肉细分中表现出了希望,但诸如高计算成本,小小的或低对比度息肉的难度以及整个数据集的概括性持续存在之类的挑战持续存在。为了解决这些问题,我们提出了LGP,这是一个基于轻量的GAN基于息肉的息肉框架 ...
无监督的域适应性(UDA)旨在将知识从标记的源域中学到的知识转移到未标记的目标域。在UDA的背景下,对比度学习(CL)可以帮助更好地在特征空间中分开类。但是,在图像分割中,由于计算像素对比度损失而引起的大型内存足迹使其使用效率很高 ...