arthur的文档

arthur

个性签名 ...

Coherent Concept-based Explanations in Medical Image and Its Application to Skin Lesion Diagnosis

黑色素瘤的早期发现对于预防严重并发症和增加成功治疗的机会至关重要。现有的黑色素瘤皮肤病变诊断深度学习方法被视为黑盒模型，因为它们忽略了模型预测背后的基本原理，损害了这些诊断方法的可信度和可接受性。提供基于概念的解释的尝试是基于事后方法，这依赖于额外的模型来得出解释 ...

0 0 0 0 2024/10/27 arXiv:2304.04579v2 arthur

MatFormer: Nested Transformer for Elastic Inference

Transformer 模型部署在各种环境中，从多加速器集群到独立移动电话。这些场景中的不同推理约束要求从业者将 PaLM 2、Llama 和 ViTs 等基础模型训练为一系列不同大小的模型。由于训练成本高昂，只有少数几个模型大小得到训练和支持，限制了对相关权衡的更细粒度的控制，包括延迟、成本和准确性 ...

0 0 0 0 2024/10/26 arXiv:2310.07707v1 arthur

Visual Anchors Are Strong Information Aggregators For Multimodal Large Language Model

在多模态大语言模型（MLLM）领域，视觉语言连接器在将预先训练的视觉编码器与大语言模型（LLM）连接起来方面发挥着至关重要的作用。尽管视觉语言连接器很重要，但它的研究相对较少。在这项研究中，我们的目标是提出一种强大的视觉语言连接器，使 MLLM 能够实现高精度，同时保持较低的计算成本 ...

0 0 0 0 2024/10/26 arXiv:2405.17815v1 arthur

Matryoshka Query Transformer for Large Vision-Language Models

大型视觉语言模型 (LVLM) 通常将图像编码为固定数量的视觉标记（例如 576），并使用语言模型处理这些标记 ...

0 0 0 0 2024/10/26 arXiv:2405.19315v2 arthur

RAVE: Residual Vector Embedding for CLIP-Guided Backlit Image Enhancement

在本文中，我们提出了一种针对无监督背光图像增强任务的对比语言图像预训练（CLIP）指导的新颖修改。我们的工作建立在最先进的 CLIP-LIT 方法的基础上，该方法通过限制提示（负/正样本）和相应图像（背光图像/光线充足的图像）之间的文本图像相似性来学习提示对）在 CLIP 嵌入空间中。学到的提示然后指导图像增强网络 ...

0 0 0 0 2024/10/20 arXiv:2404.01889v3 arthur

Forgery-aware Adaptive Transformer for Generalizable Synthetic Image Detection

在本文中，我们研究了可推广的合成图像检测问题，旨在从不同的生成方法（例如 GAN 和扩散模型）中检测伪造图像 ...

0 0 0 0 2024/10/19 arXiv:2312.16649v1 arthur

Guided and Fused: Efficient Frozen CLIP-ViT with Feature Guidance and Multi-Stage Feature Fusion for Generalizable Deepfake Detection

生成模型的兴起引发了人们对在线图像真实性的担忧，凸显了对有效且通用的检测器的迫切需求。最近利用冷冻预训练 CLIP-ViT 模型的方法在深度伪造检测方面取得了巨大进展。然而，这些模型通常依赖于冻结网络直接提取的视觉通用特征，其中包含过多与任务无关的信息，导致检测性能有限 ...

0 0 0 0 2024/10/17 arXiv:2408.13697v1 arthur

Rethinking Overlooked Aspects in Vision-Language Models

GPT4-V 和 LLaVA 等大型视觉语言模型 (LVLM) 最近取得了巨大进展。 LLaVA 的模块化架构尤其融合了简单性和效率。最近的工作主要集中在引入更多的预训练和指令调整数据以提高模型的性能 ...

0 0 1 23 2024/10/16 arXiv:2405.11850v1 arthur