hesy77的文档

hesy77

个性签名 ...

PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization

域泛化（DG）旨在解决源域和目标域之间的分布变化，当前的 DG 方法默认设置源域和目标域的数据共享相同的类别。然而，在实际场景中，目标域中存在看不见的类。为了解决这个问题，开放集域泛化（OSDG）应运而生，并专门提出了几种方法 ...

0 0 0 0 2024/12/30 arXiv:2404.09011v1 hesy77

Single Domain Generalization for Crowd Counting

由于其有希望的结果，密度图回归已广泛应用于基于图像的人群计数。然而，当对来自未见过的场景的数据进行测试时，该方法经常会遭受严重的性能下降，即所谓的“域转移”问题。为了解决这个问题，我们在这项工作中研究了用于人群计数的单域泛化（SDG） ...

0 0 0 0 2024/12/30 arXiv:2403.09124v2 hesy77

TP-UNet: Temporal Prompt Guided UNet for Medical Image Segmentation

深度学习技术的采用推动了医学图像分割技术的进步，特别是基于 UNet 的方法，它利用语义信息来提高分割的准确性。然而，当前基于 UNet 的医学图像分割方法忽略了扫描图像中器官的顺序。此外，UNet固有的网络结构不提供集成时间信息的直接能力 ...

0 0 0 0 2024/12/28 arXiv:2411.11305v2 hesy77

Self-supervised Monocular Depth Estimation: Let's Talk About The Weather

当前的自监督深度估计架构依赖于晴朗、阳光明媚的天气场景来训练深度神经网络。然而，在许多地方，这种假设过于强烈。例如，在英国（2021 年），有 149 天下雨 ...

0 0 0 0 2024/12/28 arXiv:2307.08357v1 hesy77

WeatherDG: LLM-assisted Procedural Weather Generation for Domain-Generalized Semantic Segmentation

在这项工作中，我们提出了一种新颖的方法，即WeatherDG，它可以基于两个基础模型（即稳定扩散（SD）和大语言模型（LLM））的合作生成逼真的、天气多样化的驾驶屏幕图像。具体来说，我们首先使用源数据对 SD 进行微调，使生成的样本的内容和布局与现实世界的驾驶场景保持一致 ...

0 0 0 0 2024/12/27 arXiv:2410.12075v1 hesy77

Beyond Model Adaptation at Test Time: A Survey

在训练和测试样本来自同一分布的普遍假设下，机器学习算法在各个学科、用例和应用程序中取得了显着的成功。因此，即使测试分布中的样本开始偏离训练期间观察到的样本，这些算法也会陷入困境并变得脆弱。作为解决测试和训练域之间分布变化的方法，域适应和域泛化已得到广泛研究，但每种方法都有其局限性 ...

0 0 0 0 2024/12/27 arXiv:2411.03687v1 hesy77

Unified Language-driven Zero-shot Domain Adaptation

本文介绍了统一语言驱动的零样本域适应 (ULDA)，这是一种新颖的任务设置，使单个模型能够适应不同的目标域，而无需明确的域 ID 知识。我们确定了现有语言驱动的零样本域适应任务中的约束，特别是对域 ID 和特定于域的模型的要求，这可能会限制灵活性和可扩展性。为了克服这些问题，我们提出了一个新的 ULDA 框架，其中包括分层上下文对齐（HCA）、域一致表示学习（DCRL）和文本驱动整流器（TDR） ...

0 0 0 0 2024/12/27 arXiv:2404.07155v1 hesy77

Domain Adaptation with a Single Vision-Language Embedding

领域适应已在计算机视觉领域得到广泛研究，但仍然需要在训练时访问目标数据，这在某些不常见的条件下可能很难获得。在本文中，我们提出了一种新的领域适应框架，它依赖于单个视觉语言（VL）潜在嵌入而不是完整的目标数据。首先，利用对比语言图像预训练模型（CLIP），我们提出提示/照片驱动的实例标准化（PIN） ...

0 0 0 0 2024/12/11 arXiv:2410.21361v1 hesy77

HyperGAN-CLIP: A Unified Framework for Domain Adaptation, Image Synthesis and Manipulation

生成对抗网络（GAN），特别是 StyleGAN 及其变体，在生成高度逼真的图像方面表现出了卓越的能力。尽管取得了成功，但使这些模型适应不同的任务，例如领域适应、参考引导合成和使用有限训练数据的文本引导操作仍然具有挑战性。为此，在本研究中，我们提出了一种新颖的框架，通过超网络集成 CLIP 空间，显着扩展了预训练 StyleGAN 的功能 ...

0 0 0 0 2024/12/11 arXiv:2411.12832v1 hesy77

DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting

最近的进展表明，使用对比图像-文本对进行大规模预训练可以成为从自然语言监督中学习高质量视觉表示的有希望的替代方案。受益于更广泛的监督来源，这种新范式对下游分类任务和数据集表现出令人印象深刻的可转移性。然而，将从图像文本对学到的知识转移到更复杂的密集预测任务的问题却几乎没有被提及 ...

0 0 0 0 2024/12/04 arXiv:2112.01518v2 hesy77