个性签名 ...
我们推出 LAVIS,一个用于 LANguage-VISion 研究和应用的开源深度学习库。 LAVIS 旨在成为一个一站式综合图书馆,为研究人员和从业者带来语言视觉领域的最新进展,并促进未来的研究和发展。它具有统一的界面,可以轻松访问最先进的图像语言、视频语言模型和通用数据集 ...
在大规模数据集上训练的基础模型最近在 CV 和 NLP 方面取得了飞速发展。相比之下,生物医学领域由于数据匮乏,发展远远滞后。为了解决这个问题,我们构建并发布了 PMC-OA,这是一个具有 1 的生物医学数据集 ...
对比语言图像预训练(CLIP)擅长跨领域和模态抽象开放世界表示,已成为各种视觉和多模态任务的基础。然而,最近的研究表明,CLIP 存在严重的视觉缺陷,例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 构建的多模态大语言模型(MLLM)的感知能力 ...
在本文中,我研究了在计算机视觉中使用流行的深度学习架构时随机种子选择对准确性的影响。我在 CIFAR 10 上扫描了大量种子(高达 10^4$),并且还使用预训练模型在 Imagenet 上扫描较少种子来研究大规模数据集。结论是,即使方差不是很大,也很容易找到表现比平均值好得多或差得多的异常值 ...