我们推出 LAVIS,一个用于 LANguage-VISion 研究和应用的开源深度学习库。 LAVIS 旨在成为一个一站式综合图书馆,为研究人员和从业者带来语言视觉领域的最新进展,并促进未来的研究和发展。它具有统一的界面,可以轻松访问最先进的图像语言、视频语言模型和通用数据集 ...

0 0 0 0 2024/11/27 arXiv:2209.09019v1 xuanyue.zhong

在大规模数据集上训练的基础模型最近在 CV 和 NLP 方面取得了飞速发展。相比之下,生物医学领域由于数据匮乏,发展远远滞后。为了解决这个问题,我们构建并发布了 PMC-OA,这是一个具有 1 的生物医学数据集 ...

0 0 0 0 2024/09/06 arXiv:2303.07240v1 xuanyue.zhong

对比语言图像预训练(CLIP)擅长跨领域和模态抽象开放世界表示,已成为各种视觉和多模态任务的基础。然而,最近的研究表明,CLIP 存在严重的视觉缺陷,例如难以区分方向、数量、颜色、结构等。这些视觉缺陷也限制了基于 CLIP 构建的多模态大语言模型(MLLM)的感知能力 ...

0 0 0 0 2025/01/11 arXiv:2407.20171v4 xuanyue.zhong

在本文中,我研究了在计算机视觉中使用流行的深度学习架构时随机种子选择对准确性的影响。我在 CIFAR 10 上扫描了大量种子(高达 10^4$),并且还使用预训练模型在 Imagenet 上扫描较少种子来研究大规模数据集。结论是,即使方差不是很大,也很容易找到表现比平均值好得多或差得多的异常值 ...

0 0 0 0 2024/08/15 arXiv:2109.08203v2 xuanyue.zhong

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您在阅读时勇敢地改正翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)