大规模视觉语言模型(例如 CLIP)可以学习强大的图像文本表示,这些表示已找到许多应用,从零样本分类到文本到图像生成。尽管如此,它们通过提示解决新颖的判别性任务的能力仍落后于大型语言模型,例如 GPT-3。在这里,我们探索视觉提示工程的想法,通过在图像空间而不是文本中进行编辑来解决分类之外的计算机视觉任务 ...
0 0 0 2024/07/27 arXiv:2304.06712v2 Archer
Parisi-Sourlas (PS) 超对称性已知出现在一些具有随机场类型无序的模型中。当 PS SUSY 存在时,$d$ 维理论允许 $d-2$ 维描述。在本文中,我们研究了反向问题,并提供了新的指示,即任何给定的 CFT$_{d-2}$ 都可以提升为 PS SUSY CFT$_{d}$ ...
0 0 0 2024/07/27 arXiv:2405.00771v1 terry.yide
使用长序列有效训练 LLM 很重要,但面临大量计算和内存需求的挑战。序列并行性已被提出来解决这些问题,但现有方法存在可扩展性或效率问题。我们提出了 LoongTrain,这是一种新颖的系统,可以有效地大规模训练具有长序列的 LLM  ...
0 0 0 2024/07/27 arXiv:2406.18485v1 terry.yide
自主图形用户界面(GUI)代理旨在通过与用户界面交互而无需人工干预来促进任务自动化。最近的研究调查了大型语言模型(LLM)在不同环境中有效参与的能力。为了满足 LLM 的输入输出要求,大多数现有方法都是在沙箱设置下开发的,它们依赖外部工具和特定于应用程序的 API 将环境解析为文本元素并解释预测的操作 ...
0 0 0 2024/07/26 arXiv:2309.11436v4 kawaii_neko
在实际部署深度学习模型时,鲁棒性是需要考虑的一个重要方面。许多研究致力于研究视觉变换器 (ViT) 的鲁棒性,自 2020 年代初以来,ViT 一直作为视觉任务的主流骨干选择占据主导地位。最近,一些大型内核卷积网络以令人印象深刻的性能和效率卷土重来 ...
0 0 0 2024/07/26 arXiv:2407.08972v1 ajsaj
大型语言模型(LLM)在各个领域展示了卓越的能力,吸引了学术界和工业界的极大兴趣。尽管其性能令人印象深刻,但 LLM 的巨大规模和计算需求给实际部署带来了相当大的挑战,特别是在资源有限的环境中。在保持语言模型准确性的同时压缩语言模型已成为研究的焦点 ...
0 0 0 2024/07/26 arXiv:2407.01885v1 terry.yide
我们引入了一个新任务——语言驱动的视频修复,它使用自然语言指令来指导修复过程。这种方法克服了传统视频修复方法的局限性,传统视频修复方法依赖于手动标记的二进制掩模,这一过程通常是乏味且劳动密集型的。我们提出了“按指令从视频中删除对象”(ROVI) 数据集,其中包含 5,650 个视频和 9,091 个修复结果,以支持该任务的训练和评估 ...
0 0 0 2024/07/26 arXiv:2401.10226v1 1150501302
盲图像去模糊(BID)在计算机视觉和相关领域得到了广泛的研究。现代 BID 方法可以分为两类:使用统计推断和数值优化处理单个实例的单实例方法,以及训练深度学习模型以直接对未来实例进行去模糊的数据驱动方法。数据驱动的方法可以摆脱推导精确模糊模型的困难,但从根本上受到训练数据的多样性和质量的限制——收集足够表达和真实的训练数据是一个长期的挑战 ...
0 0 0 2024/07/26 arXiv:2208.09483v2 hailey

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)