扩散模型在许多应用中实现了最先进的生成质量,但它们捕获重尾分布中罕见或极端事件的能力仍不清楚。在这项工作中,我们表明具有标准高斯先验的传统扩散和流匹配模型无法捕获重尾行为。我们通过使用多元 Student-t 分布重新利用扩散框架进行重尾估计来解决这个问题 ...
0 0 0 2025/01/13 arXiv:2410.14171v2 jesson
最近,诸如CLIP之类的大规模视觉语言模型(VLM)的出现,为开放世界物体感知开辟了道路。许多作品探索了如何利用预训练的 VLM 来完成具有挑战性的开放词汇密集预测任务,该任务需要在推理时感知具有新类别的不同对象。现有的方法基于相关任务的公共数据集构建实验,这些方法不是针对开放词汇量而定制的,而且由于数据收集偏差和注释成本,很少涉及复杂场景中伪装的难以察觉的物体 ...
0 0 3 2025/01/13 arXiv:2311.11241v3 diamonddong
稳定扩散对给定的文本描述表现出强大的图像合成能力,表明它包含用于对对象进行分组的强大语义线索。研究人员探索了采用稳定扩散进行免训练分割。大多数现有方法通过自注意力图一次细化交叉注意力图,证明自注意力图包含有用的语义信息以改善分割 ...
0 0 0 2025/01/13 arXiv:2409.03209v4 Archer
最近的工作提出了针对深度神经网络(DNN)的后门攻击的概念,其中不当行为隐藏在“正常”模型内,仅由非常特定的输入触发。然而,在实践中,这些攻击很难执行,并且通过迁移学习共享模型受到高度限制。攻击者有一个小窗口,在此期间他们必须在部署学生模型之前对其进行破坏 ...
0 0 0 2025/01/13 arXiv:1905.10447v1 nininininin666
我们介绍了发现和应用稀疏特征电路的方法。这些是人类可解释特征的因果关系子网,用于解释语言模型行为。先前工作中确定的电路由多语义且难以解释的单元组成,例如注意力头或神经元,这使得它们不适合许多下游应用 ...
0 0 0 2025/01/13 arXiv:2403.19647v2 Goodhao
大型语言模型,尤其是利用 Transformer 架构的语言模型,由于其可扩展性和处理大量数据的能力,已成为强大的工具。 Dosovitskiy 等人扩展了该架构,引入了 Vision Transformers (ViT),将其适用性扩展到图像处理任务 ...
0 0 0 2025/01/13 arXiv:2406.00237v1 shuofang
多模态图像之间的错位给图像融合带来了挑战,表现为结构扭曲和边缘鬼影。现有的努力通常采取先注册后融合的方式,通常采用两个级联阶段进行注册,即 ...
0 0 0 2025/01/13 arXiv:2308.11165v1 lzx
带注释数据的稀缺引发了人们对无监督预训练方法的极大兴趣,这些方法利用医疗报告作为医学视觉表示学习的辅助信号。然而,现有研究忽视了医学视觉表示的多粒度性质,并且缺乏合适的对比学习技术来提高模型在不同粒度上的泛化性,导致图像文本信息的利用不足。为了解决这个问题,我们提出了 MLIP,这是一种新颖的框架,利用特定领域的医学知识作为指导信号,通过图像文本对比学习将语言信息整合到视觉领域 ...
0 1 0 2025/01/13 arXiv:2402.02045v1 Ferra_Lee

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)