当前,基于指导的图像编辑方法通过利用视觉语言模型(VLMS)的强大跨模式理解能力来取得重大进展。但是,他们仍然在三个关键领域面临挑战:1)复杂的场景; 2)语义一致性; 3)精细颗粒编辑。为了解决这些问题,我们提出了Fireedit,这是一种创新的基于良好的教学的图像编辑框架,可利用区域感知的VLM ...
大型语言模型(LLMS)越来越需要处理长文本序列,但是GPU记忆限制迫使记忆容量和带宽之间的艰难权衡。尽管基于HBM的加速度具有很高的带宽,但其容量仍然受到限制。将数据卸载到主机侧DIMMS可改善容量,但引入了昂贵的数据交换开销 ...
我们建议知识意识预处理(KAP),这是一个针对传统中国非叙事文档量身定制的两阶段预处理框架,旨在提高混合检索系统的检索准确性。混合检索,它整合了稀疏检索(例如 ...
潜在扩散模型已成为生成高质量图像和视频的领先方法,利用压缩潜在表示减轻了扩散过程的计算负担。尽管最近的进步主要集中在扩散骨架和提高自动编码器重建质量上,但这些组件之间的相互作用受到相对较少的关注。在这项工作中,我们对现代自动编码器进行频谱分析,并在其潜在空间中识别出非频率的组件,这些高频组件在具有较大瓶颈通道大小的自动编码器中尤为明显 ...
Bird's-eye View(BEV)感知引起了人们的关注,因为它提供了统一的表示形式来融合多个视图图像并实现了广泛的下游自动驾驶任务,例如预测和计划。最新的最新模型利用基于投影的方法将BEV感知作为查询学习来绕过明确的深度估计。尽管我们在此范式中观察到有希望的进步,但由于缺乏不确定性建模和昂贵的计算要求,它们仍然没有现实世界的应用 ...
立体声匹配即将达到半个世纪的历史,但由于深度学习,在过去十年中迅速发展。尽管2010年代末的先前调查涵盖了这次革命的第一阶段,但最后五年的研究为该领域带来了进一步的突破性进步。本文旨在以两倍的方式填补这一空白:首先,我们对深度立体声匹配的最新发展进行了深入的检查,重点是在2020年代重新定义领域的开创性建筑设计和开创性的范式;其次,我们对与这些进步一起出现的关键挑战进行了详尽的分析,为这些问题提供 ...
大型语言模型(LLMS)的最新进展已在简单的文本分类任务上表现出很强的性能,通常在零击设置下。但是,在应对复杂的社交媒体挑战(例如宣传检测,可恨模因分类和毒性识别)等复杂的社交媒体挑战时,它们的功效会下降。现有的许多工作都集中在使用LLMS生成合成训练数据,从而忽视了基于LLM的文本预处理和语义增强的潜力 ...
当前的LLM通常会遵循安全要求,并倾向于拒绝有毒的提示。但是,LLM可能无法拒绝有毒的提示,也可能过分拒绝良性的例子。此外,最先进的毒性探测器在低FPR下的TPR较低,在很少有毒性实例的实际应用中产生高成本 ...