预训练模型(PTM)的部署已大大推进了持续学习(CL)的领域,从而使知识转移和对灾难性遗忘的韧性。为了维持这些优势在依次到达的任务中,一个有希望的方向涉及保持预训练的主链冻结,同时采用参数有效调整(PET)技术来指导表示表示学习。尽管基于迅速的宠物对CL的普及,但其经验设计通常会在我们对不同的PTM和目标任务的评估中导致次优性能 ...
0 0 0 2025/04/20 arXiv:2407.05229v2 19396386025
在本文中,我们在自动驾驶纪律中介绍了第一个大规模视频预测模型。为了消除高成本数据收集的限制并赋予模型的概括能力,我们从Web中获取大量数据,并将其与多样化和高质量的文本描述配对。最终的数据集积累了超过2000个小时的驾驶视频,跨越了世界各地的各种天气条件和交通情况 ...
0 0 0 2025/04/20 arXiv:2403.09630v2 zhanguanglun
传统图形神经网络(GNN)领域中的后门攻击由于混淆标签的困境而容易检测到。为了探索GNN的后门脆弱性并创建更隐秘的后门攻击方法,本文提出了在节点分类任务中的清洁标签图后门攻击方法(CGBA)。与现有后门攻击方法不同,CGBA不需要修改节点标签,也不需要图形结构 ...
0 0 0 2025/04/20 arXiv:2401.00163v1 nininininin666
图形神经网络(GNN)在各种任务中表现出色。但是,最近的作品表明,GNNS容易受到后门攻击的影响。通常,后门攻击是通过将后门触发器和目标类标签附加到训练图中的一组节点来推销图形的 ...
0 0 0 2025/04/20 arXiv:2405.10757v3 nininininin666
在工业检查中,很少有射击异常检测(FSAD)是一项至关重要但具有挑战性的任务,在工业检查中,只有几个正常图像必须完成正常的分布建模。尽管现有方法通常采用多模式的基础模型,结合了语言和视觉方式来迅速引入异常检测,但这些方法通常需要复杂的及时及时工程和大量的手动调整。在本文中,我们证明了一个直接的邻居搜索框架可以超过单级和多级FSAD场景中的最先进性能 ...
0 0 0 2025/04/20 arXiv:2504.11895v1 ggggggsm
计算机视觉的最新进展突出了各种任务中视觉 Transformer (VIT)的可扩展性,但是在平衡适应性,计算效率和建模高阶关系的能力方面仍然存在挑战。视觉图神经网络(VIGS)通过利用基于图的方法来提供替代方案,但受到用于边缘生成的聚类算法的计算瓶颈的阻碍。为了解决这些问题,我们提出了HyperGraph Vision Transformer(HGVT),该 Transformer (HGVT) ...
0 0 0 2025/04/20 arXiv:2504.08710v1 llm
图像质量评估(IQA)着重于图像的感知视觉质量,在下游任务中起着至关重要的作用,例如图像重建,压缩和发电。多模式大语言模型(MLLM)的快速发展已显着扩大了IQA的范围,朝着全面的图像质量理解迈进,结合了内容分析,退化感知以及超出数值得分以外的比较推理。以前的基于MLLM的方法通常要么生成缺乏可解释性的数值分数,要么使用大规模注释的数据集在严重依靠监督的微调(SFT)来提供描述性评估,从而限制了其 ...
0 0 0 2025/04/20 arXiv:2503.22679v1 Dwfire
我们提出了通用目标音频分离(UNISEP),以解决不同类型音频的任意混合物的分离任务。与以前的研究区别开来,Unisep是在无限的源域和无限源源编号上进行的。我们将分离任务作为序列到序列问题提出,并使用大型语言模型(LLM)在离散潜在空间中对音频序列进行建模,从而利用LLM在使用大规模数据的复杂混合物中的功率来建模 ...
0 0 0 2025/04/20 arXiv:2503.23762v1 melo_0925

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)