经过大规模语料库培训的预训练的语言模型表明,各种NLP任务都有很强的概括性。针对特定任务的这些模型进行微调通常涉及更新所有参数,这是资源密集的。参数有效的微调方法(PEFT)方法,例如流行的Lora家族,引入了低级矩阵,仅有效地学习了一些参数 ...
0 0 0 2025/09/25 arXiv:2406.10777v3 youkbok
我们提出了QWEN-IMAGE,这是QWEN系列中图像生成基础模型,在复杂的文本渲染和精确的图像编辑中取得了重大进展。为了应对复杂文本渲染的挑战,我们设计了一条全面的数据管道,其中包括大规模数据收集,过滤,注释,综合和平衡。此外,我们采用了一种渐进培训策略,该策略从非文本到文本渲染开始,从简单到复杂的文本输入演变,并逐渐扩展到段落级的描述 ...
0 0 0 2025/09/25 arXiv:2508.02324v1 suxuefeng
视听语音识别(AVSR)模型在性能方面超过了他们的音频。但是,AVSR系统的可解释性,尤其是视觉模态的作用,仍未得到探索。在本文中,我们采用了几种可解释性技术来研究如何在最先进的AVSR模型中对Visemes进行编码 ...
0 0 0 2025/09/25 arXiv:2509.16023v1 ka
主流自动语音识别(ASR)系统在转录词汇内容方面表现出色,但在很大程度上无法识别嵌入在语音中的非语言发声(NVS),例如叹息,笑声和咳嗽。这种能力对于对人类交流的全面理解很重要,因为NV传达了至关重要的情感和故意提示。缺乏高质量,宣布良好的数据集的阻碍,NV-Ware ASR的进展受到了阻碍 ...
0 0 0 2025/09/25 arXiv:2509.18196v1 13724122396
我们介绍了Sail-VL2,这是一种开放式视觉语言基础模型(LVM),用于全面的多模式理解和推理。作为Sail-VL的继任者,Sail-VL2在不同图像和视频基准的2B和8B参数尺度上实现了最先进的性能,这表明从细粒度的感知到复杂的推理,都表明了强大的能力。三项核心创新推动了其有效性 ...
0 0 0 2025/09/25 arXiv:2509.14033v2 bage
恶意URL检测仍然是网络安全方面的主要挑战,这主要是由于两个因素:(1)互联网的指数增长导致了URL的巨大多样性,从而使广义检测越来越困难; (2)攻击者越来越多地采用复杂的混淆技术来逃避检测。我们提倡从根本上解决这些挑战需要:(1)获得语义理解以改善跨多种URL集合的概括,以及(2)在URL的结构组成中准确地对上下文关系进行建模。在本文中,我们提出了一种新型的恶意URL检测方法,将多粒度图学习与 ...
0 0 0 2025/09/25 arXiv:2509.10287v1 ctf101
本文揭示了一个数据偏差问题,该问题在进行机器学习模型以进行恶意URL检测时会严重影响性能。我们描述了如何使用可解释的机器学习技术来确定这种偏见,并进一步认为,这种偏见自然存在于训练分类模型的现实世界安全数据中。然后,我们提出了一种依据的培训策略,可以应用于大多数基于学习的模型,以减轻偏见特征的负面影响 ...
0 0 0 2025/09/25 arXiv:2202.10027v2 ctf101
在本文中,我们提出了Segdino3D,这是一种用于3D实例分割的新型 Transformer 编码器框架。由于3D训练数据通常不够2D训练图像,因此Segdino3D旨在完全利用预训练的2D检测模型(包括图像级和对象级特征)的2D表示,以改善3D表示。 Segdino3D同时将点云及其关联的2D图像作为输入 ...
0 0 0 2025/09/25 arXiv:2509.16098v1 KingXHJ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)