一译 —— 文档和论文翻译、对照阅读、讨论和社区

RoseLoRA: Row and Column-wise Sparse Low-rank Adaptation of Pre-trained Language Model for Knowledge Editing and Fine-tuning

经过大规模语料库培训的预训练的语言模型表明，各种NLP任务都有很强的概括性。针对特定任务的这些模型进行微调通常涉及更新所有参数，这是资源密集的。参数有效的微调方法（PEFT）方法，例如流行的Lora家族，引入了低级矩阵，仅有效地学习了一些参数 ...

0 0 0 2025/09/25 arXiv:2406.10777v3 youkbok

Qwen-Image Technical Report

我们提出了QWEN-IMAGE，这是QWEN系列中图像生成基础模型，在复杂的文本渲染和精确的图像编辑中取得了重大进展。为了应对复杂文本渲染的挑战，我们设计了一条全面的数据管道，其中包括大规模数据收集，过滤，注释，综合和平衡。此外，我们采用了一种渐进培训策略，该策略从非文本到文本渲染开始，从简单到复杂的文本输入演变，并逐渐扩展到段落级的描述 ...

0 0 0 2025/09/25 arXiv:2508.02324v1 suxuefeng

Interpreting the Role of Visemes in Audio-Visual Speech Recognition

视听语音识别（AVSR）模型在性能方面超过了他们的音频。但是，AVSR系统的可解释性，尤其是视觉模态的作用，仍未得到探索。在本文中，我们采用了几种可解释性技术来研究如何在最先进的AVSR模型中对Visemes进行编码 ...

0 0 0 2025/09/25 arXiv:2509.16023v1 ka

MNV-17: A High-Quality Performative Mandarin Dataset for Nonverbal Vocalization Recognition in Speech

主流自动语音识别（ASR）系统在转录词汇内容方面表现出色，但在很大程度上无法识别嵌入在语音中的非语言发声（NVS），例如叹息，笑声和咳嗽。这种能力对于对人类交流的全面理解很重要，因为NV传达了至关重要的情感和故意提示。缺乏高质量，宣布良好的数据集的阻碍，NV-Ware ASR的进展受到了阻碍 ...

0 0 0 2025/09/25 arXiv:2509.18196v1 13724122396

SAIL-VL2 Technical Report

我们介绍了Sail-VL2，这是一种开放式视觉语言基础模型（LVM），用于全面的多模式理解和推理。作为Sail-VL的继任者，Sail-VL2在不同图像和视频基准的2B和8B参数尺度上实现了最先进的性能，这表明从细粒度的感知到复杂的推理，都表明了强大的能力。三项核心创新推动了其有效性 ...

0 0 0 2025/09/25 arXiv:2509.14033v2 bage

URL2Graph++: Unified Semantic-Structural-Character Learning for Malicious URL Detection

恶意URL检测仍然是网络安全方面的主要挑战，这主要是由于两个因素：（1）互联网的指数增长导致了URL的巨大多样性，从而使广义检测越来越困难； （2）攻击者越来越多地采用复杂的混淆技术来逃避检测。我们提倡从根本上解决这些挑战需要：（1）获得语义理解以改善跨多种URL集合的概括，以及（2）在URL的结构组成中准确地对上下文关系进行建模。在本文中，我们提出了一种新型的恶意URL检测方法，将多粒度图学习与 ...

0 0 0 2025/09/25 arXiv:2509.10287v1 ctf101

Toward More Generalized Malicious URL Detection Models

本文揭示了一个数据偏差问题，该问题在进行机器学习模型以进行恶意URL检测时会严重影响性能。我们描述了如何使用可解释的机器学习技术来确定这种偏见，并进一步认为，这种偏见自然存在于训练分类模型的现实世界安全数据中。然后，我们提出了一种依据的培训策略，可以应用于大多数基于学习的模型，以减轻偏见特征的负面影响 ...

0 0 0 2025/09/25 arXiv:2202.10027v2 ctf101

SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features

在本文中，我们提出了Segdino3D，这是一种用于3D实例分割的新型 Transformer 编码器框架。由于3D训练数据通常不够2D训练图像，因此Segdino3D旨在完全利用预训练的2D检测模型（包括图像级和对象级特征）的2D表示，以改善3D表示。 Segdino3D同时将点云及其关联的2D图像作为输入 ...

0 0 0 2025/09/25 arXiv:2509.16098v1 KingXHJ

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）