一译 —— 文档和论文翻译、对照阅读、讨论和社区

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

推断缩放率具有前所未有的推理能力，并以强化学习为引发复杂推理的核心技术。但是，隐藏了最先进的推理LLM的关键技术细节（例如在OpenAI O1博客和DeepSeek R1技术报告中），因此社区仍然很难重现其RL培训结果。我们建议$ \ textbf {d} $ ecoupled剪辑和$ \ textbf {d} $ ynamic s $ \ textbf {a} $ mpling $ \ text ...

0 1 0 2025/03/19 arXiv:2503.14476v1 jesson

Universal Speech Token Learning via Low-Bitrate Neural Codec and Pretrained Representations

当前的大型语音语言模型主要是基于语义 Token ，该语义 Token 是根据语义模块和声学合成范式的自我监督的学术表示和声音 Token 的离散化。但是，语义 Token 丢弃了对天然口语交流很重要的扬声器的副语言属性，而基于迅速的语义 Token 的声学综合在恢复副语言细节和牢固性问题方面受到限制，尤其是在提示与目标之间存在域间隙时。本文统一了两种类型的 Token ，并提出了Unicodec ...

0 0 0 2025/03/19 arXiv:2503.12115v1 wenzhanwujian

MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark

理解音频（包括语音，非语音声音和音乐）的能力对于AI代理人与世界有效互动至关重要。我们提出了MMAU，这是一种新颖的基准测试，旨在评估需要专家级知识和复杂推理的任务的多模式音频理解模型。 MMAU包括10K精心策划的音频剪辑，以及涵盖语音，环境声音和音乐的人类宣传的自然语言问题和答案 ...

0 0 0 2025/03/19 arXiv:2410.19168v1 z520520115

Unveiling Backdoor Risks Brought by Foundation Models in Heterogeneous Federated Learning

基础模型（FMS）已用于生成合成公共数据集，以解决每个客户使用唯一的模型体系结构的异质联合学习（HFL）问题。但是，在HFL上下文中并未对整合FMS的漏洞，尤其是针对后门攻击的漏洞。在本文中，我们引入了一种新型的HFL后门攻击机制，该机制规避了对客户妥协或持续参与FL过程的需求 ...

0 0 0 2025/03/19 arXiv:2311.18350v1 chenzhuo-wang

DenseBox: Unifying Landmark Localization with End to End Object Detection

单个完全卷积神经网络（FCN）如何在对象检测中执行？我们介绍了densebox，这是一个统一的端到端FCN框架，可以通过图像的所有位置和尺度直接预测边界框和对象类的信心。我们的贡献是两个方面。首先，我们表明，如果仔细设计和优化，单个FCN可以非常准确，有效地检测到多个不同的对象 ...

0 0 0 2025/03/19 arXiv:1509.04874v3 lcaiwen

RepPoints: Point Set Representation for Object Detection

现代对象探测器在很大程度上依赖于矩形边界框，例如锚，建议和最终预测，以在各种识别阶段表示对象。边界框很方便，但仅提供对象的粗糙定位，并导致对象特征的粗略提取。在本文中，我们介绍\ textbf {reppoints}（代表点），这是对象的新表示，作为一组示例点，可用于本地化和识别 ...

0 0 0 2025/03/19 arXiv:1904.11490v2 lcaiwen

Privacy in Fine-tuning Large Language Models: Attacks, Defenses, and Future Directions

微调已成为利用大型语言模型（LLM）进行特定下游任务的关键过程，使这些模型能够在各个领域实现最新的性能。但是，微调过程通常涉及敏感数据集，引入了利用此阶段独特特征的隐私风险。在本文中，我们对与微调LLM相关的隐私挑战进行了全面的调查，强调了各种隐私攻击的脆弱性，包括会员推理，数据提取和后门攻击 ...

0 0 0 2025/03/19 arXiv:2412.16504v1 chenzhuo-wang

OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge

视觉问题回答（VQA）的理想形式使我们能够在视觉和语言的联合空间中研究推理，并可以作为场景理解的AI任务的代理。但是，迄今为止，大多数VQA基准都集中在简单计数，视觉属性和对象检测等问题上，这些问题不需要图像中的内容以外的推理或知识。在本文中，我们解决了基于知识的视觉问题回答的任务，并提供了一个名为OK-VQA的基准，其中图像内容不足以回答问题，鼓励依赖外部知识资源的方法 ...

0 0 0 2025/03/19 arXiv:1906.00067v2 zl1994

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）