一译 —— 文档和论文翻译、对照阅读、讨论和社区

AndroidGen: Building an Android Language Agent under Data Scarcity

大型语言模型为各种NLP任务开辟了一个可能性的世界，对未来产生了乐观。尽管有潜力，但LLM尚未被广泛用作实际移动设备的代理。主要的挑战是需要高质量的数据源 ...

0 0 0 2025/04/29 arXiv:2504.19298v1 xjx0524

The Definitive Guide to Policy Gradients in Deep Reinforcement Learning: Theory, Algorithms and Implementations

近年来，在深入的强化学习中提出了各种强大的政策梯度算法。尽管所有这些算法都建立在策略梯度定理的基础上，但特定的设计选择在各算法中都有很大差异。我们提供了对政策政策梯度算法的整体概述，以促进对其理论基础及其实际实施的理解 ...

0 0 0 2025/04/29 arXiv:2401.13662v2 eatme

DSPO: An End-to-End Framework for Direct Sorted Portfolio Construction

在定量投资中，构建特征性的投资组合是资产分配的关键策略。传统方法将不同频率的原始库存数据转化为资产分类的预测特征因素，通常需要进行大量的手动设计和预测目标之间的错位。为了应对这些挑战，我们引入了直接排序的投资组合优化（DSPO），这是一种创新的端到端框架，可有效地处理原始库存数据以直接构建排序的投资组合 ...

0 0 1 2025/04/29 arXiv:2405.15833v1 nnstake

Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

我们提出了Skywork R1V2，这是一种下一代多模式推理模型，并从其前身Skywork R1V出发。 R1V2以其核心引入了混合增强学习范式，该学习范式共同利用混合优先优化（MPO）和小组相对政策优化（GRPO），该范围将奖励模式指导与基于规则的策略进行协调，从而解决了平衡与广泛的一般性总体化的长期挑战。为了进一步提高训练效率，我们引入了选择性样品缓冲液（SSB）机制，该机制有效地反驳了GRP ...

0 0 0 2025/04/29 arXiv:2504.16656v2 xueyoo

Multi-source Domain Adaptation in the Deep Learning Era: A Systematic Survey

在许多实际应用中，获得足够的大规模标记数据来训练深层神经网络以达到其全部能力通常很困难和昂贵。因此，将学习的知识从单独的，标记的源域转移到未标记或稀疏标记的目标域成为一种吸引人的选择。但是，直接转移通常会导致由于域移动而导致巨大的性能衰减 ...

0 0 0 2025/04/29 arXiv:2002.12169v1 15966829631

Task-Agnostic Language Model Watermarking via High Entropy Passthrough Layers

在大型语言模型的昂贵预训练的时代，确保模型所有者的知识产权以及负责任地部署该模型的确保，这变得越来越重要。为此，我们提出了通过通行层的模型水印，该层被添加到现有的预训练网络中，并使用自我监督的损失进行了培训，以便在使用独特的私钥提示时该模型会产生高渗透输出，并且通常会在其他情况下起作用。与现有的模型水印方法不同，我们的方法是完全任务不合时宜的，并且可以应用于分类和序列到序列任务，而无需高级访问下游 ...

0 0 0 2025/04/29 arXiv:2412.12563v1 nmmmml

FlashOverlap: A Lightweight Design for Efficiently Overlapping Communication and Computation

生成模型在各种应用程序中取得了巨大的成功，推动了对多GPU计算的需求。 GPU间的通信成为多GPU计算系统的瓶颈，尤其是在消费级GPU上。通过利用并发的硬件执行，重叠的计算和通信延迟是减轻通信开销的有效技术 ...

0 0 0 2025/04/29 arXiv:2504.19519v1 apc

Exploring Vulnerabilities of No-Reference Image Quality Assessment Models: A Query-Based Black-Box Method

无参考图像质量评估（NR-IQA）旨在预测与人类感知一致的图像质量评分，而无需依靠原始的参考图像，这是各种视觉任务中的重要组成部分。确保NR-IQA方法的鲁棒性对于可靠的不同图像处理技术的可靠比较和建议的用户体验至关重要。 NR-IQA的攻击方法为测试NR-IQA的鲁棒性提供了强大的工具 ...

0 0 0 2025/04/29 arXiv:2401.05217v3 zhaoyinmei

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您勇敢地改进翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）