大型语言模型为各种NLP任务开辟了一个可能性的世界,对未来产生了乐观。尽管有潜力,但LLM尚未被广泛用作实际移动设备的代理。主要的挑战是需要高质量的数据源 ...
近年来,在深入的强化学习中提出了各种强大的政策梯度算法。尽管所有这些算法都建立在策略梯度定理的基础上,但特定的设计选择在各算法中都有很大差异。我们提供了对政策政策梯度算法的整体概述,以促进对其理论基础及其实际实施的理解 ...
在定量投资中,构建特征性的投资组合是资产分配的关键策略。传统方法将不同频率的原始库存数据转化为资产分类的预测特征因素,通常需要进行大量的手动设计和预测目标之间的错位。为了应对这些挑战,我们引入了直接排序的投资组合优化(DSPO),这是一种创新的端到端框架,可有效地处理原始库存数据以直接构建排序的投资组合 ...
我们提出了Skywork R1V2,这是一种下一代多模式推理模型,并从其前身Skywork R1V出发。 R1V2以其核心引入了混合增强学习范式,该学习范式共同利用混合优先优化(MPO)和小组相对政策优化(GRPO),该范围将奖励模式指导与基于规则的策略进行协调,从而解决了平衡与广泛的一般性总体化的长期挑战。为了进一步提高训练效率,我们引入了选择性样品缓冲液(SSB)机制,该机制有效地反驳了GRP ...
在许多实际应用中,获得足够的大规模标记数据来训练深层神经网络以达到其全部能力通常很困难和昂贵。因此,将学习的知识从单独的,标记的源域转移到未标记或稀疏标记的目标域成为一种吸引人的选择。但是,直接转移通常会导致由于域移动而导致巨大的性能衰减 ...
在大型语言模型的昂贵预训练的时代,确保模型所有者的知识产权以及负责任地部署该模型的确保,这变得越来越重要。为此,我们提出了通过通行层的模型水印,该层被添加到现有的预训练网络中,并使用自我监督的损失进行了培训,以便在使用独特的私钥提示时该模型会产生高渗透输出,并且通常会在其他情况下起作用。与现有的模型水印方法不同,我们的方法是完全任务不合时宜的,并且可以应用于分类和序列到序列任务,而无需高级访问下游 ...
生成模型在各种应用程序中取得了巨大的成功,推动了对多GPU计算的需求。 GPU间的通信成为多GPU计算系统的瓶颈,尤其是在消费级GPU上。通过利用并发的硬件执行,重叠的计算和通信延迟是减轻通信开销的有效技术 ...
无参考图像质量评估(NR-IQA)旨在预测与人类感知一致的图像质量评分,而无需依靠原始的参考图像,这是各种视觉任务中的重要组成部分。确保NR-IQA方法的鲁棒性对于可靠的不同图像处理技术的可靠比较和建议的用户体验至关重要。 NR-IQA的攻击方法为测试NR-IQA的鲁棒性提供了强大的工具 ...