本文介绍了小组序列策略优化(GSPO),这是我们用于培训大语言模型的稳定,高效且性能的增强学习算法。与以前采用 Token 重要性比率的算法不同,GSPO定义了基于序列可能性的重要性比率,并执行序列级别的剪辑,奖励和优化。我们证明,与GRPO算法相比,GSPO达到了卓越的训练效率和性能,特别是稳定了Experts(MOE)RL训练的混合物,并且具有简化RL基础架构设计的潜力 ...
随着各种定位技术的快速开发,例如全球位置系统(GPS),移动设备和遥感,如今时空数据已越来越多。从时空数据中挖掘有价值的知识对于许多现实世界应用至关重要,包括人类流动性了解,智能运输,城市规划,公共安全,医疗保健和环境管理。随着时空数据集的数量,数量和分辨率迅速增加,传统的数据挖掘方法,尤其是基于统计数据的处理此类数据的方法 ...
检索增强发电(RAG)已成为解决大语模型(LLMS)中幻觉问题的有前途解决方案。但是,多个检索来源的整合虽然可能更有信息,但引入了新的挑战,这些挑战可能会矛盾地加剧幻觉问题。这些挑战主要在两个方面表现出来:多源数据的稀疏分布阻碍了逻辑关系的捕获以及导致信息冲突的不同来源之间的固有不一致之处 ...
引入了扭曲的广义芦苇 - 固体(TGRS)代码,以扩展经典的广义芦苇 - 固体(GRS)代码的代数能力。该扩展名具有构建新的非GRS最大距离可分离(MDS)代码并增强加密安全性的潜力。众所周知,具有$ 1 $扭曲的TGRS代码可以是MDS或接近MD ...
本文提出了基于定制的3D目标的快速且用户友好的激光摄像机外部校准工具。快速卡利位通过利用对激光雷达扫描模式不可知的有效且可靠的边缘提取算法来支持机械和固态激光雷达。它还可以补偿由LIDAR斑点通过椭圆拟合扩散引起的边缘扩张伪像,并支持多个场景的关节优化 ...
可概括的3D高斯分裂(3DGS)可以以进料向前的推理方式从稀疏视图观察中重建新场景,从而消除了在常规3DGS中需要特定于场景的重新训练的需求。但是,现有方法在很大程度上依赖于邻二行先验,这在复杂的现实场景中可能是不可靠的,尤其是在非重叠和遮挡区域中。在本文中,我们提出了Efreesplat,这是一种有效的基于3DGS的基于可概括的新型视图合成模型,该模型独立于表极线约束 ...
大型语言模型的最新进展引起了对机器人任务计划潜力的兴趣。尽管这些模型表现出强大的生成能力,但它们在制定结构化和可执行计划中的有效性仍然不确定。本文介绍了对艺术语言模型当前状态的广泛评估,每种都使用计划域定义语言域和问题文件直接提示,并将其计划性能与各种基准的快速下降计划者进行比较 ...
自动评估基准(例如MT Bench,Arena-Hard和Auto-Arena)正在看到对大语言模型(LLMS)评估的采用越来越大。现有的研究主要集中于使用有限的数据和LLM-AS-A-Gudge近似基于人类的模型排名。但是,这些研究试图复制人类排名的基本前提是有缺陷的 ...
本文提出了一个多功能的语音合成系统,该系统将语音克隆和情感控制语音综合在统一框架内集成。这项工作的目的是应对实现高度表现力,可控制和自然的言语产生的长期挑战,从而忠实地保留了在各种语言和情感环境中的说话者身份。我们的方法介绍了一种有效的扬声器情感解开机制,具有内部对比度学习,从而独立地操纵说话者的身份和e emotional风格,以及用于平稳情绪控制的旋转情感嵌入整合方法 ...
复制人 - 敏捷性仍然是一个基本的机器人技术挑战,需要从机械设计到控制高度的综合解决方案 - - 弗洛德(DOF)机器人手。模仿学习表明将人类敏捷转移到机器人方面有希望,但训练有素的政策的功效依赖于人类示范数据的质量。我们用一只手(Arm Teleperation系统)弥合了这一缝隙:(1)驱动的拟人化机器人手的20型连杆,用于生物映射灵活性,(2)(2)基于优化的运动重新定位,用于实时,高效率,较高的效率,详细的人手动动作和无缝的手工辅助 ...