我们介绍了Dreamgen,这是一条简单而高效的四阶段管道,用于培训机器人策略,通过神经轨迹跨越行为和环境 - 由视频世界模型生成的合成机器人数据。 Dreamgen利用最先进的图像到视频生成模型,将其调整到目标机器人体现中,以在不同环境中生成熟悉或新颖任务的感性合成视频。由于这些模型仅生成视频,因此我们使用潜在的动作模型或逆动力学模型(IDM)恢复伪动作序列 ...
0 0 0 2025/05/22 arXiv:2505.12705v1 xiewende
使用静态代码分析识别多语言软件系统的依赖性调用图很具有挑战性。开发当今系统中使用的不同语言通常具有不同的词汇,句法和语义规则,这些规则使彻底的分析变得困难。此外,它们在组件之间和组件之间提供了不同的模块化和依赖机制 ...
0 0 0 2025/05/22 arXiv:1906.00815v1 UUU
培训大语言模型(LLM)作为交互式代理提出了独特的挑战,包括长马决策以及与随机环境反馈进行互动。尽管增强学习(RL)在静态任务方面取得了进展,但多转弯代理RL培训仍然没有得到充实。我们提出了Starpo(状态思维 - 奖励政策优化),一个轨迹级代理RL的一般框架,并引入了Ragen,Ragen是一种用于培训和评估LLM代理的模块化系统 ...
0 0 0 2025/05/22 arXiv:2504.20073v1 buaagxy
大型语言模型(LLMS)由于高计算成本而面临部署挑战,而训练后量化(PTQ)提供了一种解决方案,现有的基于旋转的方法在非常低的位宽度(如2位)上挣扎。我们介绍了一种新颖的无训练方法,以构建改进的旋转矩阵,以解决当前方法的局限性。关键贡献包括利用序列排序利用Walsh-Hadamard变换,与标准的Hadamard矩阵相比,该序列相似的频率组件以减少量化误差,从而显着提高了性能 ...
0 0 0 2025/05/22 arXiv:2505.03810v1 xiximayou
随着自主驾驶技术的持续成熟和应用,对开源自动驾驶数据集进行系统的检查在促进行业生态系统的强大发展方面发挥了重要作用。当前的自动驾驶数据集可以广泛地分为两代。第一代自主驾驶数据集的特征是相对简单的传感器模式,较小的数据量表,并且仅限于感知级的任务 ...
0 0 0 2025/05/22 arXiv:2312.03408v4 chenlei
偏好学习算法(例如RLHF和DPO)经常用于引导LLMS生产人类更喜欢的几代人,但是我们对它们内部工作的理解仍然受到限制 ...
0 0 0 2025/05/22 arXiv:2405.19534v4 13026155693
目前,基于学习的红外对象检测方法严重依赖分类骨干网络。随着网络深度的增加,这往往会导致微小的对象丢失,并具有区分性限制。此外,红外图像中的小物体经常出现明亮和黑暗,对获得精确的物体对比度信息提出了严重的要求 ...
0 0 0 2025/05/22 arXiv:2212.00968v1 xcp
现有的工业异常检测(IAD)方法可以预测异常检测和定位的异常分数。然而,他们很难执行多轮对话和异常区域的详细描述,例如... ...
0 1 0 2025/05/22 arXiv:2310.19070v3 lyg

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)