学习一种无模型增强学习(RL)代理的世界模型可以通过学习想象中的学习政策来显着提高样本效率。但是,由于大量代理的集中式架构中的可伸缩性问题以及由代理商之间的分散式体系结构中的非平稳性问题,建立多代理RL(MARL)的世界模型可能特别具有挑战性。为了应对这两个挑战,我们为MARL提出了一种新颖的世界模型,该模型学习了分散的局部动力以进行可扩展性,并结合了所有代理的集中表示聚合 ...
0 0 0 2025/05/13 arXiv:2406.15836v1 hx5563
在多项式强化学习(MARL)中,分散执行(CTDE)框架的集中培训是关键的,但由于缺口而陷入困境:培训的全球国家指导与依赖在执行中的本地观察结果(缺乏全球信号)。受到人类社会共识机制的启发,我们介绍了基于等级共识的多代理增强学习(HC-MARL)框架以解决此限制。 HC-MARL采用对比学习来促进代理商之间的全球共识,从而实现合作行为而无需直接交流 ...
0 0 0 2025/05/13 arXiv:2407.08164v2 hx5563
截至2024年12月,Arc-Agi基准为五年,并且保持不败。我们认为,目前,它是世界上最重要的未解决的AI基准,因为它试图衡量对新任务的概括 - 智力的本质 - 而不是可以预先准备的任务的技能。今年,我们推出了ARC奖,这是一项全球竞赛,旨在激发新的想法,并通过达到85%的目标基准得分来推动AGI的公开进步 ...
0 0 0 2025/05/13 arXiv:2412.04604v2 lishiqi01
基于 Transformer 的方法在图像恢复中引起了极大的关注,在图像恢复中,核心组成部分(即多头关注(MHA))在捕获多样的特征和恢复高质量的结果中起着至关重要的作用。在MHA中,Heads独立于统一的拆分子空间执行注意力计算,并且触发了冗余问题,以阻止该模型实现令人满意的输出 ...
0 0 0 2025/05/13 arXiv:2503.20174v1 Jakatara
在单个多模式框架内统一视觉理解和产生仍然是一个重大挑战,因为这两个固有的异质任务需要在不同级别的粒度上表示。利用矢量量化(VQ)或变化自动编码器(VAE)的当前方法用于统一的视觉表示优先级以于语义上的固有图像特征优先,从而损害了理解性能。在这项工作中,我们从蒙面图像建模(MIM)中汲取灵感,通过掩护和重新构建的预训练,并成功扩展到掩盖自动回归(MAR)图像生成 ...
0 0 0 2025/05/13 arXiv:2503.21979v2 Jakatara
功耗已成为边缘设备神经网络加速器的主要关注点。基于新型的非挥发性内存(NVM)计算机中的计算(CIM)结构显示出较大能源效率的巨大潜力。但是,最近的大多数NVM-CIM解决方案主要集中在定点计算上,不适用于浮点(FP)处理 ...
0 0 0 2025/05/13 arXiv:2402.13798v1 jane88
监督的微调(SFT)通常用于训练语言模型,以模仿给定指令的带注释的响应。在本文中,我们挑战了这个范式,并提出了批评微调(CFT),该策略学会学会批评噪音响应,而不是简单地模仿正确的响应。受到强调批判性思维的人类学习过程的启发,CFT鼓励了更深入的分析和经常被标准SFT忽略的细微理解特征 ...
0 0 0 2025/05/13 arXiv:2501.17703v4 盛大的2
在本文中,研究了球形波前效应和空间非平稳(SNS)属性的考虑,研究了极度大规模多输入多输出(XL-MIMO)系统的通道估计问题。由于不同传播路径之间SNS特性的多样性,多个路径的并发通道估计变得棘手。为了应对这一挑战,我们提出了一个两相通道估计方案 ...
0 0 0 2025/05/13 arXiv:2403.02633v5 ZYJ

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)