基于 Transformer 架构的大型语言模型(LLMS)由于其出色的可伸缩性和适应性而彻底改变了人工智能,科学和工程中的许多领域。但是,LLM大小和复杂性的指数增长超过了计算能力,内存带宽,网络性能和成本效率的进步,对它们在分布式系统上的可伸缩性提出了重大挑战。为了解决这些局限性,在文献中提出了替代模型体系结构,优化策略,通信感知网络拓扑和新颖的系统设计方法 ...
由于其优于其他离散扩散模型的卓越性能,掩模扩散模型(MDM)已成为离散数据生成建模的热门研究主题,并且在语言建模任务方面可与自回归模型(ARM)相媲美。最近在简化掩蔽扩散框架方面所做的努力进一步导致与连续空间扩散模型以及更有原则的训练和采样方法的结合。然而,在本文中,我们揭示了 MDM 的训练和采样理论上都不受时间变量(可以说是扩散模型的关键特征)的影响,而是相当于屏蔽模型 ...
生成的Inbeting旨在通过利用两个关键帧作为输入来生成中间帧序列。尽管在视频生成模型中取得了显着的进展,但由于两个关键帧之间的模棱两可的插值路径,生成的插入仍然面临着保持时间稳定性的挑战。当输入帧之间存在较大的运动距离时,此问题变得特别严重 ...
多步的思想链(COT)受益于推理步骤和特定于任务的逻辑结构,从而显着增强了大语言模型的数学推理能力。随着长床的盛行率,推理步骤的数量超过了可管理的 Token 限制,并导致更高的计算需求。受到人类认知基本逻辑的启发,“得出,减少”,我们将标准的多步小说核算为新颖的马尔可夫思想链(MCOT) ...
大型语言模型(LLM)使用经过思考链(COT)促使Excel在复杂的推理下促使Excel具有相当大的冗余,从而产生详细的思维过程,从而提高推理成本和降低效率。我们介绍了一个基于步骤熵的新型COT压缩框架,该指标量化了单个推理步骤以识别冗余的信息贡献。通过对数学推理基准的理论分析和广泛的经验验证,我们证明了低熵的步骤确实是高度冗余的 ...
尽管大语言模型(LLMS)取得了重大进步,但推理模型的主要缺点是它们的巨大 Token 用法,从而增加了计算成本,资源需求和响应时间。在这项工作中,我们重新审视了增强学习的核心原则(RL),并通过数学分析表明,产生冗长响应的趋势本质上是源于训练过程中基于RL的优化。这一发现质疑了较长响应固有地提高推理准确性的普遍假设 ...
图像到视频(I2V)的生成是在静态图像上进行的,该静态图像最近通过运动强度作为附加控制信号增强了该图像。这些运动吸引的模型吸引了产生各种运动模式,但是在野外设置的大规模视频上训练此类模型的可靠运动估计器缺乏可靠的运动估算器。传统指标,e ...
随着计算能力的快速增长和深度学习的最新进展,我们目睹了在研究环境中新型机器人能力的令人印象深刻的演示。尽管如此,这些学习系统表现出脆弱的概括,需要过多的培训数据才能完成实际任务。为了利用最先进的机器人学习模型的能力,同时拥抱了他们的缺陷,我们提出了Sirius,这是人类和机器人通过工作部门合作的原则性框架 ...