本文讨论使用迭代线性二次调节器 (ILQR) 实现非线性模型预测控制器的离散化方法。有限差分近似主要用于从原始连续时间模型导出离散时间状态方程。然而,离散化的时间步长有时被限制得很小,以抑制近似误差 ...
大型训练集已成为机器学习的基础训练,也是语言建模和多态学习最新进展的基础。虽然预置的数据管理通常仍然是临时的,但一个常见的范例是首先从网络收集大量数据,然后通过各种启发式方法查找候选池过滤为实际的训练集。在这项工作中,我们研究了学习数据过滤网络(DFN)的问题,用于以过滤大型未整理数据集的第二步... ...
扩散模型(DM)最近被引入图像去模糊领域,并表现出良好的性能,特别是在细节重建方面。然而,扩散模型需要大量的推理迭代才能从纯高斯噪声中恢复干净的图像,这会消耗大量的计算资源。此外,扩散模型合成的分布通常与目标结果不一致,导致基于失真的指标受到限制 ...
LLM 生态系统的不断发展给如何在众多选择中选择最合适的预训练模型进行微调提出了挑战。由于资源有限,对所有模型进行微调并随后进行选择是不现实的。在这项工作中,我们将这种资源受限的选择任务表述为预测微调性能,并说明其与缩放定律的自然联系 ...
将预训练的大型模型微调到下游任务是一个重要的问题,然而,由于大规模参数,该模型会遭受巨大的内存开销。这项工作致力于从激活函数和层归一化的角度减少微调中的内存开销。为此,我们提出了近似反向传播(Approx-BP)理论,为前向和后向传播解耦提供了理论上的可行性 ...
CLIP 等视觉语言模型的出现激发了人们对其在下游监督学习任务中的应用的重大研究工作。尽管之前的一些研究已经探索了 CLIP 的无监督微调,但它们通常依赖于与真实标签相关的类名形式的先验知识。本文探讨了一种现实的无监督微调场景,考虑到未标记数据中未知类的分布外样本的存在 ...
随着基于 Transformer 的大型语言模型 (LLM) 的日益普及,降低其高推理成本已成为重要的研究重点。一种有效的方法是压缩长输入上下文。现有方法通常利用 LLM 本身的自注意力机制进行上下文压缩 ...
基于其卓越的理解和推理能力,大型语言模型(LLM)驱动的代理框架在众多复杂的推理任务中取得了巨大的成功。类似ReAct的代理可以通过渐进式规划和工具调用来逐步解决各种复杂的问题,并根据环境反馈迭代优化新步骤。然而,随着 LLM 规划能力的提高,类似 ReAct 的框架中的工具调用所调用的操作通常与复杂的规划和具有挑战性的数据组织不一致 ...