检索增强的生成(RAG)系统已在诸如问答和多转化对话等应用中显示出很大的好处。但是,传统的抹布方法在利用静态知识基础的同时,经常忽略正在进行的对话中动态历史信息的潜力。为了弥合这一差距,我们介绍了DH-RAG,这是一种动态的历史上下文驱动的检索型生成方法,用于多转向对话 ...
投机解码(SD)通过使用较小的草稿模型来预测多个 Token ,从而加速了大语言模型,然后通过较大的目标模型并行验证。但是,草案模型的有限容量通常需要基于树的采样来提高预测准确性,在每个步骤中都会生成多个候选者。我们确定了这种方法的关键限制:同一步骤的候选人源自相同的表示,限制了多样性并降低了整体效率 ...
生成模型是建模现实世界的强大工具,具有主流扩散模型,尤其是基于潜在扩散模型范式的模型,从而在各种任务(例如图像和视频综合)中取得了显着的进步。潜在扩散模型通常是使用变异自动编码器(VAE)训练的,与VAE潜伏而不是真实样本进行了交互。尽管这种生成范式加快了训练和推理,但生成的输出的质量受到潜在的质量的限制 ...
基于大语言模型(LLM)的智能代理系统在现实世界应用中显示出巨大的潜力。但是,现有的代理框架仍然面临任务计划和执行的关键限制,从而限制了其有效性和可推广性。具体而言,当前的计划方法通常缺乏明确的全球目标,导致代理人陷入本地分支机构或制定不可执行的计划 ...
基于学习的图像去雪人算法在合成域上表现出了显着的成功。但是,由于计算资源的限制和现实世界场景的多样性,真实的图像除尘仍处于悬念状态。因此,迫切需要一种算法,在效率和适应性方面都有能力有效地解决真实图像 ...
基于文本的游戏为基于语言的自主代理提供了宝贵的环境。但是,计划学习范例,例如结合蒙特卡洛树搜索(MCT)和增强学习(RL)的范例,由于广泛的迭代,尤其是耗时的。此外,这些算法执行不确定性驱动的探索,但缺乏语言理解和推理能力 ...
模型压缩已成为一种主流解决方案,以减少存储器使用和计算开销。本文介绍了针对LLMS量身定制的新型压缩技术组量化和稀疏加速度(GQSA)。传统方法通常专注于量化或稀疏,但是依靠单一策略通常会在高压率下导致大量的性能损失 ...
位级稀疏方法跳过无效的零位操作,通常适用于比特系列深度学习加速器。比特级处的这种稀疏性特别有趣,因为它既是正交的,又与其他深神网络(DNN)效率方法(例如量化和修剪)兼容。在这项工作中,我们通过一种新型的算法比较刺激,平均和压缩方法以及共同设计的有效的有效的位式硬件加速器来提高叮咬稀疏性的实用性和效率 ...