基于文本的游戏为基于语言的自主代理提供了宝贵的环境。但是,计划学习范例,例如结合蒙特卡洛树搜索(MCT)和增强学习(RL)的范例,由于广泛的迭代,尤其是耗时的。此外,这些算法执行不确定性驱动的探索,但缺乏语言理解和推理能力 ...
模型压缩已成为一种主流解决方案,以减少存储器使用和计算开销。本文介绍了针对LLMS量身定制的新型压缩技术组量化和稀疏加速度(GQSA)。传统方法通常专注于量化或稀疏,但是依靠单一策略通常会在高压率下导致大量的性能损失 ...
位级稀疏方法跳过无效的零位操作,通常适用于比特系列深度学习加速器。比特级处的这种稀疏性特别有趣,因为它既是正交的,又与其他深神网络(DNN)效率方法(例如量化和修剪)兼容。在这项工作中,我们通过一种新型的算法比较刺激,平均和压缩方法以及共同设计的有效的有效的位式硬件加速器来提高叮咬稀疏性的实用性和效率 ...
在图像生成领域中,低级适应(Loras)已成为一种强大而流行的技术,提供了一种非常有效的方法来适应和完善预先训练的深度学习模型,不需要全面的重新训练。通过采用预训练的洛拉模型,例如代表特定猫和特定狗的模型,目的是生成忠实体现洛拉斯定义的两种动物的图像。但是,无缝融合多个概念洛拉斯以在一个图像中捕获各种概念的任务被证明是一个重大挑战 ...
本文研究了大语言模型(LLM)中的记忆机制,强调了它们对上下文响应的重要性,幻觉降低和提高效率。它将记忆分为感官,短期和长期,感官记忆对应于输入提示,短期内存处理即时上下文以及通过外部数据库或结构实现的长期内存。基于文本的内存部分涵盖了采集(选择和摘要),管理(更新,访问,存储和解决冲突)和利用率(全文搜索,SQL查询,语义搜索) ...
尽管情感文本到语音(TTS)领域取得了迅速的进步,但最近的研究主要集中于模仿特定情感的平均风格。结果,操纵语音情感的能力仍然限制在几个预定义的标签上,从而损害了反映情感细微差异的能力。在本文中,我们提出了Emosphere-TTS,它通过使用球形情感向量来控制合成语音的情感风格和强度来综合表达情感语音 ...
人类可以毫不费力地在混乱的环境中找到所需的对象,并依靠一种称为视觉搜索的认知机制来有效地过滤无关的信息并专注于与任务相关的区域。受这个过程的启发,我们提出了Dyfo(动态焦点),这是一种无训练的动态焦点视觉搜索方法,可增强大型多模型模型(LMMS)中细粒的视觉理解。与需要其他模块或数据收集的现有方法不同,Dyfo使用Monte Carlo Tree搜索(MCTS)算法利用LMMS和视觉专家之间的双 ...
大型语言模型(LLM)是一场新的技术革命,这是通向人工通用智能的最有希望的研究流之一。这些模型的缩放是通过增加参数数量和训练数据集的大小而实现的,已与以前未观察到的各种所谓的紧急能力有关。这些紧急的能力从先进的推理和中文学习到编码和解决问题的能力,引发了激烈的科学辩论:它们是真正的出现吗?什么基本机制导致了它们?尽管它们具有变革性的潜力,但紧急能力仍然很少理解,导致对它们的定义,性质,可预测性和含 ...