大多数现有样式转移方法遵循以下假设:样式可以用全球统计信息(例如革兰氏阴矩阵或协方差矩阵)表示,从而通过强迫输出和样式图像具有相似的全球统计信息来解决问题 ...
文本条件扩散模型,即文本到图像,产生醒目的图像,代表用户给出的描述 ...
基于图形的抹布方法(例如GraphRag)通过构建层次结构实体图显示了对知识库的有希望的全局理解。但是,它们通常会遭受效率低下的困扰,并依靠手动预定义的查询模式,从而限制了实际使用。在本文中,我们提出了E^2graphrag,这是一个简化的基于图形的抹布框架,可提高效率和有效性 ...
音频感知的大语言模型(ALLMS)可以理解音频输入中的文本和非文本信息。在本文中,我们探索使用Allms作为自动法官来评估演讲风格。我们使用ALLM法官来评估SLM在两个任务上生成的演讲:语音样式指令以下和角色扮演 ...
由于大型语言模型(LLM)在各个领域广泛应用,因此模型压缩对于降低成本和提高推论效率变得越来越重要。训练后修剪是一种有前途的方法,不需要资源密集型迭代培训,并且只需要少量的校准数据即可评估参数的重要性。先前的研究主要集中在设计先进的修剪方法上,而不同的校准数据对修剪性能的影响仍然缺乏系统的探索 ...
最近已经探索了各种音频llms(ALLMS),用于使用单个统一模型同时处理不同的音频任务。尽管对ALLM的现有评估主要集中在单审特任务上,但实际应用程序通常涉及同时处理多个音频流。为了弥合这一差距,我们提出了第一个多审计评估(MAE)基准,该基准包括来自涵盖语音和声音场景的11个多audio任务的20个数据集 ...
预测深度是理解场景3D几何形状的重要组成部分。对于立体声图像,局部对应足以估算,但从单个图像中找到深度关系并不简单,需要从各种提示中整合全球和本地信息。此外,任务本质上是模棱两可的,总体规模的不确定性很大 ...
在这项工作中,我们将强化预训练(RPT)作为大型语言模型和强化学习(RL)的新缩放范式(RPT)。具体来说,我们将下一步预测重新构建为使用RL训练的推理任务,在该任务中,它可以在其中获得可验证的奖励,以正确预测给定上下文的下一 Token 。 RPT提供了一种可扩展的方法来利用大量文本数据作为通用RL,而不是依靠特定于域的注释答案 ...