大多数现有样式转移方法遵循以下假设:样式可以用全球统计信息(例如革兰氏阴矩阵或协方差矩阵)表示,从而通过强迫输出和样式图像具有相似的全球统计信息来解决问题 ...
0 0 0 2025/06/10 arXiv:2005.10777v2 pip-install
文本条件扩散模型,即文本到图像,产生醒目的图像,代表用户给出的描述 ...
0 0 0 2025/06/10 arXiv:2406.15213v2 zer
基于图形的抹布方法(例如GraphRag)通过构建层次结构实体图显示了对知识库的有希望的全局理解。但是,它们通常会遭受效率低下的困扰,并依靠手动预定义的查询模式,从而限制了实际使用。在本文中,我们提出了E^2graphrag,这是一个简化的基于图形的抹布框架,可提高效率和有效性 ...
0 0 0 2025/06/10 arXiv:2505.24226v4 liuweitang
音频感知的大语言模型(ALLMS)可以理解音频输入中的文本和非文本信息。在本文中,我们探索使用Allms作为自动法官来评估演讲风格。我们使用ALLM法官来评估SLM在两个任务上生成的演讲:语音样式指令以下和角色扮演 ...
0 0 0 2025/06/10 arXiv:2506.05984v1 ka
由于大型语言模型(LLM)在各个领域广泛应用,因此模型压缩对于降低成本和提高推论效率变得越来越重要。训练后修剪是一种有前途的方法,不需要资源密集型迭代培训,并且只需要少量的校准数据即可评估参数的重要性。先前的研究主要集中在设计先进的修剪方法上,而不同的校准数据对修剪性能的影响仍然缺乏系统的探索 ...
0 0 0 2025/06/10 arXiv:2410.17711v1 Daenerays
最近已经探索了各种音频llms(ALLMS),用于使用单个统一模型同时处理不同的音频任务。尽管对ALLM的现有评估主要集中在单审特任务上,但实际应用程序通常涉及同时处理多个音频流。为了弥合这一差距,我们提出了第一个多审计评估(MAE)基准,该基准包括来自涵盖语音和声音场景的11个多audio任务的20个数据集 ...
0 0 0 2025/06/10 arXiv:2409.18680v3 ka
预测深度是理解场景3D几何形状的重要组成部分。对于立体声图像,局部对应足以估算,但从单个图像中找到深度关系并不简单,需要从各种提示中整合全球和本地信息。此外,任务本质上是模棱两可的,总体规模的不确定性很大 ...
0 0 0 2025/06/10 arXiv:1406.2283v1 rcc
在这项工作中,我们将强化预训练(RPT)作为大型语言模型和强化学习(RL)的新缩放范式(RPT)。具体来说,我们将下一步预测重新构建为使用RL训练的推理任务,在该任务中,它可以在其中获得可验证的奖励,以正确预测给定上下文的下一 Token 。 RPT提供了一种可扩展的方法来利用大量文本数据作为通用RL,而不是依靠特定于域的注释答案 ...
0 0 0 2025/06/10 arXiv:2506.08007v1 myzeng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)