本文研究了大语言模型(LLM)中的记忆机制,强调了它们对上下文响应的重要性,幻觉降低和提高效率。它将记忆分为感官,短期和长期,感官记忆对应于输入提示,短期内存处理即时上下文以及通过外部数据库或结构实现的长期内存。基于文本的内存部分涵盖了采集(选择和摘要),管理(更新,访问,存储和解决冲突)和利用率(全文搜索,SQL查询,语义搜索) ...
0 0 0 2025/04/24 arXiv:2504.02441v1 zychun
尽管情感文本到语音(TTS)领域取得了迅速的进步,但最近的研究主要集中于模仿特定情感的平均风格。结果,操纵语音情感的能力仍然限制在几个预定义的标签上,从而损害了反映情感细微差异的能力。在本文中,我们提出了Emosphere-TTS,它通过使用球形情感向量来控制合成语音的情感风格和强度来综合表达情感语音 ...
0 0 0 2025/04/24 arXiv:2406.07803v2 Du
人类可以毫不费力地在混乱的环境中找到所需的对象,并依靠一种称为视觉搜索的认知机制来有效地过滤无关的信息并专注于与任务相关的区域。受这个过程的启发,我们提出了Dyfo(动态焦点),这是一种无训练的动态焦点视觉搜索方法,可增强大型多模型模型(LMMS)中细粒的视觉理解。与需要其他模块或数据收集的现有方法不同,Dyfo使用Monte Carlo Tree搜索(MCTS)算法利用LMMS和视觉专家之间的双 ...
0 0 0 2025/04/24 arXiv:2504.14920v1 麦兜
大型语言模型(LLM)是一场新的技术革命,这是通向人工通用智能的最有希望的研究流之一。这些模型的缩放是通过增加参数数量和训练数据集的大小而实现的,已与以前未观察到的各种所谓的紧急能力有关。这些紧急的能力从先进的推理和中文学习到编码和解决问题的能力,引发了激烈的科学辩论:它们是真正的出现吗?什么基本机制导致了它们?尽管它们具有变革性的潜力,但紧急能力仍然很少理解,导致对它们的定义,性质,可预测性和含 ...
0 0 0 2025/04/24 arXiv:2503.05788v2 kkkk
我们评估了合并多个大语模型的OpenFoAmgpt的性能。当前的某些模型有效地管理不同的CFD任务,例如调整边界条件,湍流模型和求解器配置,尽管它们的 Token 成本和稳定性各不相同。本地部署的较小型号(例如QWQ-32B)努力为复杂过程生成有效的求解器文件 ...
0 0 0 2025/04/24 arXiv:2504.02888v1 GiveYouAFIst
在现实世界中,在雾兹下拍摄的图像的降解可能非常复杂,其中雾度的空间分布因图像而异。最近的方法采用深层神经网络,直接从朦胧的图像中恢复了清洁场景。 However, due to the paradox caused by the variation of real captured haze and the fixed degradation parameters of the current n ...
0 0 0 2025/04/24 arXiv:2111.09733v1 jiajia233
大多数飞行方法都有有限的接收领域,并且没有探索在视觉模型中封装的丰富语义先验,这些模型已被证明在下游任务中有效。在本文中,我们介绍了Cliphaze,这是一个开创性的混合框架,它通过先验知识和剪辑的零拍功能协同了Mamba的有效全球建模,以同时解决这两个问题。具体而言,我们的方法采用平行的状态空间模型和基于窗口的自我注意力,分别获得全球上下文依赖性和局部细粒度的感知 ...
0 0 0 2025/04/24 arXiv:2408.12317v2 jiajia233
大型语言模型(LLMS)取得了显着的进步,证明了各种自然语言处理任务中前所未有的功能。但是,与此类出色绩效相关的高成本限制了LLM的广泛采用,强调了迅速压缩的需求。现有的及时压缩方法主要依赖于启发式截断或抽象性摘要技术,从根本上讲,这些技术从根本上忽略了LLM的内在机制,并且缺乏对 Token 对生成重要性的系统评估 ...
0 0 0 2025/04/24 arXiv:2504.16574v1 liaoxin11

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)