大型语言模型 (LLM) 是巨大的人工神经网络,主要用于生成文本,但也提供非常复杂的语言使用概率模型。由于生成语义一致的文本需要一种有效的记忆形式,因此我们研究了 LLM 的记忆特性,并发现与人类记忆的关键特征惊人的相似之处。我们认为,大语言模型的类人记忆特性并不是从 LLM 架构中自动遵循的,而是从训练文本数据的统计中学习的 ...
0 0 0 2024/06/17 arXiv:2311.03839v3 mmShen
价值迭代网络 (VIN) 是一种端到端可微架构,可在潜在 MDP 上执行价值迭代,以便在强化学习 (RL) 中进行规划。然而,VIN 很难扩展到长期和大规模的规划任务,例如在 100 美元×100 美元的迷宫中导航——这项任务通常需要数千个规划步骤才能解决。我们观察到这种缺陷是由于两个问题造成的:潜在 MDP 的表示能力和规划模块的深度 ...
0 0 0 2024/06/17 arXiv:2406.08404v1 JayGee666
扩散模型是一种很有前景的图像生成方法,已被用于姿势引导人体图像合成(PGPIS),具有具有竞争力的性能。虽然现有方法只是将人的外观与目标姿势对齐,但由于缺乏对源人图像的高级语义理解,它们很容易过度拟合。在本文中,我们提出了一种新颖的 PGPIS 粗到细潜在扩散(CFLD)方法 ...
0 0 0 2024/06/17 arXiv:2402.18078v2 yangmasheng
对于视图数量有限(通常以自我为中心)的机器人应用,参数表示(例如神经辐射场 (NeRF))比非参数表示(例如高斯泼溅 (GS))更好地概括为与这些视图非常不同的视图在训练数据中;然而 GS 的渲染速度比 NeRF 快得多。我们开发了一个在两者之间来回转换的程序。我们的方法实现了 NeRF(不同视图上的卓越 PSNR、SSIM 和 LPIPS,以及紧凑的表示)和 GS(实时渲染和轻松修改表示的能力) ...
0 0 0 2024/06/17 arXiv:2405.09717v2 parsifalster
本文提出了 Block Transformer 架构,该架构对自回归 Transformer 采用分层全局到局部建模,以减轻自注意力的推理瓶颈。为了应用自注意力,必须在每个解码步骤从内存中检索所有先前序列的键值(KV)缓存。因此,这个 KV 缓存 IO 成为批量推理中的一个重要瓶颈 ...
0 0 0 2024/06/17 arXiv:2406.02657v1 xx
可控文本到图像(T2I)扩散模型在通过结合各种条件生成高质量视觉内容方面表现出了令人印象深刻的性能。然而,当前的方法在以骨架人体姿势为指导时表现出有限的性能,特别是在复杂的姿势条件下,例如人物的侧面或后部视角。为了解决这个问题,我们提出了 Stable-Pose,这是一种新颖的适配器模型,它将从粗到细的注意力屏蔽策略引入视觉 Transformer (ViT) 中,以获得 T2I 模型的准确姿势指 ...
0 0 0 2024/06/17 arXiv:2406.02485v1 yangmasheng
近年来,人类图像生成取得了重大进展,特别是扩散模型的进步。然而,现有的扩散方法在生成一致的手部解剖结构时遇到挑战,并且生成的图像通常缺乏对手部姿势的精确控制。为了解决这个限制,我们引入了一种新的姿势条件人体图像生成方法,将过程分为两个阶段:手部生成和随后围绕手部进行身体绘制 ...
0 0 0 2024/06/17 arXiv:2403.10731v2 yangmasheng
最近,深度学习在变化检测(CD)中的应用在遥感图像中取得了显着进展。近年来,CD任务大多使用CNN和Transformer等架构来识别这些变化。然而,这些架构在表示边界细节方面存在缺陷,并且在复杂的光照和天气条件下容易出现误报和漏检 ...
0 0 0 2024/06/17 arXiv:2401.09325v1 yangmasheng

来一起翻译吧!


为了您和其他读者获得更好的阅读体验,请您勇敢地改进翻译,特别是一些显而易见的机器翻译错误。


虽然我们追求卓越,但我们并不要求翻译十全十美,因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译,您不必担心会因为您的失误导致无法挽回的破坏。(改编自维基百科)