LLM 已在许多实际应用中得到广泛采用。然而,由于其高计算强度和资源需求,它们的广泛使用带来了巨大的环境成本。具体来说,这推动了新一代高性能GPU的发展,加剧了电子垃圾问题并加速了设备的过早处置 ...
LLM 的最新进展带来了对高效系统支持的强烈需求,以提高整体服务效率。随着 LLM 推理扩展到多个 GPU 甚至多个计算节点,服务系统中出现了各种协调模式,例如预填充解码分解和上下文迁移。如今,大多数推理服务都公开具有预配置协调策略的粗粒度请求级 API,从而限制了自定义和动态重新配置协调的能力 ...
现有基于 Transformer 的模型的一个限制是它们无法处理很长的序列作为输入,因为它们的自注意力操作表现出二次时间和空间复杂度。当 Transformer 部署在仅配备 CPU 的硬件平台上时,这个问题变得尤其严重。为了解决这个问题,我们提出了一种在推理时加速自注意力的新方法,该方法可以与预训练的 Transformer 模型一起使用,无需重新训练 ...
低秩自适应 (LoRA) 是一种利用权重矩阵低秩自适应的参数高效微调方法,已成为微调预训练模型(例如大型语言模型和扩散模型)的流行技术。尽管 LoRA 在实践中取得了巨大成功,但其理论基础在很大程度上仍未得到探索。本文通过理论上分析 LoRA 的表达能力,迈出了弥合这一差距的第一步 ...
大型语言模型 (LLM) 通过即时工程展示新兴的情境学习能力。大规模生成模型的最新进展进一步扩大了它们在现实世界语言应用中的用途。然而,提高 LLM 在自然语言理解和问题回答方面的普遍性和真实性的关键挑战仍未得到充分探索 ...
我们建议微调大型语言模型以生成稳定的材料。虽然非正统,但在文本编码的原子数据上微调大型语言模型实现起来很简单而且可靠,大约 90% 的采样结构遵守原子位置和电荷的物理约束。使用来自学习的 ML 势和黄金标准 DFT 计算的船体能量计算,我们表明我们最强大的模型(微调的 LLaMA-2 70B)可以以大约两倍的速度生成预计亚稳态的材料(49% vs 28%) )CDVAE,一种竞争扩散模型 ...
低分辨率人脸识别(LRFR)在过去几年中受到越来越多的关注。它的应用广泛存在于难以捕捉高分辨率或高质量图像的现实环境中。 LRFR 技术的最大需求之一是视频监控 ...
多模态大语言模型(MLLM)已经取得了令人印象深刻的性能,并已在商业应用中投入实际使用,但它们仍然存在潜在的安全机制漏洞。越狱攻击是红队方法,旨在绕过安全机制并发现 MLLM 的潜在风险。现有MLLM的越狱方法往往通过复杂的优化方法或精心设计的图像和文字提示来绕过模型的安全机制 ...