文本到图像的一代最近目睹了非凡的成就。我们介绍了一种称为拉斐尔(Raphael)的文本条件图像扩散模型,以生成高度艺术的图像,该图像准确地描绘了文本提示,涵盖了多个名词,形容词和动词。这是通过堆叠数十种Experts(Moes)层的混合物来实现的 ...
随着前沿LLM的规模不断增加,训练后量化已成为记忆有效部署的标准。最近的工作表明,基于基本的基于舍入的量化方案构成了安全风险,因为它们可以被利用将恶意行为注入量化的模型中,这些模型仍然完全隐藏了。但是,现有的攻击不能应用于更复杂的量化方法,例如流行的Ollama和Llama $中使用的GGGUF家族 ...
从计划到客户服务,可以解决复杂的日常任务的AI代理的最新进展已使在现实世界中的部署,但它们的不安全行为的可能性需要严格的评估。尽管先前的基准测试试图评估代理安全性,但大多数基准都依靠模拟环境,狭窄的任务域或不切实际的工具抽象而失败。我们介绍了OpenAgentsAfety,这是一个全面的模块化框架,用于评估八个关键风险类别的代理行为 ...
优化大型语言模型(LLMS)的长篇小说推理的主要挑战之一在于键值(KV)缓存的高内存消耗。现有的方法(例如量化)已经证明了减少记忆使用情况的有希望的结果。但是,当前的量化方法不能同时考虑有效性和效率 ...
大型的多模式混合物(MOE)有效地扩展了模型大小,以增强性能,同时保持固定的活动参数。但是,以前的作品主要在稀疏的上循环期间利用完整精确的专家。尽管他们在最终任务上表现出卓越的性能,但大量专家仍引入了更高的内存足迹,这对边缘设备上的部署构成了重大挑战 ...
大型语言模型~(LLM)已成为自然语言处理领域的基础,随着模型大小的增加,性能得到提高。 Mixture-of-Experts~(MoE) 方法提供了一种有前途的方法,通过稀疏激活使用更少的计算 FLOP,更有效地扩展 LLM。然而,它会产生大量的内存开销,因此需要模型压缩技术 ...
专家(MOE)模型的混合物已通过有效分发计算和增强性能来成为大规模深度学习的基石。但是,它们的独特体系结构通过稀疏的专家激活和动态路由机制引入了引入固有的复杂性,这些复杂性挑战了常规量化技术。现有的训练后量化(PTQ)方法难以解决激活异常值,路由器一致性和稀疏专家校准,从而导致绩效降低 ...
专家(MOE)模型的稀疏激活混合物为传统密集激活(致密)模型提供了有希望的替代品,从而提高了质量和计算效率。但是,从头开始培训MOE模型需要大量的数据和计算资源。此外,像蒂姆(Timm)这样的公共存储库主要提供预先训练的密集检查站,缺乏类似的MOE模型资源,从而阻碍了其采用 ...
随着人工智能的进步,Experts(MOE)的组合已成为大型语言模型(LLM)的主要形式,其对模型压缩的需求正在增加。量化是一种有效的方法,不仅可以压缩模型,而且可以显着加速其性能。现有的量化方法已逐渐将重点从参数缩放转移到数据分布的分析 ...
FP4精度中的训练前 Transformer 正在成为一种有前途的方法,以获得大幅加速,但准确性丧失。显微镜(MX)数据格式提供了一种细粒度的每组量化方法,以提高FP4格式的表示能力,并由下一代Blackwell GPU体系结构支持。但是,使用MXFP4数据格式的培训仍然会导致大量降级,并且缺乏对原因的系统研究 ...