使用大型语言模型(LLM)是昂贵的,尤其是对于托管许多型号的提供商而言,使成本降低至关重要。服务多个LLM的独特工作量模式(即 ...

0 3 0 0 2025/05/10 arXiv:2505.04021v1 tea5

大型语言模型(LLM)的快速发展促使人们需要更有效的服务策略。在这种情况下,效率是指符合其服务级别目标(SLO)的请求的比例,特别是为了首先执行 Token (TTFT)和 Token (TBT)之间的时间。但是,现有的系统通常以另一个指标为基础,将一个指标优先考虑 ...

0 0 0 0 2025/05/10 arXiv:2504.20828v2 tea5

我们介绍了种子思维-V1.5,能够通过在响应之前进行思考来推理,从而提高了各种基准的性能。种子思维-V1 ...

0 0 1 4 2025/04/26 arXiv:2504.13914v2 tea5

Experts(MOE)的混合物展示了具有增强性能和降低计算复杂性的大型语言模型(LLM)的巨大潜力。但是,其稀疏激活的体系结构将进料前向网络(FFN)转移到推理期间的计算密集型到内存密集型,从而导致GPU利用率降低并增加了运营成本。我们提出了Megascale-Infer,这是一种用于提供大规模MOE型号的高效且具有成本效益的系统 ...

0 0 0 0 2025/04/25 arXiv:2504.02263v3 tea5

大型多模型(LMMS)在理解图像,视频和音频之外的音频方面表现出令人印象深刻的功能。但是,由于其在多阶段推理管道中的复杂体系结构和异质性特征,在生产环境中有效服务于生产环境会带来重大挑战。我们对六个代表性的开源模型进行了对两种突出的LMM架构,仅解码和交叉注意的首次全面系统分析,从而揭示了关键的系统设计含义 ...

0 0 0 0 2025/04/21 arXiv:2502.00937v2 tea5

对大语言模型(LLM)服务的需求不断增长,因此需要在LLM推理系统的优化和分析方面取得了重大进步。随着这些模型成为广泛应用程序不可或缺的一部分,对高效且可扩展的服务解决方案的需求已成倍增长。这项工作介绍了Tokensim,这是专门为LLM推理设计的全面硬件和软件探索系统 ...

0 0 0 0 2025/04/16 arXiv:2503.08415v2 tea5

分解推理已成为一个必不可少的框架,该框架将大型语言模型推理中的预填充(p)和解码(d)阶段分开以改善吞吐量。但是,KV缓存传输面对预填充和解码节点之间的显着延迟。块呼叫方法和不连续的KV缓存内存分配增加了对传输内核的调用数量 ...

0 1 0 0 2025/04/16 arXiv:2504.03775v1 tea5

随着对大语言模型(LLM)和AI代理的需求迅速增长,为有效的LLM推理的优化系统变得至关重要。尽管重大努力针对系统级工程,但通过数学建模和排队的角度探索了很少的努力。在本文中,我们旨在开发LLM推论的排队基础,弥合排队和LLM系统社区之间的差距 ...

0 0 0 0 2025/04/15 arXiv:2504.07347v1 tea5

Transformer 模型中的KV缓存技术旨在减少冗余计算,而牺牲了大幅增加的存储器使用情况,从而使KV缓存压缩是一个重要而流行的研究主题。最近,最先进的KV缓存压缩方法实现了不平衡的,每头分配算法,该算法会动态调整每个注意力头的KV缓存预算,从而在单GPU方案中实现出色的性能。但是,我们观察到,部署多GPU推断时,这种不平衡的压缩会导致重大失衡,因为某些GPU变得负担重大,而另一些GPU仍然不足 ...

0 0 0 0 2025/03/09 arXiv:2502.15804v1 tea5