tea5的文档

Prism: Unleashing GPU Sharing for Cost-Efficient Multi-LLM Serving

使用大型语言模型（LLM）是昂贵的，尤其是对于托管许多型号的提供商而言，使成本降低至关重要。服务多个LLM的独特工作量模式（即 ...

0 3 0 0 2025/05/10 arXiv:2505.04021v1 tea5

Ascendra: Dynamic Request Prioritization for Efficient LLM Serving

大型语言模型（LLM）的快速发展促使人们需要更有效的服务策略。在这种情况下，效率是指符合其服务级别目标（SLO）的请求的比例，特别是为了首先执行 Token （TTFT）和 Token （TBT）之间的时间。但是，现有的系统通常以另一个指标为基础，将一个指标优先考虑 ...

0 0 0 0 2025/05/10 arXiv:2504.20828v2 tea5

Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning

我们介绍了种子思维-V1.5，能够通过在响应之前进行思考来推理，从而提高了各种基准的性能。种子思维-V1 ...

0 0 1 4 2025/04/26 arXiv:2504.13914v2 tea5

MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism

Experts（MOE）的混合物展示了具有增强性能和降低计算复杂性的大型语言模型（LLM）的巨大潜力。但是，其稀疏激活的体系结构将进料前向网络（FFN）转移到推理期间的计算密集型到内存密集型，从而导致GPU利用率降低并增加了运营成本。我们提出了Megascale-Infer，这是一种用于提供大规模MOE型号的高效且具有成本效益的系统 ...

0 0 0 0 2025/04/25 arXiv:2504.02263v3 tea5

ModServe: Scalable and Resource-Efficient Large Multimodal Model Serving

大型多模型（LMMS）在理解图像，视频和音频之外的音频方面表现出令人印象深刻的功能。但是，由于其在多阶段推理管道中的复杂体系结构和异质性特征，在生产环境中有效服务于生产环境会带来重大挑战。我们对六个代表性的开源模型进行了对两种突出的LMM架构，仅解码和交叉注意的首次全面系统分析，从而揭示了关键的系统设计含义 ...

0 0 0 0 2025/04/21 arXiv:2502.00937v2 tea5

TokenSim: Enabling Hardware and Software Exploration for Large Language Model Inference Systems

对大语言模型（LLM）服务的需求不断增长，因此需要在LLM推理系统的优化和分析方面取得了重大进步。随着这些模型成为广泛应用程序不可或缺的一部分，对高效且可扩展的服务解决方案的需求已成倍增长。这项工作介绍了Tokensim，这是专门为LLM推理设计的全面硬件和软件探索系统 ...

0 0 0 0 2025/04/16 arXiv:2503.08415v2 tea5

FlowKV: A Disaggregated Inference Framework with Low-Latency KV Cache Transfer and Load-Aware Scheduling

分解推理已成为一个必不可少的框架，该框架将大型语言模型推理中的预填充（p）和解码（d）阶段分开以改善吞吐量。但是，KV缓存传输面对预填充和解码节点之间的显着延迟。块呼叫方法和不连续的KV缓存内存分配增加了对传输内核的调用数量 ...

0 1 0 0 2025/04/16 arXiv:2504.03775v1 tea5

Throughput-Optimal Scheduling Algorithms for LLM Inference and AI Agents

随着对大语言模型（LLM）和AI代理的需求迅速增长，为有效的LLM推理的优化系统变得至关重要。尽管重大努力针对系统级工程，但通过数学建模和排队的角度探索了很少的努力。在本文中，我们旨在开发LLM推论的排队基础，弥合排队和LLM系统社区之间的差距 ...

0 0 0 0 2025/04/15 arXiv:2504.07347v1 tea5

FairKV: Balancing Per-Head KV Cache for Fast Multi-GPU Inference

Transformer 模型中的KV缓存技术旨在减少冗余计算，而牺牲了大幅增加的存储器使用情况，从而使KV缓存压缩是一个重要而流行的研究主题。最近，最先进的KV缓存压缩方法实现了不平衡的，每头分配算法，该算法会动态调整每个注意力头的KV缓存预算，从而在单GPU方案中实现出色的性能。但是，我们观察到，部署多GPU推断时，这种不平衡的压缩会导致重大失衡，因为某些GPU变得负担重大，而另一些GPU仍然不足 ...

0 0 0 0 2025/03/09 arXiv:2502.15804v1 tea5