在这项工作中,我们提供了对离散扩散语言模型(DLLM)和离散扩散多模式模型(DMLLMS)的系统调查。与自动回归(AR)模型不同,DLLM和DMLLMS使用全面关注和基于Denoising的发电策略采用了多键,平行的解码范式。该范式自然可以实现并行生成,细粒的输出可控性和动态响应感知感知 ...

0 0 0 0 2025/07/17 arXiv:2506.13759v3 tea5

扩散和流匹配模型具有明显的高级媒体生成,但是它们的设计空间经过了充分的探索,有些限制了进一步的改进。同时,自回归(AR)模型,尤其是那些生成连续 Token 的模型,已成为统一文本和媒体生成的有希望的方向。本文介绍了过渡匹配(TM),这是一种新型离散时间,连续状态的生成范式,它统一和进步既可以扩散/流量模型又是连续的AR产生 ...

0 0 0 0 2025/07/02 arXiv:2506.23589v1 tea5

在本报告中,我们介绍了智力1,这是在全球范围内协作培训的前100亿个参数语言模型,表明大型模型培训不再局限于大型公司,而是可以通过分布式,社区驱动的方法来实现。对1万亿 Token 进行了培训,该 Token 使用了多达14个在3大洲分布的并发节点,其中30个独立的计算提供商的贡献动态加入并离开训练过程,同时保持83-96%的计算利用率和36.2-41 ...

0 0 0 0 2025/07/01 arXiv:2412.01152v1 tea5

大型语言模型(LLM)和AI系统的最新进展导致了复杂AI工作流的设计和优化的范式转移。通过集成多个组件,复合AI系统已经越来越擅长执行复杂的任务。但是,随着这些系统的复杂性的增长,不仅要优化单个组件,而且还要优化它们的相互作用,就会出现新的挑战 ...

0 0 0 0 2025/06/18 arXiv:2506.08234v1 tea5

LLM 推理中的每个请求都会经历两个阶段:计算限制预填充和内存带宽限制解码。为了提高 GPU 利用率,最近的系统使用混合批处理,将不同请求的预填充和解码阶段合并到同一批处理中。混合批处理非常适合线性操作,因为它可以分摊从 HBM 加载模型权重的成本 ...

0 0 0 0 2025/06/10 arXiv:2410.18038v2 tea5

基于大型语言模型 (LLM) 的应用程序由 LLM 和非 LLM 组件组成,每个组件都会导致端到端延迟。尽管在优化 LLM 推理方面付出了巨大努力,但端到端工作流程优化却被忽视了。现有框架采用任务模块的粗粒度编排,这将优化限制在每个模块内,并产生次优的调度决策 ...

0 0 0 0 2025/06/04 arXiv:2407.00326v3 tea5

Alayadb是一种尖端的矢量数据库系统,对Alayadb AI的大型语言模型(LLMS)的高效且有效的长篇文化推断进行了固定架构。具体而言,它将KV缓存和注意力计算与LLM推理系统分解,并将其封装到新颖的矢量数据库系统中。对于作为服务提供商(MAA)的模型,Alayadb消耗了更少的硬件资源,并在与现有的替代解决方案进行比较时(e ...

0 0 0 0 2025/05/21 arXiv:2504.10326v1 tea5

大型语言模型(LLMS)的不断增长的上下文长度对有效的推断构成了重大挑战,这主要是由于GPU记忆和带宽约束。我们提出了Retroinfer,这是一个新型系统,将键值(KV)缓存重新概念化为矢量存储系统,该系统利用了固有的注意力稀疏性,以加速长篇小说LLM推断。从本质上讲,波浪指数是一种注意力感知的向量指数,可以通过诸如三方关注近似,准确的注意力估计和分段聚类等技术有效,准确地检索关键 Token ...

0 0 0 0 2025/05/21 arXiv:2505.02922v1 tea5

随着对计算缩放计算(数据和参数)的热情逐渐减少,测试时间缩放(TTS),也称为``测试时间计算''的热情已成为一个突出的研究重点。最近的研究表明,TTS可以进一步引起大语模型(LLM)的解决问题的能力,这不仅可以在专门的推理任务(例如数学和编码)中进行重大突破,还可以在开放式Q&A等一般任务中进行。但是,尽管最近在这一领域努力爆炸了,但仍需要进行全面了解的全面调查 ...

0 0 0 0 2025/05/20 arXiv:2503.24235v3 tea5

这项调查探讨了推理大语言模型(LLMS)的最新进步,该模型旨在模仿“缓慢思考”,这是一个受人类认知启发的推理过程,如卡恩曼的思想中所述,快速而慢。这些模型,例如OpenAI的O1,专注于在复杂任务中动态扩展计算资源,例如数学推理,视觉推理,医学诊断和多代理辩论。我们介绍了推理LLM的发展,并列出了其关键技术 ...

0 0 0 0 2025/05/13 arXiv:2505.02665v2 tea5