luffy的文档

luffy

个性签名 ...

Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming

语言模型的最新进展取得了重大进展。 GPT-4o作为一个新的里程碑，实现了与人类的实时对话，展现出接近人类自然的流畅性。这种人机交互需要模型能够直接使用音频模态进行推理并生成流式输出 ...

0 1 0 0 2024/09/03 arXiv:2408.16725v2 luffy

Scaling up masked audio encoder learning for general audio classification

尽管音频分类取得了进展，但语音和其他声音领域（例如环境声音和音乐）之间仍然存在泛化差距。针对语音任务训练的模型通常无法在环境或音乐音频任务上表现良好，反之亦然。虽然自（监督 SSL）音频表示提供了一种替代方案，但对于缩放基于 SSL 的通用音频分类的模型和数据集大小的探索有限... ...

0 0 0 0 2024/11/01 arXiv:2406.06992v2 luffy

MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

在本文中，我们提出了MooER，一种基于LLM的Moore Threads大规模自动语音识别（ASR）/自动语音翻译（AST）模型。使用包含开源和自行收集的语音数据的 5000h 伪标记数据集进行训练。我们获得的性能可与使用长达数十万小时的标记语音数据训练的其他开源模型相媲美 ...

0 0 0 0 2024/08/24 arXiv:2408.05101v1 luffy

Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models

参数高效的微调（peft）对于在资源有限的情况下定制大型语言模型（llm）至关重要。尽管针对密集架构llm已有多种peft方法，llm的peft仍处于探索之中。在这项工作中，Moe）架构的llm的peft方法，这项工作的内容主要有三个：（：（），发现特定任务的，发现特定任务的，发现特定任务的路由分布往往高度集中，而不同任务的激活专家的分布差异很大... ...

0 0 0 0 2025/02/03 arXiv:2407.01906v2 luffy

Teola: Towards End-to-End Optimization of LLM-based Applications

基于大型语言模型 (LLM) 的应用程序由 LLM 和非 LLM 组件组成，每个组件都会导致端到端延迟。尽管在优化 LLM 推理方面付出了巨大努力，但端到端工作流程优化却被忽视了。现有框架采用任务模块的粗粒度编排，这将优化限制在每个模块内，并产生次优的调度决策 ...

0 0 0 0 2024/08/17 arXiv:2407.00326v1 luffy

Prompt Cache: Modular Attention Reuse for Low-Latency Inference

我们提出了 Prompt Cache，这是一种通过跨不同 LLM 提示重用注意力状态来加速大型语言模型 (LLM) 推理的方法。许多输入提示具有重叠的文本段，例如系统消息、提示模板和为上下文提供的文档。我们的主要见解是，通过在推理服务器上预先计算和存储这些频繁出现的文本片段的注意力状态，当这些片段出现在用户提示中时，我们可以有效地重用它们 ...

0 0 0 0 2024/11/12 arXiv:2311.04934v2 luffy

Stable Audio Open

开放生成模型对于社区来说至关重要，它允许进行微调并在呈现新模型时作为基线。然而，当前大多数文本到音频模型都是私有的，艺术家和研究人员无法在其基础上进行构建。在这里，我们描述了使用知识共享数据训练的新的开放权重文本到音频模型的架构和训练过程 ...

0 0 0 0 2024/08/02 arXiv:2407.14358v2 luffy

E2 TTS: Embarrassingly Easy Fully Non-Autoregressive Zero-Shot TTS

本文介绍了 Embarrassingly Easy Text-to-Speech (E2 TTS)，这是一种完全非自回归的零样本文本转语音系统，可提供人类水平的自然度以及最先进的说话者相似度和清晰度。在 E2 TTS 框架中，文本输入被转换为带有填充标记的字符序列。然后基于音频填充任务训练基于流匹配的梅尔频谱图生成器 ...

0 0 0 0 2024/06/28 arXiv:2406.18009v1 luffy

Speech Prefix-Tuning with RNNT Loss for Improving LLM Predictions

在本文中，我们重点解决将 LLM 应用于 ASR 时面临的限制。最近的工作利用了 prefixLM 类型的模型，直接将语音作为 ASR 的 LLM 的前缀。我们发现优化语音前缀可以带来更好的 ASR 性能，并建议应用 RNNT 损失来执行语音前缀调整 ...

0 0 0 0 2024/06/26 arXiv:2406.14701v1 luffy

Speech ReaLLM -- Real-time Streaming Speech Recognition with Multimodal LLMs by Teaching the Flow of Time

我们引入了 Speech ReaLLM，这是一种新的 ASR 架构，它将“仅解码器”ASR 与 RNN-T 结合起来，使多模态 LLM 架构能够进行实时流处理。这是第一个“仅解码器”ASR 架构，旨在处理连续音频，无需明确的端点。语音 ReaLLM 是更通用的 ReaLLM（“实时 LLM”）方法的特例，也是首次在此介绍 ...

0 0 0 0 2024/06/18 arXiv:2406.09569v1 luffy