gubaobao的文档

gubaobao

个性签名 ...

StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow Matching

零样本语音转换（VC）旨在将音色从源说话者转移到任意未见过的说话者，同时保留原始语言内容。尽管最近使用基于语言模型或基于扩散的方法在零样本 VC 方面取得了进展，但仍然存在一些挑战：1）当前的方法主要集中于适应来自看不见的说话者的音色，无法将风格和音色独立地传递给不同的看不见的说话者； 2）由于自回归建模方法或需要大量采样步骤，这些方法通常推理速度较慢； 3）转换后的样本质量和相似度仍不完全令人满意。为了应对这些挑战，我们提出了一种风格可控的零样本 VC 方法，名为 StableVC，其目的是将源语音的音色和风格转移到不同的看不见的目标说话者 ...

0 0 0 0 2024/12/18 arXiv:2412.04724v2 gubaobao

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

这份技术报告介绍了我们为台湾普通话构建口语大语言模型 (LLM) 的初步尝试，该模型专门用于在多轮对话中实现实时语音到语音交互。我们的端到端模型采用了仅解码器的 Transformer 架构，旨在实现无缝交互，同时保留对话流，包括允许同时讲话和收听的全双工功能。该论文还详细介绍了训练过程，包括合成对话的数据准备和实时交互的调整 ...

0 0 0 0 2024/11/21 arXiv:2411.07111v1 gubaobao

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

大型语言模型 (LLM) 彻底改变了自然语言处理，但由于集成音频和文本模式的复杂性，它们在基于语音的任务中的应用仍然具有挑战性。本文介绍了 Ichigo，这是一种混合模态模型，可以无缝处理交错的语音和文本序列。利用标记化的早期融合方法，Ichigo 将语音量化为离散标记，并针对语音和文本模式采用基于 Transformer 的统一架构 ...

0 0 0 0 2024/11/21 arXiv:2410.15316v1 gubaobao

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

大语言模型的快速发展带来了许多新的智能应用，尤其是GPT-4o中出色的多模态人机交互给用户带来了令人印象深刻的体验。在此背景下，研究人员最近提出了许多可以实现语音对语音对话的多模态 LLM 。在本文中，我们提出了一种称为 Freeze-Omni 的语音文本多模式 LLM 架构 ...

0 0 0 0 2024/11/11 arXiv:2411.00774v1 gubaobao

Reshape Dimensions Network for Speaker Recognition

在本文中，我们提出了重塑维度网络（ReDimNet），这是一种用于提取话语级说话人表示的新颖神经网络架构。我们的方法利用 2D 特征映射到 1D 信号表示的维度重塑，反之亦然，从而实现 1D 和 2D 块的联合使用。我们提出了一种原始的网络拓扑，它保留一维和二维块的通道时间步长频率输出的体积，促进有效的残差特征图聚合 ...

0 0 0 0 2024/10/15 arXiv:2407.18223v2 gubaobao

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

本文介绍了 ESPnet-SPK，这是一个旨在训练说话人嵌入提取器的多个目标的工具包。首先，我们为说话人识别社区的研究人员提供一个开源平台，帮助他们轻松构建模型。我们提供多种模型，从 x-向量到最近的 SKA-TDNN ...

0 0 0 0 2024/10/15 arXiv:2401.17230v2 gubaobao

StableVC: Style Controllable Zero-Shot Voice Conversion with Conditional Flow Matching

Building a Taiwanese Mandarin Spoken Language Model: A First Attempt

Ichigo: Mixed-Modal Early-Fusion Realtime Voice Assistant

Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM

Reshape Dimensions Network for Speaker Recognition

ESPnet-SPK: full pipeline speaker embedding toolkit with reproducible recipes, self-supervised front-ends, and off-the-shelf models

Voice Cloning: a Multi-Speaker Text-to-Speech Synthesis Approach based on Transfer Learning

NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

FunCodec: A Fundamental, Reproducible and Integrable Open-source Toolkit for Neural Speech Codec

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis

来一起翻译吧！

为了您和其他读者获得更好的阅读体验，请您在阅读时勇敢地改正翻译，特别是一些显而易见的机器翻译错误。

虽然我们追求卓越，但我们并不要求翻译十全十美，因此请不要担心您翻译有误 —— 我们的服务器已经记录所有的翻译，您不必担心会因为您的失误导致无法挽回的破坏。（改编自维基百科）