ChatTTS

A generative speech model for daily dialogue.

Visit WebsiteView on GitHub
39.0k
Stars
+3250
Stars/month
0
Releases (6m)

Overview

ChatTTS是一个专为对话场景设计的生成式语音模型,特别优化用于LLM助手等对话应用。该模型使用超过10万小时的中英文音频数据训练,能够生成自然流畅的对话语音。ChatTTS的核心优势在于其针对对话任务的专门优化,支持多个说话者角色,能够预测和控制细粒度的韵律特征,包括笑声、停顿、插语等自然对话元素。模型在韵律表现方面超越大多数开源TTS模型,为对话系统提供更加真实自然的语音体验。目前开源版本包含4万小时预训练模型,支持流式音频生成和零样本推理,适用于学术研究和开发实验。

Pros

  • + 专为对话场景优化,支持多说话者和自然对话流
  • + 细粒度韵律控制,可生成笑声、停顿等对话元素
  • + 超越大多数开源TTS模型的韵律质量表现

Cons

  • - 开源版本仅限学术用途,商业应用受限
  • - 目前只支持中英文两种语言

Use Cases

Getting Started

通过pip安装ChatTTS包,从HuggingFace下载预训练模型文件,使用Python API加载模型并输入文本生成语音输出