TTS-WebUI

A single Gradio + React WebUI with extensions for ACE-Step, Kimi Audio, Piper TTS, GPT-SoVITS, CosyVoice, XTTSv2, DIA, Kokoro, OpenVoice, ParlerTTS, Stable Audio, MMS, StyleTTS2, MAGNet, AudioGen, Mus

Visit WebsiteView on GitHub
3.0k
Stars
+253
Stars/month
3
Releases (6m)

Overview

TTS-WebUI 是一个基于 Gradio 和 React 的统一文本转语音 Web 界面,集成了超过 15 种主流 TTS 引擎和模型。该工具支持 ACE-Step、Kimi Audio、Piper TTS、GPT-SoVITS、CosyVoice、XTTSv2、DIA、Kokoro、OpenVoice、ParlerTTS、Stable Audio、MMS、StyleTTS2、MAGNet、AudioGen 等多种语音合成技术。作为一个开源项目,TTS-WebUI 为用户提供了双重界面选择,既有简洁易用的 Gradio 界面,也有功能丰富的 React 界面。该工具特别注重扩展性,支持插件系统,并与 Silly Tavern 等第三方应用无缝集成。凭借其统一的界面设计,用户无需在多个不同的 TTS 工具之间切换,即可体验各种语音合成模型的效果,极大提升了语音合成工作的效率。项目在 GitHub 上获得了超过 3000 星标,拥有活跃的社区支持和持续的开发维护。

Pros

  • + 统一界面集成 15+ 种主流 TTS 引擎,避免工具切换的麻烦
  • + 提供 Gradio 和 React 双重界面,满足不同用户的使用偏好
  • + 支持扩展插件和第三方集成,具备良好的可扩展性

Cons

  • - 作为集成平台,可能无法充分发挥单个 TTS 引擎的全部高级功能
  • - 多引擎支持意味着较大的安装包和更高的系统资源需求
  • - 文档主要为英文,对中文用户可能存在学习门槛

Use Cases

Getting Started

1. 下载官方安装程序或使用 Docker 部署,也可通过 Google Colab 在线体验;2. 启动服务后访问 Web 界面,选择 Gradio 或 React 界面进行配置;3. 输入测试文本,选择所需的 TTS 引擎和语音模型,生成第一个语音文件