insanely-fast-whisper

open-sourcevoice-agents
12.2k
Stars
+3413
Stars/month
0
Releases (6m)

Star Growth

+508 (4.3%)
11.5k12.0k12.5kMar 27Apr 1

Overview

insanely-fast-whisper 是一个专为本地设备设计的高性能音频转录CLI工具,基于OpenAI的Whisper模型和🤗 Transformers生态系统构建。该工具的核心优势在于其极致的转录速度优化,通过集成Flash Attention 2、fp16精度、智能批处理和BetterTransformer等先进技术,实现了突破性的性能提升。在配备Nvidia A100 GPU的环境下,该工具能够在不到98秒的时间内完成150分钟音频的转录任务,相比传统Whisper实现提速超过18倍。工具支持多种Whisper模型变体,包括large-v3、distil-large-v2等,用户可根据精度和速度需求选择合适的模型。作为完全本地化的解决方案,它无需依赖云端API,确保数据隐私和离线可用性。该项目起源于Transformers性能基准测试的展示,现已发展为社区驱动的轻量级CLI工具,持续根据用户需求添加新功能。对于需要处理大量音频转录任务的开发者、内容创作者和企业用户,这个工具提供了前所未有的效率提升。

Deep Analysis

Key Differentiator

vs OpenAI Whisper CLI/faster-whisper: leverages HF Transformers + Flash Attention 2 + batching for up to 6x faster transcription than faster-whisper

Capabilities

  • Transcribe 150min audio in <2min on A100
  • Flash Attention 2 support for maximum speed
  • Speaker diarization via Pyannote
  • Word-level and chunk-level timestamps
  • Translation between languages
  • Supports distil-whisper models

🔗 Integrations

Hugging Face TransformersOpenAI WhisperPyannoteFlash Attention 2BetterTransformer

Best For

  • Batch transcription of large audio archives
  • Teams needing fastest possible Whisper inference

Not Ideal For

  • CPU-only environments
  • Real-time streaming transcription (batch-oriented)

Languages

Python

Deployment

CLI (pipx)Python libraryNVIDIA GPUMac (MPS)

Known Limitations

  • Requires NVIDIA GPU or Mac MPS for optimal performance
  • Flash Attention 2 installation can be complex
  • MPS backend less optimized than CUDA, more memory hungry
  • Opinionated CLI with limited customization

Pros

  • + 极致性能优化:通过Flash Attention 2和批处理技术,转录速度比标准Whisper快18倍以上
  • + 完全本地化:支持离线转录,无需云端依赖,确保数据隐私和成本控制
  • + 丰富的模型选择:支持multiple Whisper变体,可在精度和速度间灵活平衡

Cons

  • - 硬件依赖性强:需要支持Flash Attention 2的现代GPU才能获得最佳性能
  • - 安装复杂度:在某些Python版本下可能遇到依赖解析问题,需要特殊参数处理
  • - 内存消耗大:高性能批处理模式需要较大GPU内存支持

Use Cases

  • 媒体内容制作:为播客、视频、采访录音快速生成字幕和文稿
  • 会议记录转录:将长时间会议录音高效转换为可搜索的文本记录
  • 语音数据批量处理:研究机构或企业对大规模音频数据集进行自动化转录分析

Getting Started

1. 通过pipx安装工具:`pipx install insanely-fast-whisper==0.0.15 --force` 2. 确认GPU环境配置正确,如使用macOS需添加`--device-id mps`参数 3. 运行转录命令:`insanely-fast-whisper --file-name <音频文件路径或URL>`开始快速转录

Compare insanely-fast-whisper