insanely-fast-whisper
open-sourcevoice-agents
12.2k
Stars
+3413
Stars/month
0
Releases (6m)
Star Growth
+508 (4.3%)
Overview
insanely-fast-whisper 是一个专为本地设备设计的高性能音频转录CLI工具,基于OpenAI的Whisper模型和🤗 Transformers生态系统构建。该工具的核心优势在于其极致的转录速度优化,通过集成Flash Attention 2、fp16精度、智能批处理和BetterTransformer等先进技术,实现了突破性的性能提升。在配备Nvidia A100 GPU的环境下,该工具能够在不到98秒的时间内完成150分钟音频的转录任务,相比传统Whisper实现提速超过18倍。工具支持多种Whisper模型变体,包括large-v3、distil-large-v2等,用户可根据精度和速度需求选择合适的模型。作为完全本地化的解决方案,它无需依赖云端API,确保数据隐私和离线可用性。该项目起源于Transformers性能基准测试的展示,现已发展为社区驱动的轻量级CLI工具,持续根据用户需求添加新功能。对于需要处理大量音频转录任务的开发者、内容创作者和企业用户,这个工具提供了前所未有的效率提升。
Deep Analysis
Key Differentiator
vs OpenAI Whisper CLI/faster-whisper: leverages HF Transformers + Flash Attention 2 + batching for up to 6x faster transcription than faster-whisper
⚡ Capabilities
- • Transcribe 150min audio in <2min on A100
- • Flash Attention 2 support for maximum speed
- • Speaker diarization via Pyannote
- • Word-level and chunk-level timestamps
- • Translation between languages
- • Supports distil-whisper models
🔗 Integrations
Hugging Face TransformersOpenAI WhisperPyannoteFlash Attention 2BetterTransformer
✓ Best For
- ✓ Batch transcription of large audio archives
- ✓ Teams needing fastest possible Whisper inference
✗ Not Ideal For
- ✗ CPU-only environments
- ✗ Real-time streaming transcription (batch-oriented)
Languages
Python
Deployment
CLI (pipx)Python libraryNVIDIA GPUMac (MPS)
⚠ Known Limitations
- ⚠ Requires NVIDIA GPU or Mac MPS for optimal performance
- ⚠ Flash Attention 2 installation can be complex
- ⚠ MPS backend less optimized than CUDA, more memory hungry
- ⚠ Opinionated CLI with limited customization
Pros
- + 极致性能优化:通过Flash Attention 2和批处理技术,转录速度比标准Whisper快18倍以上
- + 完全本地化:支持离线转录,无需云端依赖,确保数据隐私和成本控制
- + 丰富的模型选择:支持multiple Whisper变体,可在精度和速度间灵活平衡
Cons
- - 硬件依赖性强:需要支持Flash Attention 2的现代GPU才能获得最佳性能
- - 安装复杂度:在某些Python版本下可能遇到依赖解析问题,需要特殊参数处理
- - 内存消耗大:高性能批处理模式需要较大GPU内存支持
Use Cases
- • 媒体内容制作:为播客、视频、采访录音快速生成字幕和文稿
- • 会议记录转录:将长时间会议录音高效转换为可搜索的文本记录
- • 语音数据批量处理:研究机构或企业对大规模音频数据集进行自动化转录分析
Getting Started
1. 通过pipx安装工具:`pipx install insanely-fast-whisper==0.0.15 --force` 2. 确认GPU环境配置正确,如使用macOS需添加`--device-id mps`参数 3. 运行转录命令:`insanely-fast-whisper --file-name <音频文件路径或URL>`开始快速转录