insanely-fast-whisper
open-sourcevoice-agents
11.8k
Stars
+980
Stars/month
0
Releases (6m)
Overview
insanely-fast-whisper 是一个专为本地设备设计的高性能音频转录CLI工具,基于OpenAI的Whisper模型和🤗 Transformers生态系统构建。该工具的核心优势在于其极致的转录速度优化,通过集成Flash Attention 2、fp16精度、智能批处理和BetterTransformer等先进技术,实现了突破性的性能提升。在配备Nvidia A100 GPU的环境下,该工具能够在不到98秒的时间内完成150分钟音频的转录任务,相比传统Whisper实现提速超过18倍。工具支持多种Whisper模型变体,包括large-v3、distil-large-v2等,用户可根据精度和速度需求选择合适的模型。作为完全本地化的解决方案,它无需依赖云端API,确保数据隐私和离线可用性。该项目起源于Transformers性能基准测试的展示,现已发展为社区驱动的轻量级CLI工具,持续根据用户需求添加新功能。对于需要处理大量音频转录任务的开发者、内容创作者和企业用户,这个工具提供了前所未有的效率提升。
Pros
- + 极致性能优化:通过Flash Attention 2和批处理技术,转录速度比标准Whisper快18倍以上
- + 完全本地化:支持离线转录,无需云端依赖,确保数据隐私和成本控制
- + 丰富的模型选择:支持multiple Whisper变体,可在精度和速度间灵活平衡
Cons
- - 硬件依赖性强:需要支持Flash Attention 2的现代GPU才能获得最佳性能
- - 安装复杂度:在某些Python版本下可能遇到依赖解析问题,需要特殊参数处理
- - 内存消耗大:高性能批处理模式需要较大GPU内存支持
Use Cases
- • 媒体内容制作:为播客、视频、采访录音快速生成字幕和文稿
- • 会议记录转录:将长时间会议录音高效转换为可搜索的文本记录
- • 语音数据批量处理:研究机构或企业对大规模音频数据集进行自动化转录分析
Getting Started
1. 通过pipx安装工具:`pipx install insanely-fast-whisper==0.0.15 --force` 2. 确认GPU环境配置正确,如使用macOS需添加`--device-id mps`参数 3. 运行转录命令:`insanely-fast-whisper --file-name <音频文件路径或URL>`开始快速转录