WhisperX 是一個基於 OpenAI 開源語音識別模型 Whisper 的增強工具,專注於解決標準 Whisper 在語音轉文字 (ASR) 應用中的一些局限性,特別是 精確時間戳 和 說話人分離 功能。
WhisperX 的功能與特點
1. 精確時間戳 (Word-level Alignment)
- 特點:
- Whisper 原生僅支持語句級別 (phrase-level) 的時間戳,這對於字幕生成等應用場景可能不夠精確。
- WhisperX 通過集成 音素對齊算法,提供逐字級別的時間戳,確保每個單詞的開始和結束時間更準確。
- 使用技術:
- 使用工具如
pyctcdecode
和Aeneas
,基於聲學特徵和語言模型進行對齊。
- 使用工具如
- 應用場景:
- 字幕生成(精確到每個單詞)。
- 時間敏感的語音轉文字應用(如語音檢索、索引構建)。