1. 引言
1.1 什麼是 Speaker Diarization?
Speaker Diarization(說話人分離)是一種語音技術,旨在自動識別並區分一段音訊中不同說話人的語音片段,通常以「Who spoke when?」為核心問題。
1.2 重要性與應用場景
- 會議記錄與轉錄:自動標記參與者發言時間,提高文字紀錄的可讀性。
- 廣播與媒體監聽:自動區分主持人與來賓。
- 語音助理與客服分析:提升語音分析系統的準確性。
- 司法與監控:從電話錄音或監聽資料中識別說話人。
About 4 min
Speaker Diarization(說話人分離)是一種語音技術,旨在自動識別並區分一段音訊中不同說話人的語音片段,通常以「Who spoke when?」為核心問題。
語音活動檢測(VAD,Voice Activity Detection)是語音處理中的一個關鍵技術,用於檢測音頻信號中是否包含語音或非語音(靜音或噪音)部分。VAD 被廣泛應用於語音識別、語音通信、語音增強等領域,可以幫助提高系統的效能,減少不必要的計算負擔。
VAD 的核心目的是區分語音信號和非語音信號,通常依賴於音頻特徵(如音頻強度、頻譜、基頻等)進行判斷。其主要的工作步驟如下: