本文整理了兩篇論文中的相關內容,並重點探討 Label Smoothing 的概念、實現方式與效益。兩篇論文分別是:
1. 簡介
DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一種基於密度的聚類算法,適用於發現具有任意形狀的聚類,並能有效處理噪聲數據點。
2. 原理
DBSCAN 使用兩個主要參數來進行聚類:
- Eps(近邻半径):決定一個點的鄰域範圍。
- MinPts(最少核心為基立的點數):在 Eps 鄰域內需要至少 MinPts 個點才被認為是核心點。
1. 引言
1.1 什麼是 Speaker Diarization?
Speaker Diarization(說話人分離)是一種語音技術,旨在自動識別並區分一段音訊中不同說話人的語音片段,通常以「Who spoke when?」為核心問題。
1.2 重要性與應用場景
- 會議記錄與轉錄:自動標記參與者發言時間,提高文字紀錄的可讀性。
- 廣播與媒體監聽:自動區分主持人與來賓。
- 語音助理與客服分析:提升語音分析系統的準確性。
- 司法與監控:從電話錄音或監聽資料中識別說話人。
Speaker verification is the verifying the identity of a person from characteristics of the voice. 說話者辨識是根據聲音特徵來辨識一個人。用來回答「誰在說話?」的問題。語音辨識這個名詞可指說話者辨識或語音辨識。說話者驗證(也稱為說話者身份驗證)與識別不同,說話者識別不同於說話者分類(識別同一說話人 何時說話)。
Task Introduction
- Speaker Recognition / Identification
- 語者識別
- 一段語音是誰所說的
- Speaker Verification
- 語者驗證
- 兩段語音是否為同一人所說
- Speaker Diarization
- 語者分段標記
- 在一段語音中,誰在何時說話
語音活動檢測(VAD,Voice Activity Detection)是語音處理中的一個關鍵技術,用於檢測音頻信號中是否包含語音或非語音(靜音或噪音)部分。VAD 被廣泛應用於語音識別、語音通信、語音增強等領域,可以幫助提高系統的效能,減少不必要的計算負擔。
VAD 的工作原理
VAD 的核心目的是區分語音信號和非語音信號,通常依賴於音頻特徵(如音頻強度、頻譜、基頻等)進行判斷。其主要的工作步驟如下:
- 信號分幀:將音頻信號分為短時間幀,通常是 20ms 到 30ms。
- 提取特徵:從每一幀中提取語音相關的特徵,如短時能量、過零率、梅爾頻率倒譜係數(MFCC)等。
- 分類決策:根據提取的特徵,進行分類判斷,確定該幀是語音還是噪聲或靜音。
Model 有各種改進變體等等差異。
Stable Diffusion Base Model
Base Model 是不同版本的 Stable Diffusion 或其改進與變體,針對不同的應用場景、性能優化和創意需求進行設計和微調。以下是對這些模型的分類與特性差異的詳細解釋:
1. 核心版本差異
Stable Diffusion 的核心版本可以分為以下幾代,每一代都有新的改進:
1.1 SD 1.x 系列
- SD 1.4: 最早公開的穩定版本,用於廣泛的文本到圖像生成。
- SD 1.5: 在 1.4 基礎上進行改進,生成質量更好,噪聲消除更強。
- SD 1.5 LCM: 針對 低記憶體消耗(Low Consumption Memory) 的優化版本,適合硬件資源有限的用戶。
- SD 1.5 Hyper: 進一步加強生成細節與質感的版本,適合更高分辨率的輸出需求。
ControlNet is a neural network structure to control diffusion models by adding extra conditions.
ControlNet for Stable Diffusion WebUI
This extension is for AUTOMATIC1111's Stable Diffusion web UI, allows the Web UI to add ControlNet to the original Stable Diffusion model to generate images. The addition is on-the-fly, the merging is not required.
是一種輕量化的模型調整技術,廣泛應用於大模型(如 Stable Diffusion 或 Transformer 類模型)的微調,尤其在資源有限或需要快速適配新任務的情況下。
LoRA 的核心概念
LoRA 的核心目標是通過引入低秩矩陣分解的方式,實現對模型的參數高效調整,而無需微調整個模型的全部參數。
cross-attention層
裡的權重保存在矩陣中,而 LoRA 模型做 fine-tune 時,便是將其自身的權重加到這些矩陣上。
A web interface for Stable Diffusion, implemented using Gradio library.
Stable Diffusion Web UI 提供了一個直觀的網頁界面,讓用戶可以方便地操作 Stable Diffusion 模型,而無需直接使用程式碼。以下是其主要功能的詳細介紹:
Features
-
文本到圖像生成 (Text-to-Image Generation)
輸入文本提示生成高品質圖像。 -
圖像到圖像生成 (Image-to-Image Generation)
透過上傳圖像與文本提示,生成基於參考圖像的變體或修改後圖像。 -
外擴繪圖 (Outpainting)
將圖像擴展到超出其邊界的新區域。 -
圖像修補 (Inpainting)
使用遮罩功能編輯或修補特定區域的圖像。 -
色彩草圖 (Color Sketch)
通過文本或草圖生成色彩豐富的圖像。 -
提示矩陣 (Prompt Matrix)
同時生成多種不同提示文本的圖像。 -
超分辨率生成 (Stable Diffusion Upscale)
提高圖像解析度,細化細節。 -
關注點控制 (Attention Control)
調整模型對文本中特定部分的關注程度,例如:a man in a ((tuxedo))
:強調「tuxedo」。a man in a (tuxedo:1.21)
:更細緻的強調設定。
-
循環生成 (Loopback)
多次處理圖像以生成進一步變化。 -
X/Y/Z 參數繪圖 (X/Y/Z Plot)
創建多維度參數的圖像對比圖。
Stable Diffusion 是一種基於 Latent Diffusion Models (LDM) 的高效擴散模型,專注於生成高解析度的圖像,並在計算效率與生成質量之間實現了良好的平衡。
核心特性
-
基於潛在空間的擴散過程:
- 圖像在壓縮的潛在空間中進行擴散操作,而非像素空間。
- 顯著降低運算資源需求。
-
可控生成:
- 允許用戶使用文本提示、語義標籤或其他條件來指導生成過程。
- 使用 CLIP(Contrastive Language–Image Pretraining)嵌入來實現文本到圖像生成。
-
擴展性與開放性:
- 提供開放源代碼,便於研究者和開發者進一步開發和改進。