Tag: diffusion model

Stable Diffusion 是一種基於 Latent Diffusion Models (LDM) 的高效擴散模型，專注於生成高解析度的圖像，並在計算效率與生成質量之間實現了良好的平衡。

核心特性

基於潛在空間的擴散過程：
- 圖像在壓縮的潛在空間中進行擴散操作，而非像素空間。
- 顯著降低運算資源需求。
可控生成：
- 允許用戶使用文本提示、語義標籤或其他條件來指導生成過程。
- 使用 CLIP（Contrastive Language–Image Pretraining）嵌入來實現文本到圖像生成。
擴展性與開放性：
- 提供開放源代碼，便於研究者和開發者進一步開發和改進。

AyaAbout 3 min

簡介

擴散模型（Diffusion Models）是一種基於概率的生成模型，其主要思想是通過模擬數據逐漸添加噪聲的過程（稱為前向擴散），並訓練一個模型來學習如何從噪聲還原數據（稱為反向生成）。擴散模型在圖像生成、視頻生成和其他數據生成任務中取得了非常優秀的效果。

diffusion-process

擴散模型的理論基礎可以追溯到以下經典論文：

關鍵概念

Diffusion Modeling 的關鍵概念在於，如果我們能夠建立一個學習模型，能夠學習由於噪聲而導致的信息系統性衰減，那麼就應該能夠反轉這個過程，從噪聲中恢復信息。這個概念與 VAE 相似，它嘗試通過首先將數據投影到潛在空間，然後將其恢復到初始狀態來優化目標函數。然而，系統的目標不是學習數據分佈，而是在 Markov 鏈中建模一系列噪聲分佈，並通過分層方式來解碼數據，從而撤消/消除數據中的噪聲。

AyaAbout 5 min