AI Category

MCP Server

This repository is a collection of reference implementations for the Model Context Protocol (MCP), as well as references to community built servers and additional resources.

The servers in this repository showcase the versatility and extensibility of MCP, demonstrating how it can be used to give Large Language Models (LLMs) secure, controlled access to tools and data sources. Each MCP server is implemented with either the Typescript MCP SDK or Python MCP SDK.

AyaAbout 4 min

Android SpeechRecognizer

在 Android 14（API level 34）及以上版本中，android.speech.SpeechRecognizer 提供了標準的語音識別能力，允許應用透過底層系統或指定的識別服務，將音訊輸入轉換為文字輸出。其主要功能包括：建立識別器實例、偵測系統是否支援識別、啟動/停止識別會話、取消或銷毀識別器，以及透過回呼介面接收識別結果和錯誤訊息。同時，Android 14 針對主執行緒呼叫、前台服務類型聲明等方面強化了行為約束，需要開發者註意避免 ANR 並正確配置服務類型。此外，API 在內網/雲端辨識、持續辨識及電量消耗等方面有侷限，需要根據應用場景選擇適當的實作方式。以下文件將從功能概覽、核心方法、回呼機制、權限與配置、Android 14 特性與限制五個部分進行介紹。

AyaAbout 6 min

Model Context Protocol

摘要

要點

MCP 是一個開放標準：它簡化了 AI 模型與數據源和工具的連接，無需為每個數據源構建定制整合。
靈活且安全：提供預建整合、跨 LLM 供應商的靈活性，以及強大的數據安全最佳實踐。
類似 USB-C 的設計：通過標準化協議，MCP 使 LLM 應用能夠輕鬆訪問多種外部資源。
由 Anthropic 開發：MCP 是一個開源項目，得到 Anthropic 的支持，擁有活躍的社區貢獻。

AyaAbout 7 min

Label Smoothing 整理報告

本文整理了兩篇論文中的相關內容，並重點探討 Label Smoothing 的概念、實現方式與效益。兩篇論文分別是：

AyaAbout 5 min

Density-Based Spatial Clustering of Applications with Noise (DBSCAN)

1. 簡介

DBSCAN（Density-Based Spatial Clustering of Applications with Noise）是一種基於密度的聚類算法，適用於發現具有任意形狀的聚類，並能有效處理噪聲數據點。

2. 原理

DBSCAN 使用兩個主要參數來進行聚類：

Eps（近邻半径）：決定一個點的鄰域範圍。
MinPts（最少核心為基立的點數）：在 Eps 鄰域內需要至少 MinPts 個點才被認為是核心點。

AyaAbout 2 min

Speaker Diarization 技術解析與應用

1. 引言

1.1 什麼是 Speaker Diarization？

Speaker Diarization（說話人分離）是一種語音技術，旨在自動識別並區分一段音訊中不同說話人的語音片段，通常以「Who spoke when?」為核心問題。

1.2 重要性與應用場景

會議記錄與轉錄：自動標記參與者發言時間，提高文字紀錄的可讀性。
廣播與媒體監聽：自動區分主持人與來賓。
語音助理與客服分析：提升語音分析系統的準確性。
司法與監控：從電話錄音或監聽資料中識別說話人。

AyaAbout 4 min

Speaker Verification

Speaker verification is the verifying the identity of a person from characteristics of the voice. 說話者辨識是根據聲音特徵來辨識一個人。用來回答「誰在說話？」的問題。語音辨識這個名詞可指說話者辨識或語音辨識。說話者驗證（也稱為說話者身份驗證）與識別不同，說話者識別不同於說話者分類（識別同一說話人何時說話）。

Task Introduction

Speaker Recognition / Identification
- 語者識別
- 一段語音是誰所說的
Speaker Verification
- 語者驗證
- 兩段語音是否為同一人所說
Speaker Diarization
- 語者分段標記
- 在一段語音中，誰在何時說話

AyaAbout 2 min

Voice activity detection

語音活動檢測（VAD，Voice Activity Detection）是語音處理中的一個關鍵技術，用於檢測音頻信號中是否包含語音或非語音（靜音或噪音）部分。VAD 被廣泛應用於語音識別、語音通信、語音增強等領域，可以幫助提高系統的效能，減少不必要的計算負擔。

VAD 的工作原理

VAD 的核心目的是區分語音信號和非語音信號，通常依賴於音頻特徵（如音頻強度、頻譜、基頻等）進行判斷。其主要的工作步驟如下：

信號分幀：將音頻信號分為短時間幀，通常是 20ms 到 30ms。
提取特徵：從每一幀中提取語音相關的特徵，如短時能量、過零率、梅爾頻率倒譜係數（MFCC）等。
分類決策：根據提取的特徵，進行分類判斷，確定該幀是語音還是噪聲或靜音。

AyaAbout 3 min

Stable Diffusion Model

Model 有各種改進變體等等差異。

Stable Diffusion Base Model

Base Model 是不同版本的 Stable Diffusion 或其改進與變體，針對不同的應用場景、性能優化和創意需求進行設計和微調。以下是對這些模型的分類與特性差異的詳細解釋：

1. 核心版本差異

Stable Diffusion 的核心版本可以分為以下幾代，每一代都有新的改進：

1.1 SD 1.x 系列

SD 1.4: 最早公開的穩定版本，用於廣泛的文本到圖像生成。
SD 1.5: 在 1.4 基礎上進行改進，生成質量更好，噪聲消除更強。
- SD 1.5 LCM: 針對 低記憶體消耗（Low Consumption Memory） 的優化版本，適合硬件資源有限的用戶。
- SD 1.5 Hyper: 進一步加強生成細節與質感的版本，適合更高分辨率的輸出需求。

AyaAbout 5 min

ControlNet

ControlNet is a neural network structure to control diffusion models by adding extra conditions.

ControlNet for Stable Diffusion WebUI

sd-webui-controlnet

This extension is for AUTOMATIC1111's Stable Diffusion web UI, allows the Web UI to add ControlNet to the original Stable Diffusion model to generate images. The addition is on-the-fly, the merging is not required.

AyaAbout 3 min