Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
Speech Recognition 技術概述
- 語音識別的歷史與演變
- 聲學模型、語言模型與解碼
- 現代架構:RNNs、transformers 與 Whisper
音頻預處理與轉錄基礎
- 處理音頻格式與採樣率
- 清理、修剪與分段音頻
- 從音頻生成文本:實時與批量
Whisper 與其他 API 實作
- 安裝與使用 OpenAI Whisper
- 調用雲端 API(Google, Azure)進行轉錄
- 比較性能、延遲與成本
語言、口音與領域適應
- 處理多種語言與口音
- 自定義詞彙與噪音容忍度
- 法律、醫學或技術語言的處理
輸出格式與整合
- 添加時間戳、標點符號與說話者標籤
- 導出為文本、SRT 或 JSON 格式
- 將轉錄整合到 apps 或數據庫中
Use Case 實作實驗室
- 轉錄會議、訪談或播客
- 語音轉文字指令系統
- 視頻/音頻流的實時字幕
評估、限制與倫理
- 準確性指標與模型基準測試
- 語音模型中的偏見與公平性
- 隱私與合規性考量
總結與下一步
最低要求
- 對通用AI和機器學習概念的理解
- 熟悉音頻或媒體檔案格式及工具
目標受眾
- 處理語音數據的數據科學家和AI工程師
- 開發基於轉錄應用的軟件開發者
- 探索語音識別以實現自動化的組織
14 時間: