聯繫我們

課程簡介

語音辨識技術概覽

  • 語音辨識的歷史與演進。
  • 聲學模型、語言模型與解碼過程。
  • 現代架構:RNNs、transformers 與 Whisper。

音訊預處理與轉錄基礎

  • 處理音訊格式與取樣率。
  • 音訊的清洗、裁剪與分段。
  • 從音訊生成文字:即時與批次處理之比較。

Whisper 與其他 API 實作

  • 安裝與使用 OpenAI Whisper。
  • 呼叫雲端 API(Google、Azure)進行轉錄。
  • 比較效能、延遲時間與成本。

語言、口音與領域適應

  • 處理多語言與不同口音。
  • 客製化詞彙與噪音容忍度。
  • 法律、醫療或專業技術語言的處理。

輸出格式化與整合

  • 加入時間戳記、標點符號與說話者標籤。
  • 匯出至文字、SRT 或 JSON 格式。
  • 將轉錄結果整合至應用程式或資料庫。

案例實作實驗室

  • 轉錄會議、訪談或廣播節目。
  • 語音到文字的指令系統。
  • 視訊或音訊串流的即時字幕。

評估、限制與倫理

  • 準確率指標與模型基準測試。
  • 語音模型中的偏見與公平性問題。
  • 隱私與合規考量。

總結與下一步

最低要求

  • 具備一般人工智慧與機器學習概念的理解。
  • 熟悉音訊或媒體檔案格式及工具。

目標受眾

  • 處理語音資料的資料科學家與 AI 工程師。
  • 開發轉錄應用程式的軟體開發人員。
  • 探索語音辨識以實現自動化的組織。
 14 小時

人數


每位參與者的報價

即將到來的課程

課程分類