聯繫我們

課程簡介

音訊分類基礎

  • 聲音事件類型:環境聲、機械聲、人為聲
  • 應用場景概覽:監視、監測、自動化
  • 音訊分類、偵測與分割的區別

音訊資料與特徵提取

  • 音訊檔案類型與格式
  • 取樣率、視窗處理、框架大小的考量
  • 提取MFCC、音高特徵、Mel語圖

數據準備與標註

  • UrbanSound8K、ESC-50及自訂資料集
  • 聲音事件標籤與時間邊界標註
  • 平衡數據集與音訊增強

建構音訊分類模型

  • 使用卷積神經網路(CNN)處理音訊
  • 模型輸入:原始波形與特徵的對比
  • 損失函數、評估指標與過擬合問題

事件偵測與時間定位

  • 基於幀和區段的偵測策略
  • 使用閾值和平滑技術處理後偵測結果
  • 在音訊時間軸上可視化預測結果

進階主題與即時處理

  • 低數據場景下的遷移學習
  • 使用TensorFlow Lite或ONNX部署模型
  • 串流音訊處理與延遲考量

專案開發與應用場景

  • 設計完整流程:從資料攝取到分類
  • 為監視、品質控制或監測開發概念驗證原型
  • 記錄日誌、警報設定,並與儀表板或API整合

總結與下一步

最低要求

  • 理解機器學習概念與模型訓練
  • 具備Python程式設計和資料預處理經驗
  • 熟悉數位音訊基礎知識

目標受眾

  • 數據科學家
  • 機器學習工程師
  • 音訊信號處理領域的研究人員與開發者
 21 小時

人數


每位參與者的報價

即將到來的課程

課程分類