課程簡介

Machine Learning 簡介

  • 機器學習的類型 – 監督式與非監督式
  • 從統計學習到機器學習
  • 數據挖掘工作流程:業務理解、數據準備、建模、部署
  • 為任務選擇合適的算法
  • 過擬合與偏差-方差權衡

Python 與 ML 庫概述

  • 為何使用程式語言進行機器學習
  • 在 R 和 Python 之間選擇
  • Python 速成課程與 Jupyter Notebooks
  • Python 庫:pandas、NumPy、scikit-learn、matplotlib、seaborn

測試與評估 ML 算法

  • 泛化、過擬合與模型驗證
  • 評估策略:保留法、交叉驗證、自助法
  • 回歸指標:ME、MSE、RMSE、MAPE
  • 分類指標:準確率、混淆矩陣、不平衡類別
  • 模型性能可視化:利潤曲線、ROC 曲線、提升曲線
  • 模型選擇與網格搜索調參

數據準備

  • Python 中的數據導入與存儲
  • 探索性分析與摘要統計
  • 處理缺失值與異常值
  • 標準化、正規化與轉換
  • 定性數據重新編碼與使用 pandas 進行數據整理

分類算法

  • 二分類與多分類
  • 邏輯回歸與判別函數
  • 朴素貝葉斯、k-近鄰
  • 決策樹:CART、Random Forests、Bagging、Boosting、XGBoost
  • 支持向量機與核函數
  • 集成學習技術

回歸與數值預測

  • 最小二乘法與變量選擇
  • 正則化方法:L1、L2
  • 多項式回歸與非線性模型
  • 回歸樹與樣條

Unsupervised Learning

  • 聚類技術:k-means、k-medoids、層次聚類、SOMs
  • 降維:PCA、因子分析、SVD
  • 多維尺度分析

文本挖掘

  • 文本預處理與分詞
  • 詞袋模型、詞幹提取與詞形還原
  • 情感分析與詞頻分析
  • 使用詞雲可視化文本數據

推薦系統

  • 基於用戶與基於項目的協同過濾
  • 設計與評估推薦引擎

關聯模式挖掘

  • 頻繁項集與 Apriori 算法
  • 市場籃子分析與提升比

異常檢測

  • 極值分析
  • 基於距離與基於密度的方法
  • 高維數據中的異常檢測

Machine Learning 案例研究

  • 理解業務問題
  • 數據預處理與特徵工程
  • 模型選擇與參數調優
  • 評估與結果展示
  • 部署

總結與下一步

最低要求

  • 具備統計學和線性代數的基本知識
  • 熟悉數據分析或商業智能概念
  • 建議有程式設計經驗(最好是Python或R)
  • 對學習應用機器學習於數據驅動項目感興趣

目標受眾

  • 數據分析師和科學家
  • 統計學家和研究專業人員
  • 探索機器學習工具的開發人員和IT專業人員
  • 參與數據科學或預測分析項目的任何人
 21 時間:

人數


每位參與者的報價

客戶評論 (3)

Upcoming Courses

課程分類