課程簡介

機器學習簡介

  • 機器學習的類型——監督學習與非監督學習
  • 從統計學習到機器學習
  • 數據挖掘流程:業務理解、數據準備、建模、部署
  • 爲任務選擇合適的算法
  • 過擬合與偏差-方差權衡

Python與機器學習庫概述

  • 爲什麼使用編程語言進行機器學習
  • 在R和Python之間選擇
  • Python速成課程與Jupyter Notebooks
  • Python庫:pandas、NumPy、scikit-learn、matplotlib、seaborn

測試與評估機器學習算法

  • 泛化、過擬合與模型驗證
  • 評估策略:保留法、交叉驗證、自助法
  • 迴歸評估指標:ME、MSE、RMSE、MAPE
  • 分類評估指標:準確率、混淆矩陣、不平衡類別
  • 模型性能可視化:利潤曲線、ROC曲線、提升曲線
  • 模型選擇與網格搜索調優

數據準備

  • 在Python中導入與存儲數據
  • 探索性分析與摘要統計
  • 處理缺失值與異常值
  • 標準化、歸一化與轉換
  • 定性數據重編碼與pandas數據整理

分類算法

  • 二分類與多分類
  • 邏輯迴歸與判別函數
  • 樸素貝葉斯、k近鄰
  • 決策樹:CART、隨機森林、Bagging、Boosting、XGBoost
  • 支持向量機與核函數
  • 集成學習技術

迴歸與數值預測

  • 最小二乘法與變量選擇
  • 正則化方法:L1、L2
  • 多項式迴歸與非線性模型
  • 迴歸樹與樣條

神經網絡

  • 神經網絡與深度學習簡介
  • 激活函數、層與反向傳播
  • 多層感知機(MLP)
  • 使用TensorFlow或PyTorch進行基本神經網絡建模
  • 用於分類與迴歸的神經網絡

銷售預測與預測分析

  • 時間序列與基於迴歸的預測
  • 處理季節性與趨勢數據
  • 使用機器學習技術構建銷售預測模型
  • 評估預測準確性與不確定性
  • 結果的業務解釋與溝通

無監督學習

  • 聚類技術:k均值、k中心點、層次聚類、自組織映射(SOMs)
  • 降維:主成分分析(PCA)、因子分析、奇異值分解(SVD)
  • 多維尺度分析

文本挖掘

  • 文本預處理與分詞
  • 詞袋模型、詞幹提取與詞形還原
  • 情感分析與詞頻分析
  • 使用詞雲可視化文本數據

推薦系統

  • 基於用戶與基於物品的協同過濾
  • 設計與評估推薦引擎

關聯模式挖掘

  • 頻繁項集與Apriori算法
  • 購物籃分析與提升比

異常檢測

  • 極值分析
  • 基於距離與基於密度的方法
  • 高維數據中的異常檢測

機器學習案例研究

  • 理解業務問題
  • 數據預處理與特徵工程
  • 模型選擇與參數調優
  • 評估與結果展示
  • 部署

總結與下一步

最低要求

  • 機器學習基本概念的知識,例如監督學習和無監督學習
  • 熟悉Python編程(變量、循環、函數)
  • 使用pandas或NumPy等庫進行數據處理的經驗會有幫助,但不是必需的
  • 不需要有高級建模或神經網絡的經驗

受衆

  • 數據科學家
  • 業務分析師
  • 處理數據的軟件工程師和技術專業人員
 28 時間:

人數


每位參與者的報價

客戶評論 (2)

即將到來的課程

課程分類