課程簡介
機器學習簡介
- 機器學習的類型——監督學習與非監督學習
- 從統計學習到機器學習
- 數據挖掘流程:業務理解、數據準備、建模、部署
- 爲任務選擇合適的算法
- 過擬合與偏差-方差權衡
Python與機器學習庫概述
- 爲什麼使用編程語言進行機器學習
- 在R和Python之間選擇
- Python速成課程與Jupyter Notebooks
- Python庫:pandas、NumPy、scikit-learn、matplotlib、seaborn
測試與評估機器學習算法
- 泛化、過擬合與模型驗證
- 評估策略:保留法、交叉驗證、自助法
- 迴歸評估指標:ME、MSE、RMSE、MAPE
- 分類評估指標:準確率、混淆矩陣、不平衡類別
- 模型性能可視化:利潤曲線、ROC曲線、提升曲線
- 模型選擇與網格搜索調優
數據準備
- 在Python中導入與存儲數據
- 探索性分析與摘要統計
- 處理缺失值與異常值
- 標準化、歸一化與轉換
- 定性數據重編碼與pandas數據整理
分類算法
- 二分類與多分類
- 邏輯迴歸與判別函數
- 樸素貝葉斯、k近鄰
- 決策樹:CART、隨機森林、Bagging、Boosting、XGBoost
- 支持向量機與核函數
- 集成學習技術
迴歸與數值預測
- 最小二乘法與變量選擇
- 正則化方法:L1、L2
- 多項式迴歸與非線性模型
- 迴歸樹與樣條
神經網絡
- 神經網絡與深度學習簡介
- 激活函數、層與反向傳播
- 多層感知機(MLP)
- 使用TensorFlow或PyTorch進行基本神經網絡建模
- 用於分類與迴歸的神經網絡
銷售預測與預測分析
- 時間序列與基於迴歸的預測
- 處理季節性與趨勢數據
- 使用機器學習技術構建銷售預測模型
- 評估預測準確性與不確定性
- 結果的業務解釋與溝通
無監督學習
- 聚類技術:k均值、k中心點、層次聚類、自組織映射(SOMs)
- 降維:主成分分析(PCA)、因子分析、奇異值分解(SVD)
- 多維尺度分析
文本挖掘
- 文本預處理與分詞
- 詞袋模型、詞幹提取與詞形還原
- 情感分析與詞頻分析
- 使用詞雲可視化文本數據
推薦系統
- 基於用戶與基於物品的協同過濾
- 設計與評估推薦引擎
關聯模式挖掘
- 頻繁項集與Apriori算法
- 購物籃分析與提升比
異常檢測
- 極值分析
- 基於距離與基於密度的方法
- 高維數據中的異常檢測
機器學習案例研究
- 理解業務問題
- 數據預處理與特徵工程
- 模型選擇與參數調優
- 評估與結果展示
- 部署
總結與下一步
最低要求
- 機器學習基本概念的知識,例如監督學習和無監督學習
- 熟悉Python編程(變量、循環、函數)
- 使用pandas或NumPy等庫進行數據處理的經驗會有幫助,但不是必需的
- 不需要有高級建模或神經網絡的經驗
受衆
- 數據科學家
- 業務分析師
- 處理數據的軟件工程師和技術專業人員
客戶評論 (2)
the ML ecosystem not only MLFlow but Optuna, hyperops, docker , docker-compose
Guillaume GAUTIER - OLEA MEDICAL
課程 - MLflow
I enjoyed participating in the Kubeflow training, which was held remotely. This training allowed me to consolidate my knowledge for AWS services, K8s, all the devOps tools around Kubeflow which are the necessary bases to properly tackle the subject. I wanted to thank Malawski Marcin for his patience and professionalism for training and advice on best practices. Malawski approaches the subject from different angles, different deployment tools Ansible, EKS kubectl, Terraform. Now I am definitely convinced that I am going into the right field of application.