課程簡介

大數據分析的數據科學導論

  • 數據科學概述
  • 大數據概述
  • 數據結構
  • 大數據的驅動因素與複雜性
  • 大數據生態系統及新的分析方法
  • 大數據中的關鍵技術
  • 數據挖掘過程與問題
    • 關聯模式挖掘
    • 數據聚類
    • 異常檢測
    • 數據分類

數據分析生命週期導論

  • 發現
  • 數據準備
  • 模型規劃
  • 模型構建
  • 結果展示/溝通
  • 操作化
  • 練習:案例研究

從這一點開始,大部分培訓時間(80%)將用於R及相關大數據技術的示例和練習。

R入門

  • 安裝R和Rstudio
  • R語言特性
  • R中的對象
  • R中的數據
  • 數據操作
  • 大數據問題
  • 練習

Hadoop入門

  • 安裝Hadoop
  • 理解Hadoop模式
  • HDFS
  • MapReduce架構
  • Hadoop相關項目概述
  • 在Hadoop MapReduce中編寫程序
  • 練習

使用RHadoop集成R和Hadoop

  • RHadoop的組件
  • 安裝RHadoop並連接Hadoop
  • RHadoop的架構
  • 使用R進行Hadoop流處理
  • 使用RHadoop解決數據分析問題
  • 練習

數據預處理與準備

  • 數據準備步驟
  • 特徵提取
  • 數據清洗
  • 數據集成與轉換
  • 數據縮減——採樣、特徵子集選擇
  • 降維
  • 離散化與分箱
  • 練習與案例研究

R中的探索性數據分析方法

  • 描述性統計
  • 探索性數據分析
  • 可視化——初步步驟
  • 單變量可視化
  • 多變量檢查
  • 統計評估方法
  • 假設檢驗
  • 練習與案例研究

數據可視化

  • R中的基本可視化
  • 數據可視化包:ggplot2、lattice、plotly、lattice
  • 在R中格式化圖表
  • 高級圖表
  • 練習

迴歸(預測未來值)

  • 線性迴歸
  • 用例
  • 模型描述
  • 診斷
  • 線性迴歸問題
  • 收縮方法、嶺迴歸、Lasso
  • 泛化與非線性
  • 迴歸樣條
  • 局部多項式迴歸
  • 廣義加性模型
  • 使用RHadoop進行迴歸
  • 練習與案例研究

分類

  • 分類相關問題
  • 貝葉斯複習
  • 樸素貝葉斯
  • 邏輯迴歸
  • K近鄰
  • 決策樹算法
  • 神經網絡
  • 支持向量機
  • 分類器診斷
  • 分類方法比較
  • 可擴展分類算法
  • 練習與案例研究

模型性能評估與選擇

  • 偏差、方差與模型複雜性
  • 準確性與可解釋性
  • 評估分類器
  • 模型/算法性能指標
  • 保留法驗證
  • 交叉驗證
  • 使用caret包調優機器學習算法
  • 使用利潤ROC和提升曲線可視化模型性能

集成方法

  • Bagging
  • 隨機森林
  • Boosting
  • 梯度提升
  • 練習與案例研究

支持向量機用於分類與迴歸

  • 最大間隔分類器
    • 支持向量分類器
    • 支持向量機
    • 用於分類問題的SVM
    • 用於迴歸問題的SVM
  • 練習與案例研究

識別數據集中的未知分組

  • 聚類中的特徵選擇
  • 基於代表的算法:k-means、k-medoids
  • 層次算法:凝聚與分裂方法
  • 基於概率的算法:EM
  • 基於密度的算法:DBSCAN、DENCLUE
  • 聚類驗證
  • 高級聚類概念
  • 使用RHadoop進行聚類
  • 練習與案例研究

使用鏈接分析發現關聯

  • 鏈接分析概念
  • 網絡分析指標
  • PageRank算法
  • 超鏈接誘導主題搜索
  • 鏈接預測
  • 練習與案例研究

關聯模式挖掘

  • 頻繁模式挖掘模型
  • 頻繁模式挖掘中的可擴展性問題
  • 暴力算法
  • Apriori算法
  • FP增長方法
  • 候選規則評估
  • 關聯規則應用
  • 驗證與測試
  • 診斷
  • 使用R和Hadoop進行關聯規則
  • 練習與案例研究

構建推薦引擎

  • 理解推薦系統
  • 推薦系統中使用的數據挖掘技術
  • 使用recommenderlab包的推薦系統
  • 評估推薦系統
  • 使用RHadoop進行推薦
  • 練習:構建推薦引擎

文本分析

  • 文本分析步驟
  • 收集原始文本
  • 詞袋模型
  • 詞頻-逆文檔頻率
  • 情感分析
  • 練習與案例研究
 35 時間:

人數


每位參與者的報價

客戶評論 (2)

即將到來的課程

課程分類