課程簡介

Data Science for Big Data Analytics 簡介

    Data Science 概述 大數據概述 數據結構 大數據的驅動因素和複雜性 大數據生態系統和新的分析方法 大數據中的關鍵技術 數據挖掘過程和問題 關聯模式挖掘 數據聚類 異常值檢測 數據分類

數據分析生命周期簡介

    發現 數據準備 模型規劃 模型構建 結果的介紹/Communication 操作化 練習:案例研究

從這一點 開始,大部分培訓時間(80%)將花在R和相關大數據技術的示例和練習上。

R 入門

    安裝 R 和 Rstudio R 語言的功能 R 中的物件 R 中的數據 數據操作 大數據問題 習題

開始使用 Hadoop

    安裝 Hadoop 瞭解 Hadoop 模式 HDFS的 MapReduce架構 Hadoop 相關專案概覽 用Hadoop MapReduce編寫程式 習題

將 R 和 Hadoop 與 RHadoop 集成

    R的組成部分Hadoop 安裝 RHadoop 並連接 Hadoop R的架構Hadoop Hadoop 使用 R 進行流式處理 使用 R 解決資料分析問題Hadoop 習題

預處理和準備數據

    數據準備步驟 特徵提取 數據清理 數據集成和轉換 數據縮減 – 採樣、特徵子集選擇、 降維 離散化和分檔 練習和案例研究

R 中的探索性數據分析方法

    描述統計學 探索性數據分析 可視化 – 初步步驟 可視化單個變數 檢查多個變數 評估的統計方法 假設檢驗 練習和案例研究

Data Visualization秒

    R 中的基本可視化效果 用於數據可視化的軟體包 ggplot2, lattice, plotly, lattice 在 R 中設定繪圖格式 高級圖形 習題

回歸(估計未來值)

    線性回歸 使用案例 型號說明 診斷 線性回歸問題 收縮方法、脊回歸、套索 泛化和非線性 回歸樣條曲線 局部多項式回歸 廣義加法模型 R回歸Hadoop 練習和案例研究

分類

    分類相關問題 貝葉斯複習 樸素貝葉斯 邏輯回歸 K 最近鄰 決策樹演算法 神經網路 支援向量機 分類器診斷 分類方法比較 ScalaBLE分類演算法 練習和案例研究

評估模型性能和選擇

    偏差、方差和模型複雜性 準確性與可解釋性 評估分類器 模型/演算法性能的度量 保留驗證方法 交叉驗證 使用插入符號包調整機器學習演算法 使用 Profit ROC 和 Lift 曲線可視化模型性能

集成方法

    裝袋 Random Forest秒 提高 梯度提升 練習和案例研究

支援用於分類和回歸的向量機

    最大邊距分類器 支援向量分類器 支援向量機 用於分類問題的 SVM 用於回歸問題的 SVM
練習和案例研究
  • 識別數據集中的未知分組
  • 聚類分析的特徵選擇 基於代表性的演算法:k-means、k-medoids 分層演算法:聚合和分裂方法 概率基礎演算法:EM 基於密度的演算法:DBSCAN、DENCLUE 群集驗證 高級聚類分析概念 使用R進行聚類Hadoop 練習和案例研究

      使用連結分析發現連接

    鏈路分析概念 用於分析網路的指標 Pagerank 演算法 超鏈接引發的主題 Search 鏈路預測 練習和案例研究

      關聯模式挖掘

    頻繁模式挖掘模型 Scala頻繁模式挖掘中的容量問題 蠻力演算法 Apriori 演算法 FP增長方法 候選規則評估 關聯規則的應用 驗證和測試 診斷 與 R 和 Hadoop 的關聯規則 練習和案例研究

      構建推薦引擎

    瞭解推薦系統 推薦系統中使用的數據挖掘技術 帶有 recommenderlab 軟體包的推薦系統 評估推薦系統 RHadoop的建議 練習:構建推薦引擎

      文本分析

    文本分析步驟 收集原始文字 一袋字 術語頻率 - 反向文檔頻率 確定情緒 練習和案例研究

     35 時間:

    人數



    每位參與者的報價

    客戶評論 (2)

    相關課程

    課程分類