課程簡介

  1. 大數據基礎
    • 大數據及其在企業中的作用
    • 企業內大數據戰略的發展階段
    • 解釋大數據整體方法的基本原理
    • 大數據平臺所需的組件
    • 大數據存儲解決方案
    • 傳統技術的侷限性
    • 數據庫類型概述
    • 大數據的四個維度
  2. 大數據對業務的影響
    • 大數據的業務重要性
    • 提取有用數據的挑戰
    • 將大數據與傳統數據集成
  3. 大數據存儲技術
    • 大數據技術概述
      • 數據存儲模型
      • Hadoop
      • Hive
      • Cassandra
      • MongoDB
    • 選擇合適的大數據技術
  4. 大數據處理
    • 從數據庫中連接和提取數據
    • 轉換和準備數據以進行處理
    • 使用Hadoop MapReduce處理分佈式數據
    • 監控和執行Hadoop MapReduce作業
    • Hadoop分佈式文件系統的構建模塊
    • Mapreduce和Yarn
    • 使用Spark處理流數據
  5. 大數據分析工具和技術
    • 使用Pig Latin語言編程Hadoop
    • 使用Hive查詢大數據
    • 使用Mahout進行數據挖掘
    • 可視化和報告工具
  6. 大數據在業務中的應用
    • 管理和確定大數據需求
    • 大數據的業務重要性
    • 爲問題選擇合適的大數據工具

數據倉庫概念

  • 什麼是數據倉庫?
  • OLTP與數據倉庫的區別
  • 數據採集
  • 數據提取
  • 數據轉換
  • 數據加載
  • 數據集市
  • 依賴與獨立數據集市
  • 數據庫設計

ETL測試概念:

  • 簡介
  • 軟件開發生命週期
  • 測試方法
  • ETL測試工作流程
  • Data stage中的ETL測試職責

大數據基礎

  • 大數據及其在企業中的作用
  • 企業內大數據戰略的發展階段
  • 解釋大數據整體方法的基本原理
  • 大數據平臺所需的組件
  • 大數據存儲解決方案
  • 傳統技術的侷限性
  • 數據庫類型概述

NoSQL數據庫

Hadoop

Map Reduce

Apache Spark

最低要求

代表們應該對存儲工具有一定的認識和經驗,以及處理大型數據集的可怕經驗

 14 時間:

人數


每位參與者的報價

客戶評論 (1)

即將到來的課程

課程分類