課程簡介

1.1Hadoop 概念

1.1.1HDFS的

    HDFS的設計 命令行介面 Hadoop 檔案系統

1.1.2集群

    簇剖析 主節點/從節點 名稱節點/數據節點

1.2數據操作

1.2.1MapReduce詳解

    映射階段 減少階段 洗牌

1.2.2使用Map Reduce進行分析

    使用MapReduce進行分組 使用MapReduce進行頻率分佈和排序 繪製結果(GNU Plot) 使用MapReduce的直方圖 使用MapReduce繪製散點圖 解析複雜數據集 使用MapReduce和Combiners進行計數 生成報表

 

1.2.3數據清理

    文件清理 模糊字串搜索 記錄連結/重複數據刪除 轉換和排序活動日期 驗證源可靠性 修剪異常值

1.2.4提取和轉換數據

    轉換日誌 使用 Apache Pig 進行篩選 使用 Apache Pig 進行排序 使用 Apache Pig 進行會話化

1.2.5高級聯接

    使用MapReduce在Mapper中連接數據 使用 Apache Pig 複製聯接聯接數據 使用 Apache Pig merge join 聯接排序數據 使用 Apache Pig 傾斜聯接聯接偏斜數據 在 Apache 中使用映射端聯接 Hive 在 Apache 中使用優化的全外部連接 Hive 使用外部鍵值存儲聯接數據

1.3性能診斷與優化技術

    地圖 調查輸入數據中的峰值 識別地圖端數據傾斜問題 映射任務輸送量 小檔 不可拆分的檔
減少 減速器太少或太多
  • 減少端數據傾斜問題
  • 降低任務輸送量
  • 緩慢隨機播放和排序
  • 競爭作業和計劃程式限制
  • 堆疊轉儲和未優化的代碼
  • 硬體故障
  • CPU 爭用
  • 任務 提取和可視化任務執行時間
  • 分析地圖並減少任務
  • 避免使用減速機
  • 篩選器和投影
  • 使用合路器
  • 使用比較器進行快速分揀
  • 收集傾斜數據
  • 減少偏斜緩解
  • 最低要求

    參與者不需要具備任何特定技能,因為培訓的重點是最終使用者在 Apache 下管理和操作數據的技能 Hadoop

      21 時間:
     

    人數


    開始於

    結束於


    Dates are subject to availability and take place between 09:30 and 16:30.
    Open Training Courses require 5+ participants.

    客戶評論 (3)

    相關課程

    課程分類