Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
1.1Hadoop 概念
1.1.1HDFS的
-
HDFS的設計
命令行介面
Hadoop 檔案系統
1.1.2集群
-
簇剖析
主節點/從節點
名稱節點/數據節點
1.2數據操作
1.2.1MapReduce詳解
-
映射階段
減少階段
洗牌
1.2.2使用Map Reduce進行分析
-
使用MapReduce進行分組
使用MapReduce進行頻率分佈和排序
繪製結果(GNU Plot)
使用MapReduce的直方圖
使用MapReduce繪製散點圖
解析複雜數據集
使用MapReduce和Combiners進行計數
生成報表
1.2.3數據清理
-
文件清理
模糊字串搜索
記錄連結/重複數據刪除
轉換和排序活動日期
驗證源可靠性
修剪異常值
1.2.4提取和轉換數據
-
轉換日誌
使用 Apache Pig 進行篩選
使用 Apache Pig 進行排序
使用 Apache Pig 進行會話化
1.2.5高級聯接
-
使用MapReduce在Mapper中連接數據
使用 Apache Pig 複製聯接聯接數據
使用 Apache Pig merge join 聯接排序數據
使用 Apache Pig 傾斜聯接聯接偏斜數據
在 Apache 中使用映射端聯接 Hive
在 Apache 中使用優化的全外部連接 Hive
使用外部鍵值存儲聯接數據
1.3性能診斷與優化技術
-
地圖
調查輸入數據中的峰值
識別地圖端數據傾斜問題
映射任務輸送量
小檔
不可拆分的檔
最低要求
參與者不需要具備任何特定技能,因為培訓的重點是最終使用者在 Apache 下管理和操作數據的技能 Hadoop
21 時間:
客戶評論 (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Course - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Course - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay