感謝您的預訂!我們的團隊成員將會盡快與您取得聯繫。
感謝您的預訂!我們的團隊成員將會盡快與您取得聯繫。
課程簡介
1.1Hadoop 概念
1.1.1HDFS的
-
HDFS的設計
命令行介面
Hadoop 檔案系統
1.1.2集群
-
簇剖析
主節點/從節點
名稱節點/數據節點
1.2數據操作
1.2.1MapReduce詳解
-
映射階段
減少階段
洗牌
1.2.2使用Map Reduce進行分析
-
使用MapReduce進行分組
使用MapReduce進行頻率分佈和排序
繪製結果(GNU Plot)
使用MapReduce的直方圖
使用MapReduce繪製散點圖
解析複雜數據集
使用MapReduce和Combiners進行計數
生成報表
1.2.3數據清理
-
文件清理
模糊字串搜索
記錄連結/重複數據刪除
轉換和排序活動日期
驗證源可靠性
修剪異常值
1.2.4提取和轉換數據
-
轉換日誌
使用 Apache Pig 進行篩選
使用 Apache Pig 進行排序
使用 Apache Pig 進行會話化
1.2.5高級聯接
-
使用MapReduce在Mapper中連接數據
使用 Apache Pig 複製聯接聯接數據
使用 Apache Pig merge join 聯接排序數據
使用 Apache Pig 傾斜聯接聯接偏斜數據
在 Apache 中使用映射端聯接 Hive
在 Apache 中使用優化的全外部連接 Hive
使用外部鍵值存儲聯接數據
1.3性能診斷與優化技術
-
地圖
調查輸入數據中的峰值
識別地圖端數據傾斜問題
映射任務輸送量
小檔
不可拆分的檔
最低要求
參與者不需要具備任何特定技能,因為培訓的重點是最終使用者在 Apache 下管理和操作數據的技能 Hadoop
21 時間:
客戶評論 (3)
I thought he did a great job of tailoring the experience to the audience. This class is mostly designed to cover data analysis with HIVE, but me and my co-worker are doing HIVE administration with no real data analytics responsibilities.
ian reif - Franchise Tax Board
Course - Data Analysis with Hive/HiveQL
Many hands-on sessions.
Jacek Pieczątka
Course - Administrator Training for Apache Hadoop
practical things of doing, also theory was served good by Ajay