課程簡介
-
简介
- Hadoop 历史与概念
- 生态系统
- 发行版
- 高层架构
- Hadoop 常见误解
- Hadoop 挑战(硬件/软件)
- 实验:讨论您的 Big Data 项目与问题
-
规划与安装
- 选择软件与 Hadoop 发行版
- 集群规模规划与扩展计划
- 选择硬件与网络
- 机架拓扑
- 安装
- 多租户
- 目录结构与日志
- 基准测试
- 实验:集群安装与性能基准测试
-
HDFS 操作
- 概念(水平扩展、数据复制、数据本地性、机架感知)
- 节点与守护进程(NameNode、Secondary NameNode、HA Standby NameNode、DataNode)
- 健康监控
- 命令行与基于浏览器的管理
- 添加存储、更换故障驱动器
- 实验:熟悉 HDFS 命令行
-
数据摄取
- 使用 Flume 将日志与其他数据摄取到 HDFS
- 使用 Sqoop 从 SQL 数据库导入到 HDFS,以及导回 SQL
- Hadoop 数据仓库与 Hive
- 集群间数据复制(distcp)
- 使用 S3 作为 HDFS 的补充
- 数据摄取最佳实践与架构
- 实验:设置与使用 Flume,同样适用于 Sqoop
-
MapReduce 操作与管理
- MapReduce 之前的并行计算:比较 HPC 与 Hadoop 管理
- MapReduce 集群负载
- 节点与守护进程(JobTracker、TaskTracker)
- MapReduce 用户界面浏览
- MapReduce 配置
- 作业配置
- MapReduce 优化
- MapReduce 防错:程序员须知
- 实验:运行 MapReduce 示例
-
YARN:新架构与新功能
- YARN 设计目标与实现架构
- 新角色:ResourceManager、NodeManager、Application Master
- 安装 YARN
- YARN 下的作业调度
- 实验:研究作业调度
-
高级主题
- 硬件监控
- 集群监控
- 添加与移除服务器,升级 Hadoop
- 备份、恢复与业务连续性规划
- Oozie 作业工作流
- Hadoop 高可用性(HA)
- Hadoop 联邦
- 使用 Kerberos 保护集群
- 实验:设置监控
-
可选轨道
- Cloudera Manager 用于集群管理、监控与日常任务;安装与使用。在此轨道中,所有练习与实验均在 Cloudera 发行版环境(CDH5)中进行。
- Ambari 用于集群管理、监控与日常任务;安装与使用。在此轨道中,所有练习与实验均在 Ambari 集群管理器与 Hortonworks 数据平台(HDP 2.0)中进行。
最低要求
- 熟悉基本的Linux系统管理
- 具备基本的脚本编写技能
不需要具备Hadoop和分布式计算的知识,课程中会介绍并解释这些内容。
实验环境
零安装:无需在学生机器上安装hadoop软件!将为学生们提供一个可用的hadoop集群。
学生需要准备以下内容:
- 一个SSH客户端(Linux和Mac系统已自带ssh客户端,Windows系统推荐使用Putty)
- 一个用于访问集群的浏览器。推荐使用安装了FoxyProxy扩展的Firefox浏览器
客戶評論 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay