課程簡介

  • 简介
    • Hadoop 历史与概念
    • 生态系统
    • 发行版
    • 高层架构
    • Hadoop 常见误解
    • Hadoop 挑战(硬件/软件)
    • 实验:讨论您的 Big Data 项目与问题
  • 规划与安装
    • 选择软件与 Hadoop 发行版
    • 集群规模规划与扩展计划
    • 选择硬件与网络
    • 机架拓扑
    • 安装
    • 多租户
    • 目录结构与日志
    • 基准测试
    • 实验:集群安装与性能基准测试
  • HDFS 操作
    • 概念(水平扩展、数据复制、数据本地性、机架感知)
    • 节点与守护进程(NameNode、Secondary NameNode、HA Standby NameNode、DataNode)
    • 健康监控
    • 命令行与基于浏览器的管理
    • 添加存储、更换故障驱动器
    • 实验:熟悉 HDFS 命令行
  • 数据摄取
    • 使用 Flume 将日志与其他数据摄取到 HDFS
    • 使用 Sqoop 从 SQL 数据库导入到 HDFS,以及导回 SQL
    • Hadoop 数据仓库与 Hive
    • 集群间数据复制(distcp)
    • 使用 S3 作为 HDFS 的补充
    • 数据摄取最佳实践与架构
    • 实验:设置与使用 Flume,同样适用于 Sqoop
  • MapReduce 操作与管理
    • MapReduce 之前的并行计算:比较 HPC 与 Hadoop 管理
    • MapReduce 集群负载
    • 节点与守护进程(JobTracker、TaskTracker)
    • MapReduce 用户界面浏览
    • MapReduce 配置
    • 作业配置
    • MapReduce 优化
    • MapReduce 防错:程序员须知
    • 实验:运行 MapReduce 示例
  • YARN:新架构与新功能
    • YARN 设计目标与实现架构
    • 新角色:ResourceManager、NodeManager、Application Master
    • 安装 YARN
    • YARN 下的作业调度
    • 实验:研究作业调度
  • 高级主题
    • 硬件监控
    • 集群监控
    • 添加与移除服务器,升级 Hadoop
    • 备份、恢复与业务连续性规划
    • Oozie 作业工作流
    • Hadoop 高可用性(HA)
    • Hadoop 联邦
    • 使用 Kerberos 保护集群
    • 实验:设置监控
  • 可选轨道
    • Cloudera Manager 用于集群管理、监控与日常任务;安装与使用。在此轨道中,所有练习与实验均在 Cloudera 发行版环境(CDH5)中进行。
    • Ambari 用于集群管理、监控与日常任务;安装与使用。在此轨道中,所有练习与实验均在 Ambari 集群管理器与 Hortonworks 数据平台(HDP 2.0)中进行。

最低要求

  • 熟悉基本的Linux系统管理
  • 具备基本的脚本编写技能

不需要具备Hadoop和分布式计算的知识,课程中会介绍并解释这些内容。

实验环境

零安装:无需在学生机器上安装hadoop软件!将为学生们提供一个可用的hadoop集群。

学生需要准备以下内容:

  • 一个SSH客户端(Linux和Mac系统已自带ssh客户端,Windows系统推荐使用Putty)
  • 一个用于访问集群的浏览器。推荐使用安装了FoxyProxy扩展的Firefox浏览器
 21 時間:

人數


每位參與者的報價

客戶評論 (5)

Upcoming Courses

課程分類