課程簡介

介紹

  • 數據科學流程
  • 數據科學家的角色和職責

準備開發環境

  • 庫、框架、語言和工具
  • 本地開發
  • 基於網絡的協作開發

數據收集

  • 不同類型的數據
    • 結構化
      • 本地數據庫
      • 數據庫連接器
      • 常見格式:xlxs, XML, Json, csv, ...
    • 非結構化
      • 點擊、傳感器、智能手機
      • APIs
      • 物聯網 (IoT)
      • 文檔、圖片、視頻、音頻
  • 案例研究:持續收集大量非結構化數據

數據存儲

  • 關係型數據庫
  • 非關係型數據庫
  • Hadoop: 分佈式文件系統 (HDFS)
  • Spark: 彈性分佈式數據集 (RDD)
  • 雲存儲

數據準備

  • 數據攝取、選擇、清洗和轉換
  • 確保數據質量 - 正確性、意義和安全性
  • 異常報告

用於準備、處理和分析的語言

  • R語言
    • R語言介紹
    • 數據操作、計算和圖形展示
  • Python
    • Python介紹
    • 數據操作、處理、清洗和計算

數據分析

  • 探索性分析
    • 基本統計
    • 初步可視化
    • 理解數據
  • 因果關係
  • 特徵和轉換
  • 機器學習
    • 監督學習與非監督學習
    • 何時使用何種模型
  • 自然語言處理 (NLP)

數據可視化

  • 最佳實踐
  • 爲數據選擇合適的圖表
  • 調色板
  • 提升到更高水平
    • 儀表板
    • 交互式可視化
  • 用數據講故事

總結與結論

最低要求

  • 對數據庫概念的一般理解
  • 對統計學的基本理解
 35 時間:

人數


每位參與者的報價

客戶評論 (4)

即將到來的課程

課程分類