From Data to Decision with Big Data and Predictive Analytics培訓
聽眾
如果您試圖理解您可以訪問或想要分析網絡上可用的非結構化數據(如Twitter,鏈接等等),那麼本課程適合您。
它主要針對決策者和需要選擇哪些數據值得收集以及值得分析的人。
它不是針對人們配置解決方案,但這些人將從大局中受益。
交貨方式
在課程期間,代表們將獲得大多數開源技術的工作示例。
講座後將進行簡短的講座,參加者將進行簡單的練習
使用的內容和軟件
每次運行課程時都會更新所有使用的軟件,因此我們會檢查最新版本。
它涵蓋了從獲取,格式化,處理和分析數據的過程,以解釋如何使用機器學習自動化決策制定過程。
課程簡介
快速概覽
- 數據源
- 注意數據
- 推薦系統
- 目標 Marketing
數據類型
- 結構化與非結構化
- 靜態與流式
- 態度、行為和人口統計數據
- 數據驅動型分析與用戶驅動型分析
- 數據有效性
- 數據量、速度和種類
模型
- 建築模型
- 統計模型
- 機器學習
數據分類
- 聚類
- kGroups, k-means, 最近鄰
- 蟻群,鳥類成群結隊
預測模型
- 決策樹
- 支援向量機
- 樸素貝葉斯分類
- 神經網路
- 瑪律可夫模型
- 回歸
- 集成方法
王
- 效益/成本比
- 軟體成本
- 開發成本
- 潛在優勢
構建模型
- 資料準備 (MapReduce)
- 數據清理
- 選擇方法
- 開發模型
- 測試模型
- 模型評估
- 模型部署和集成
開源和商業軟體概述
- 選擇 R-project 包
- Python 庫
- Hadoop 和 Mahout
- 與大數據和分析相關的 Apache 專案
- 精選商業解決方案
- 與現有軟體和數據源集成
最低要求
瞭解傳統的數據管理和分析方法,如SQL、數據倉庫、商業智慧、OLAP等。瞭解基本統計和概率(均值、方差、概率、條件概率等......
Open Training Courses require 5+ participants.
From Data to Decision with Big Data and Predictive Analytics培訓 - 預訂
From Data to Decision with Big Data and Predictive Analytics培訓 - 詢問
From Data to Decision with Big Data and Predictive Analytics - 咨詢詢問
客戶評論 (2)
內容,因為我覺得它非常有趣,並認為它會對我在大學的最後一年有所説明。
Krishan - NBrown Group
Course - From Data to Decision with Big Data and Predictive Analytics
機器翻譯
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
Course - From Data to Decision with Big Data and Predictive Analytics
相關課程
Predictive AI in DevOps: Enhancing Software Delivery
14 時間:這種由講師指導的<>本地(在線或現場)實時培訓面向希望將預測性 AI 集成到其 DevOps 實踐中的中級 DevOps 專業人員。
在培訓結束時,參與者將能夠:
- 實施預測分析模型,以預測和解決 DevOps 管道中的挑戰。
- 利用 AI 驅動的工具增強監控和操作。
- 應用機器學習技術來改進軟體交付工作流程。
- 設計 AI 策略以主動解決問題和優化。
- 在 DevOps 中瞭解使用 AI 的道德考慮因素。
Introduction to Predictive AI
21 時間:這種以講師為主導的 台灣(在線或現場)實時培訓面向希望掌握預測 AI 基礎知識的初級 IT 專業人員。
在培訓結束時,參與者將能夠:
- 了解預測 AI 及其應用的核心概念。
- 收集、清理和預處理數據以進行預測分析。
- 探索和可視化數據以發現見解。
- 建立基本的統計模型進行預測。
- 評估預測模型的性能。
- 將預測性 AI 概念應用於實際場景。
Data Vault: Building a Scalable Data Warehouse
28 時間:Data Vault Modeling is a database modeling technique that provides long-term historical storage of data that originates from multiple sources. A data vault stores a single version of the facts, or "all the data, all the time". Its flexible, scalable, consistent and adaptable design encompasses the best aspects of 3rd normal form (3NF) and star schema.
In this instructor-led, live training, participants will learn how to build a Data Vault.
By the end of this training, participants will be able to:
- Understand the architecture and design concepts behind Data Vault 2.0, and its interaction with Big Data, NoSQL and AI.
- Use data vaulting techniques to enable auditing, tracing, and inspection of historical data in a data warehouse.
- Develop a consistent and repeatable ETL (Extract, Transform, Load) process.
- Build and deploy highly scalable and repeatable warehouses.
Format of the course
- Part lecture, part discussion, exercises and heavy hands-on practice
Spark Streaming with Python and Kafka
7 時間:這種由講師指導的台灣現場現場培訓針對的是希望使用Spark Streaming功能處理和分析即時數據的數據工程師,數據科學家和程式師。
在培訓結束時,參與者將能夠使用 Spark Streaming 處理實時數據流,以便在資料庫、文件系統和即時儀錶板中使用。
Confluent KSQL
7 時間:這種以講師為主導的台灣現場培訓(現場或遠端)針對的是希望在不編寫代碼的情況下實現Apache Kafka流處理的開發人員。
在培訓結束時,參與者將能夠:
- 安裝和配置 Confluent KSQL。
- 僅使用 SQL 命令(不使用 Java 或 Python 編碼)設置流處理管道。
- 完全在 SQL 中執行資料過濾、轉換、聚合、聯接、視窗化和會話化。
- 設計和部署互動式連續查詢,用於流式 ETL 和即時分析。
Apache Ignite for Developers
14 時間:這種由講師指導的台灣現場現場培訓面向希望在逐步創建示例記憶體計算專案時學習持久性和純記憶體存儲背後的原理的開發人員。
在培訓結束時,參與者將能夠:
-
使用 Ignite 實現記憶體中、磁碟上的持久性以及純分散式記憶體中資料庫。
在不將數據同步回關係資料庫的情況下實現持久性。
使用 Ignite 執行 SQL 和分散式聯接。
通過使用 RAM 作為存儲,將數據移動到更靠近 CPU 的位置來提高性能。
將數據集分佈在集群中,以實現水準可擴展性。
將 Ignite 與 RDBMS、NoSQL、Hadoop 和機器學習處理器集成。
Unified Batch and Stream Processing with Apache Beam
14 時間:Apache Apex: Processing Big Data-in-Motion
21 時間:Apache Storm
28 時間:Apache NiFi for Administrators
21 時間:在這個由講師指導的台灣現場(現場或遠端)的現場培訓中,參與者將學習如何在現場實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流式分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務見解。
Apache NiFi for Developers
7 時間:在這個由講師指導的台灣現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用Apache NiFi開發許多演示擴展,元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同且不常見的檔案格式和數據源中提取和處理實時數據。
Apache Flink Fundamentals
28 時間:這個由講師指導的台灣 現場(遠端或遠端)的現場培訓介紹了分散式流和批處理數據處理背後的原理和方法,並引導參與者在Apache Flink中創建實時數據流應用程式。
在培訓結束時,參與者將能夠:
-
設置用於開發數據分析應用程式的環境。
瞭解 Apache Flink 的 圖形處理庫 (Gelly) 是如何工作的。
打包、執行和監控基於 Flink 的容錯數據流應用程式。
管理各種工作負載。
執行高級分析。
設置多節點 Flink 集群。
衡量和優化性能。
將 Flink 與不同的 Big Data 系統集成。
將 Flink 的能力與其他大數據處理框架進行比較。
Python and Spark for Big Data (PySpark)
21 時間:Python is a high-level programming language famous for its clear syntax and code readibility. Spark is a data processing engine used in querying, analyzing, and transforming big data. PySpark allows users to interface Spark with Python.
In this instructor-led, live training, participants will learn how to use Python and Spark together to analyze big data as they work on hands-on exercises.
By the end of this training, participants will be able to:
- Learn how to use Spark with Python to analyze Big Data.
- Work on exercises that mimic real world cases.
- Use different tools and techniques for big data analysis using PySpark.
Format of the course
- Part lecture, part discussion, exercises and heavy hands-on practice
Introduction to Graph Computing
28 時間:Many real world problems can be described in terms of graphs. For example, the Web graph, the social network graph, the train network graph and the language graph. These graphs tend to be extremely large; processing them requires a specialized set of tools and processes -- these tools and processes can be referred to as Graph Computing (also known as Graph Analytics).
In this instructor-led, live training, participants will learn about the technology offerings and implementation approaches for processing graph data. The aim is to identify real-world objects, their characteristics and relationships, then model these relationships and process them as data using a Graph Computing (also known as Graph Analytics and Distributed Graph Processing) approach. We start with a broad overview and narrow in on specific tools as we step through a series of case studies, hands-on exercises and live deployments.
By the end of this training, participants will be able to:
- Understand how graph data is persisted and traversed.
- Select the best framework for a given task (from graph databases to batch processing frameworks.)
- Implement Hadoop, Spark, GraphX and Pregel to carry out graph computing across many machines in parallel.
- View real-world big data problems in terms of graphs, processes and traversals.
Format of the course
- Part lecture, part discussion, exercises and heavy hands-on practice
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員