感謝您的預訂!我們的團隊成員將會盡快與您取得聯繫。
感謝您的預訂!我們的團隊成員將會盡快與您取得聯繫。
課程簡介
每節課為2小時
第 1 天:第 1 節:業務概述,為什麼在 Govt.
- 美國國立衛生研究院、美國能源部的案例研究
- 政府機構的大數據適應率,以及他們如何圍繞大數據調整未來的運營Predictive Analytics
- 在國防部、國家安全局、美國國稅局、美國農業部等廣泛的應用領域。
- 將大數據與遺留數據對接
- 對預測分析中的使能技術有基本的瞭解
- 數據集成和儀錶板可視化
- 欺詐管理
- 業務規則/欺詐檢測生成
- 威脅檢測和分析
- 大數據實施的成本效益分析
第一天:第二節:Big Data-1介紹
- 大數據的主要特徵——數量、種類、速度和準確性。卷的 MPP 體系結構。
- 數據倉庫 – 靜態模式,緩慢演變的數據集
- MPP 資料庫,如 Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- 基於Hadoop的解決方案 – 對數據集的結構沒有條件。
- 典型模式:HDFS、MapReduce(crunch)、從 HDFS 檢索
- 批處理 - 適用於分析/非互動式
- 卷 : CEP 流數據
- 典型選擇 – CEP 產品(例如 Infostreams、Apama、MarkLogic 等)
- 生產準備不足 – Storm/S4
- NoSQL 資料庫 – (列式和鍵值):最適合作為數據倉庫/資料庫的分析輔助工具
第 1 天:第 -3 節:Big Data-2 簡介
否SQL個解決方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 資料庫 (OnDB)
- KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV 儲存(分層)- GT.m、快取
- KV Store(已訂購)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV 快取 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- 元組存儲 - Gigaspaces、Coord、Apache River
- 對象資料庫 - ZopeDB、DB40、Shoal
- 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 廣泛的列式存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
數據的種類:大數據中的Data Cleaning問題簡介
- RDBMS – 靜態結構/模式,不提倡敏捷、探索性環境。
- NoSQL – 半結構化的,足夠的結構來存儲數據,在存儲數據之前沒有精確的模式
- 數據清理問題
第一天:第四節:大數據介紹-3:Hadoop
- 何時選擇 Hadoop?
- 結構化 - 企業數據倉庫/資料庫可以存儲大量數據(有成本),但會強加結構(不利於主動探索)
- SEMI 結構化數據 – 傳統解決方案 (DW/DB) 難以實現
- 倉儲數據 = 即使在實施后也付出了巨大的努力和靜態
- 對於各種數據和數據量,在商用硬體上處理 – HADOOP
- 創建 Hadoop 集群所需的商品硬體
Map Reduce /HDFS 簡介
- MapReduce – 將計算分佈在多個伺服器上
- HDFS – 使資料在本地可用於計算過程(具有冗餘)
- 資料 – 可以是非結構化的/無模式的(與 RDBMS 不同)
- 開發人員有責任理解數據
- Programming MapReduce = 使用 Java(優點/缺點),手動將數據載入到 HDFS 中
第 2 天:第 1 節:Big Data 生態系統建設 Big Data ETL:Big Data 工具的世界——使用哪一個以及何時使用?
- Hadoop 與其他 NoSQL 解決方案
- 用於互動式、隨機存取資料
- Hadoop之上的Hbase(面向列的資料庫)
- 隨機存取資料,但施加了限制(最大 1 PB)
- 不適合臨時分析,適合日誌記錄、計數、時間序列
- Sqoop - 從資料庫導入到 Hive 或 HDFS(JDBC/ODBC 訪問)
- Flume – 將數據(例如.log數據)流式傳輸到HDFS
第2天:第二節:大數據Management系統
- 移動部件、計算節點啟動/失敗:ZooKeeper - 用於配置/協調/命名服務
- 複雜的流水線/工作流:Oozie – 管理工作流、依賴項、菊花鏈
- 部署、配置、群集管理、升級等(系統管理員):Ambari
- 在雲中:呼嘯
第 2 天:第 3 節:Business Intelligence 中的預測分析 -1:基礎技術和基於機器學習的 BI:
- 機器學習簡介
- 學習分類技術
- 貝葉斯預測準備訓練檔
- 支援向量機
- KNN p-Tree代數和垂直挖掘
- 神經網路
- Big Data 大變數問題 -隨機森林 (RF)
- Big Data 自動化問題 – 多模型集成射頻
- 通過Soft10-M實現自動化
- 文本分析工具-Treeminer
- 敏捷學習
- 基於智慧體的學習
- 分散式學習
- 用於預測分析的開源工具簡介:R、Rapidminer、Mahut
第2天:第4節預測分析生態系統2:Govt 中常見的預測分析問題。
- 洞察分析
- 可視化分析
- 結構化預測分析
- 非結構化預測分析
- 威脅/欺詐之星/供應商分析
- 推薦引擎
- 模式檢測
- 規則/場景發現 - 失敗、欺詐、優化
- 發現根本原因
- 情緒分析
- CRM分析
- 網路分析
- 文本分析
- 技術輔助審查
- 欺詐分析
- 即時分析
第3天:Sesion-1:即時和Scala在Hadoop上變得分析
- 為什麼常見的分析演算法在 Hadoop/HDFS 中失敗
- Apache Hama- 用於批量同步分散式計算
- Apache SPARK-用於即時分析的集群計算
- CMU Graphics Lab2 - 基於圖的分散式計算異步方法
- Treeminer 基於 KNN p-Algebra 的方法可降低硬體運營成本
第3天:第2節:電子發現和取證工具
- 基於 Big Data 的電子數據展示與舊數據 – 成本和性能的比較
- 預測編碼和技術輔助審查 (TAR)
- Tar 產品 (vMiner) 的現場演示,瞭解 TAR 如何工作以加快發現速度
- 通過 HDFS 更快地建立索引 – 資料速度
- NLP 或自然語言處理 – 各種技術和開源產品
- 外語電子取證 - 外語處理技術
第 3 天:第 3 節:大數據 BI for Cyber Security – 瞭解從快速數據收集到威脅識別的整個 360 度視圖
- 瞭解安全分析的基礎知識 - 攻擊面、安全配置錯誤、主機防禦
- 網路基礎設施/大型數據管道/用於即時分析的回應 ETL
- 規範性與預測性 – 從元數據中修復基於規則與自動發現威脅規則
第3天:第4節:Big Data在美國農業部:在農業中的應用
- 基於農業感測器的IoT(物聯網)簡介Big Data和控制
- 衛星成像簡介及其在農業中的應用
- 集成感測器和圖像數據,用於土壤肥力、栽培建議和預測
- 農業保險和 Big Data
- 作物損失預測
第 4 天:第 1 節:Govt-Fraud 分析中來自大數據的欺詐預防 BI:
- 欺詐分析的基本分類 - 基於規則的分析與預測分析
- 用於欺詐模式檢測的監督式與無監督式機器學習
- 供應商欺詐/項目多收費用
- Medicare 和 Medicaid 欺詐 - 用於索賠處理的欺詐檢測技術
- 差旅報銷欺詐
- 國稅局退稅欺詐
- 只要有數據,就會提供案例研究和現場演示。
第 4 天:第 2 節:Social Media 分析 - 情報收集和分析
- 用於提取社交媒體數據的大數據 ETL API
- 文字、圖像、元數據和視頻
- 來自社交媒體提要的情緒分析
- 社交媒體提要的上下文和非上下文過濾
- Social Media 用於整合各種社交媒體的儀錶板
- 社交媒體資料的自動分析
- 每個分析的現場演示將通過Treeminer工具提供。
第4天:第3節:Big Data 圖像處理和視頻饋送分析
- Big Data 中的圖像存儲技術 - 超過 PB 的數據的儲存解決方案
- LTFS 和 LTO
- GPFS-LTFS(大圖像資料分層儲存解決方案)
- 圖像分析的基礎
- 物體識別
- 圖像分割
- 運動跟蹤
- 3D圖像重建
第 4 天:第 4 節:Big Data NIH 中的應用:
- Bio-資訊學的新興領域
- 元基因組學和大數據挖掘問題
- 藥物基因組學、代謝組學和蛋白質組學的大數據預測分析
- 基因組學下游流程中的大數據
- 大數據預測分析在公共衛生中的應用
Big Data 用於快速存取各種資料和顯示的儀錶板:
- 現有應用平臺與大數據儀錶盤的整合
- 大數據管理
- 大數據儀錶板案例研究:Tableau 和 Pentaho
- 使用大數據應用程式在政府中推送基於位置的服務。
- 跟蹤系統和管理
第 5 天:第 1 節:如何證明 Big Data BI 在組織內實施的合理性:
- 定義 Big Data 實施的 ROI
- 節省分析師收集和準備數據時間的案例研究 - 提高生產力
- 通過節省許可資料庫成本獲得收入的案例研究
- 基於位置的服務的收入收益
- 從欺詐預防中節省成本
- 一種集成的電子錶格方法,用於計算 Big Data 實施的近似費用與收入收益/節省。
第 5 天:第 2 節:將遺留數據系統替換為 Big Data 系統的分步過程:
- 了解實用 Big Data 遷移路線圖
- 在構建 Big Data 實現之前需要哪些重要資訊
- 計算數據量、速度、多樣性和準確性的不同方法有哪些
- 如何估算數據增長
- 案例研究
第 5 天:第 4 節:審查 Big Data 供應商並審查他們的產品。問答環節:
- 埃森哲
- APTEAN(前身為 CDC Software)
- 思科系統
- 克勞德拉
- 山谷
- 電磁相容
- GoodData公司
- 番石榴
- 日立數據系統
- 霍頓工廠
- 惠普
- IBM公司
- 資訊網
- 英特爾
- Jaspersoft的
- Microsoft
- MongoDB(以前稱為 10Gen)
- MU西格瑪
- NetApp 的
- Opera 解決方案
- 神諭
- 貝爾塔霍
- 普拉特福拉
- Qliktech的
- 量子
- 機架空間
- 革命分析
- Salesforce的
- 樹液
- SAS學院
- 西森
- 軟體 AG/Terracotta
- Soft10 自動化
- Splunk的
- 平方
- Supermicro 超微
- Tableau 軟體
- Teradata的
- 大分析思維
- 潮汐系統
- 樹礦工
- VMware (EMC 的一部分)
最低要求
- 在其領域內瞭解政府業務運營和數據系統的基本知識
- 基本瞭解 SQL/Oracle 或關係資料庫
- 基本瞭解 Statistics(電子表格級別)
35 時間:
客戶評論 (4)
培訓師(奧古斯丁)的口語技巧和人性化的一面。
Jeremy Chicon - TE Connectivity
Course - NB-IoT for Developers
機器翻譯
清晰的解釋和好的例子,這樣我就可以與我自己的工作聯繫起來。
Elaine Vermeulen - Sandoz BV
Course - Alteryx for Developers
機器翻譯
I enjoyed the exercises session the most as I get to understand how to apply. Would definitely enjoyed it more if there are more combination exercises :)
Joan Ng
Course - Data Preparation with Alteryx
Use cases were awesome! and Ray involved each and every one of us in each use case.