課程簡介
第 01 天
刑事情報分析中 Big Data Business Intelligence 的概述
- 來自執法部門的案例研究 - 預測性警務
- Big Data 在執法機構的採用率以及它們如何圍繞 Big Data Predictive Analytics 調整它們未來的運營
- 槍聲傳感器、監控視頻和社交媒體等新興技術解決方案
- 利用 Big Data 技術減輕信息過載
- 使用 Big Data 與舊數據接軌
- 對預測分析中啟用技術的基本了解
- Data Integration 和儀表板可視化
- 欺詐管理
- Business Rules 和欺詐檢測
- 威脅檢測和檔案測試
- Big Data 實施的成本效益分析
Big Data 簡介
- Big Data 的主要特徵 - Volume、Variety、Velocity 和 Veracity。
- MPP (Massively Parallel Processing) 架構
- Data Warehouses - 靜態架構、緩慢演變的數據集
- MPP Databases:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
- Hadoop 基於的解決方案 - 對數據集結構沒有條件。
- 典型模式:HDFS、MapReduce (crunch)、從 HDFS 獲取
- Apache Spark 用於流處理
- Batch-適合分析/非交互式
- Volume:CEP 流 Streaming 數據
- 典型選擇 - CEP 產品 (例如 Infostreams、Apama、MarkLogic 等)
- Less production ready - Storm/S4
- NoSQL Databases - (columnar 和 key-value):最適合用作數據 warehouse/database 的分析附加工具
沒有SQL個解決方案
- KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database (OnDB)
- KV Store - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV Store (分層) - GT.m、Cache
- KV Store (有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV Cache - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- Tuple Store - Gigaspaces、Coord、Apache River
- 對象 Database - ZopeDB、DB40、Shoal
- 文檔商店 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
數據的多樣性:大數據中的Data Cleaning問題簡介
- RDBMS - 靜態結構/架構,不促進敏捷、探索性環境。
- NoSQL - 半結構化,結構足夠在存儲數據之前無需精確架構即可存儲數據
- 數據清理問題
Hadoop
- 何時選擇 Hadoop?
- 結構化 - 企業數據倉庫/數據庫可以存儲大量數據 (成本高) 但會施加結構 (不利於主動探索)
- 半結構化數據 - 使用傳統解決方案 (DW/DB) 很難進行處理
- 數據倉庫 = 巨大的努力,即使在實施後也仍然是靜態的
- 對於各種各樣的數據,在商品硬件上進行壓縮 - HADOOP
- 創建 Hadoop 集群所需的商品硬件
Map Reduce /HDFS 簡介
- MapReduce - 將計算分配到多個服務器
- HDFS - 使數據在計算過程中本地可用 (具有冗餘)
- 數據 - 可以是非結構化的/無架構的 (與 RDBMS 不同)
- 開發人員負責理解數據
- Programming MapReduce = 處理 Java (優缺點)、手動加載數據到 HDFS
第 02 天
Big Data 生態系統 -- 構建 Big Data ETL (提取、轉換、加載) -- 哪些 Big Data 工具可以使用以及何時使用?
- Hadoop 與其他 NoSQL 解決方案的比較
- 對數據進行交互式、隨機訪問
- 位於 Hadoop 之上的 Hbase (列導向數據庫)
- 對數據進行隨機訪問,但施加了限制 (最大 1 PB)
- 不利於即席分析,適合日誌、計數、時間序列
- Sqoop - 從數據庫導入到 Hive 或 HDFS (JDBC/ODBC 訪問)
- Flume - 將數據流 (例如日誌數據) 引入 HDFS
大數據 Management 系統
- 搬家零件、計算節點啟動/故障:ZooKeeper - 用於配置/協調/命名服務
- 複雜的管道/工作流程:Oozie - 管理工作流程、依賴關係、雛菊鏈
- 部署、配置、集群管理、升級等 (系統管理):Ambari
- 在雲端:Whirr
Predictive Analytics -- 基於基礎技術和機器學習的商業智慧
- Machine Learning 介紹
- 學習分類技術
- 貝葉斯預測 -- 準備訓練文件
- 支持向量機
- KNN p-樹代數和垂直挖掘
- Neural Networks
- Big Data 大變量問題 -- 隨機森林 (RF)
- Big Data 自動化問題 -- 多模型集合 RF
- 通過 Soft10-M 自動化
- 文本分析工具-Treeminer
- Agile 學習
- 基於代理的學習
- 分佈式學習
- 介紹預測分析的開源工具:R、Python、Rapidminer、Mahut
Predictive Analytics 生態系統及其在刑事情報分析中的應用
- 技術和調查過程
- 洞察分析
- 可視化分析
- 結構化預測分析
- 非結構化預測分析
- 威脅/欺詐星/供應商檔案分析
- 推薦引擎
- 模式檢測
- 規則/場景發現 - 失敗、欺詐、優化
- 根本原因發現
- 情感分析
- 客戶關係管理分析
- 網絡分析
- 從錄音、證人證詞、網絡閒聊等獲取信息的文本分析
- 技術輔助審查
- 欺詐分析
- 實時分析
第 03 天
在 Hadoop 上進行實時和 Scalable 分析
- 為什麼普通的分析算法在 Hadoop/HDFS 中失敗
- Apache Hama - 用於大宗同步分佈計算
- Apache SPARK-用於集群計算和實時分析
- CMU Graphics Lab2-針對分佈式計算的圖形基準異步方法
- KNN p -- Treeminer 的一種基於代數的方法,可降低操作的硬件成本
電子數據展示和取證工具
- 針對 Big Data 與舊數據的 eDiscovery - 成本和性能的比較
- 預測編碼和技術輔助審查 (TAR)
- vMiner 的現場演示,以了解 TAR 如何促進更快的發現
- 通過 HDFS 更快地進行索引 - 數據的速度
- NLP (自然語言處理) - 開源產品和技術
- 外語的 eDiscovery -- 用於外語處理的技術
大數據 BI for Cyber Security - 獲取 360 度視圖、快速數據收集和威脅識別
- 了解安全分析的基本知識--攻擊面、安全錯誤配置、主機防禦
- 網絡基礎設施/大型數據管道/實時分析的響應 ETL
- 規範性與預測性 - 基於固定規則的與從元數據自動發現威脅規則的區別
為犯罪情報分析收集不同的數據
- 利用物聯網 (Internet of Things) 作為傳感器來捕獲數據
- 利用衛星影像進行國內監視
- 利用監控和圖像數據進行刑事識別
- 其他數據收集技術 -- 無人機、身體攝像機、GPS 標記系統和熱成像技術
- 結合自動數據檢索和從線人、訊問和研究中獲得的數據
- Forecasting 犯罪活動
第 04 天
在欺詐分析中來自 Big Data 的欺詐預防商業智慧
- 欺詐分析的基本分類 -- 基於規則的與預測分析
- 監督式和非監督式機器學習在欺詐模式檢測中的應用
- Business 對商業欺詐、醫療索賠欺詐、保險欺詐、逃稅和洗錢的影響
Social Media 分析——情報收集和分析
- Social Media 被罪犯用來組織、招募和計劃的信息
- 提取社交媒體數據的 Big Data ETL API
- 文本、圖像、元數據和視頻
- 從社交媒體提要中進行情感分析
- 對社交媒體提要進行上下文和非上下文過濾
- 整合不同社交媒體的 Social Media 儀表板
- 社交媒體檔案的自動化檔案分析
- 將通過 Treeminer 工具現場演示每個分析
Big Data 圖像處理和視頻源分析
- Big Data 中的圖像存儲技術 -- 對於超過 petabytes 的數據的存儲解決方案
- LTFS (Linear Tape File System) 和 LTO (Linear Tape Open)
- GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 大圖像數據的分層存儲解決方案
- 圖像分析的基本原則
- 物體識別
- 圖像分割
- 運動追踪
- 3-D 圖像重建
Bio指標、DNA 和下一代鑒定程式
- 超越指紋識別和面部識別
- 語音識別、擊鍵 (分析用戶的打字模式) 和 CODIS (組合 DNA 索引系統)
- 超越 DNA 匹配:利用法醫 DNA 表型技術從 DNA 樣本構建面孔
Big Data 用於快速存取各種資料和顯示的儀錶板:
- 將現有應用程序平台與 Big Data 儀表板集成
- Big Data 管理
- Big Data 儀表板的案例研究:Tableau 和 Pentaho
- 使用 Big Data 應用程序在 Govt 中推送基於位置的服務
- 跟蹤系統和管理
第 05 天
如何證明在組織內實施 Big Data BI 的合理性:
- 定義實施 Big Data 的 ROI (投資回報率)
- 收集和準備數據時節省分析師時間的案例研究 - 提高生產力
- 降低數據庫許可證成本帶來的收入增長
- 基於位置的服務帶來的收入增長
- 欺詐預防帶來的成本節省
- 計算來自 Big Data 實施的約當費用與收入增益/節省的綜合電子表格方法。
用 Big Data 系統替換舊數據系統的分步過程
- Big Data 迁移路线图
- 在設計 Big Data 系統之前,需要哪些關鍵信息?
- 計算數據的 Volume、Velocity、Variety 和 Veracity 有哪些不同方法
- 如何估算數據增長
- 案例研究
審查 Big Data 供應商並審查其產品。
- 埃克森哲
- APTEAN (前身為 CDC Software)
- Cisco 系統
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- 日立數據系統
- Hortonworks
- 惠普
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (前身為 10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS 學院
- Sisense
- 軟件 AG/Terracotta
- Soft10 自動化
- Splunk
- Sqrrl
- 超級微
- Tableau 軟件
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware (EMC 的一部分)
問答環節
最低要求
- 了解执法流程和数据系统
- 对SQL/Oracle或关系数据库有基本了解
- 对统计数据(电子表格级别)有基本了解
受众
- 具有技术背景的执法专家
客戶評論 (2)
Deepthi對我的需求非常敏感,她能夠分辨何時增加複雜性,何時應該保持克制,並採取更有條理的方法。 Deepthi真的按照我的步調工作,並確保我能夠自己使用新的功能/工具,首先給我演示,然後讓我自己重新創建這些項目,這真的有助於加深培訓。我對這次培訓的結果和Deepthi的專業水平感到非常滿意!
Deepthi - Invest Northern Ireland
Course - IBM Cognos Analytics
機器翻譯
Very clearly articulated and explained