課程簡介

===== 第01天 ===== Big Data Business Intelligence for Criminal Intelligence Analysis概述

  • 執法部門案例研究 - 預測性警務
  • 執法機構的大數據採用率以及他們如何圍繞大數據調整未來的運營 Predictive Analytics
  • 新興技術解決方案,如槍聲感測器、監控視頻和社交媒體
  • 利用大數據技術緩解資訊過載
  • 將大數據與遺留數據對接
  • 對預測分析中的使能技術有基本的瞭解
  • 數據集成和儀錶板可視化
  • 欺詐管理
  • 業務規則和欺詐檢測
  • 威脅檢測和分析
  • 大數據實施的成本效益分析

Big Data 簡介

  • 大數據的主要特徵——數量、多樣性、速度和準確性。
  • MPP(大規模並行處理)架構
  • 數據倉庫 – 靜態模式,緩慢演變的數據集
  • MPP 資料庫:Greenplum、Exadata、Teradata、Netezza、Vertica 等。
  • 基於Hadoop的解決方案 – 對數據集的結構沒有條件。
  • 典型模式:HDFS、MapReduce(crunch)、從 HDFS 檢索
  • 用於流處理的 Apache Spark
  • 批處理 - 適用於分析/非互動式
  • 卷 : CEP 流數據
  • 典型選擇 – CEP 產品(例如 Infostreams、Apama、MarkLogic 等)
  • 生產準備不足 – Storm/S4
  • NoSQL 資料庫 – (列式和鍵值):最適合作為數據倉庫/資料庫的分析輔助工具

沒有SQL個解決方案

  • KV Store - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL 資料庫 (OnDB)
  • KV 商店 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV 儲存(分層)- GT.m、快取
  • KV Store(已訂購)- TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV 快取 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元組存儲 - Gigaspaces、Coord、Apache River
  • 對象資料庫 - ZopeDB、DB40、Shoal
  • 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 廣泛的列式存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據的多樣性:大數據中的Data Cleaning問題簡介

  • RDBMS – 靜態結構/模式,不提倡敏捷、探索性環境。
  • NoSQL – 半結構化,足夠的結構來存儲數據,在存儲數據之前沒有精確的模式
  • 數據清理問題

Hadoop

  • 何時選擇 Hadoop?
  • 結構化 - 企業數據倉庫/資料庫可以存儲大量數據(有成本),但會強加結構(不利於主動探索)
  • SEMI 結構化數據 – 使用傳統解決方案 (DW/DB) 難以執行
  • 倉儲數據 = 即使在實施后也付出了巨大的努力和靜態
  • 對於各種數據和數據量,在商用硬體上處理 – HADOOP
  • 創建 Hadoop 集群所需的商品硬體

Map Reduce /HDFS 簡介

  • MapReduce – 將計算分佈在多個伺服器上
  • HDFS – 使資料在本地可用於計算過程(具有冗餘)
  • 資料 – 可以是非結構化的/無模式的(與 RDBMS 不同)
  • 開發人員有責任理解數據
  • Programming MapReduce = 使用 Java(優點/缺點),手動將數據載入到 HDFS 中

===== 第02天 ===== Big Data 生態系統 -- 構建 Big Data ETL(提取、轉換、載入)——使用哪些 Big Data 工具以及何時使用?

  • Hadoop 與其他 NoSQL 解決方案
  • 用於互動式、隨機存取資料
  • Hadoop之上的Hbase(面向列的資料庫)
  • 隨機存取資料,但施加了限制(最大 1 PB)
  • 不適合臨時分析,適合日誌記錄、計數、時間序列
  • Sqoop - 從資料庫導入到 Hive 或 HDFS(JDBC/ODBC 訪問)
  • Flume – 將數據(例如.log數據)流式傳輸到HDFS

大數據 Management 系統

  • 移動部件、計算節點啟動/失敗:ZooKeeper - 用於配置/協調/命名服務
  • 複雜的流水線/工作流:Oozie – 管理工作流、依賴項、菊花鏈
  • 部署、配置、群集管理、升級等(系統管理員):Ambari
  • 在雲中:呼嘯

Predictive Analytics -- 基於基礎技術和機器學習的商業智慧

  • 機器學習簡介
  • 學習分類技術
  • 貝葉斯預測 -- 準備訓練檔
  • 支援向量機
  • KNN p-Tree代數和垂直挖掘
  • 神經網路
  • 大數據大變數問題 -- 隨機森林(RF)
  • 大數據自動化問題 – 多模型集成射頻
  • 通過Soft10-M實現自動化
  • 文本分析工具-Treeminer
  • 敏捷學習
  • 基於智慧體的學習
  • 分散式學習
  • 預測分析開源工具簡介:R、Python、Rapidminer、Mahut

Predictive Analytics 生態系統及其在刑事情報分析中的應用

  • 技術與調查過程
  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐之星/供應商分析
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現 – 失敗、欺詐、優化
  • 發現根本原因
  • 情緒分析
  • CRM分析
  • 網路分析
  • 文本分析,用於從筆錄、證人證詞、互聯網聊天等中獲取見解。
  • 技術輔助審查
  • 欺詐分析
  • 即時分析

===== 第03天 ===== 基於 Hadoop 的即時和 Scalable 分析

  • 為什麼常見的分析演算法在 Hadoop/HDFS 中失敗
  • Apache Hama- 用於批量同步分散式計算
  • Apache SPARK-用於集群計算和即時分析
  • CMU Graphics Lab2 - 基於圖的分散式計算異步方法
  • KNN p -- Treeminer 基於代數的方法,可降低硬體運行成本

電子數據展示和取證工具

  • 基於 Big Data 的電子數據展示與舊數據 – 成本和性能的比較
  • 預測編碼和技術輔助審查 (TAR)
  • vMiner 的現場演示,用於瞭解 TAR 如何實現更快的發現
  • 通過 HDFS 更快地建立索引 – 資料速度
  • NLP(自然語言處理)——開源產品和技術
  • 外語電子取證 -- 外語處理技術

大數據 BI for Cyber Security – 獲得 360 度視圖、快速數據收集和威脅識別

  • 瞭解安全分析的基礎知識 -- 攻擊面、安全配置錯誤、主機防禦
  • 網路基礎設施 / 大型數據管道 / 用於即時分析的回應 ETL
  • 規範性與預測性 – 從元數據中修復基於規則與自動發現威脅規則

為犯罪情報分析收集不同的數據

  • 使用IoT(物聯網)作為感測器來捕獲數據
  • 利用衛星圖像進行國內監控
  • 使用監控和圖像數據進行犯罪識別
  • 其他數據收集技術 - 無人機,隨身攝像機,GPS標記系統和熱成像技術
  • 將自動數據檢索與從線人、審訊和研究中獲得的數據相結合
  • Forecasting 犯罪活動

===== 第04天 ===== Fraud Analytics 中 Big Data 中的欺詐預防 BI

  • 欺詐分析的基本分類 -- 基於規則的分析與預測分析
  • 用於欺詐模式檢測的監督式與無監督式機器學習
  • Business 商業欺詐、醫療索賠欺詐、保險欺詐、逃稅和洗錢

Social Media 分析——情報收集和分析

  • 犯罪分子如何利用Social Media來組織、招募和策劃
  • 用於提取社交媒體數據的大數據 ETL API
  • 文字、圖像、元數據和視頻
  • 來自社交媒體提要的情緒分析
  • 社交媒體提要的上下文和非上下文過濾
  • Social Media 用於整合各種社交媒體的儀錶板
  • 社交媒體資料的自動分析
  • 每個分析的現場演示將通過Treeminer工具進行

Big Data 圖像處理和視頻源分析

  • Big Data 中的影像存儲技術 -- 超過 PB 的數據儲存解決方案
  • LTFS(線性磁帶檔案系統)和 LTO(開放式線性磁帶)
  • GPFS-LTFS (General Parallel File System - Linear Tape File System) -- 用於大圖像數據的分層存儲解決方案
  • 圖像分析的基礎知識
  • 物體識別
  • 圖像分割
  • 運動跟蹤
  • 3D圖像重建

Bio指標、DNA 和下一代鑒定程式

  • 超越指紋識別和面部識別
  • 語音辨識、擊鍵(分析使用者打字模式)和 CODIS(組合 DNA 索引系統)
  • 超越DNA匹配:使用法醫DNA表型從DNA樣本構建面部

Big Data 用於快速存取各種資料和顯示的儀錶板:

  • 現有應用平臺與大數據儀錶盤的整合
  • 大數據管理
  • 大數據儀錶板案例研究:Tableau 和 Pentaho
  • 使用大數據應用程式在政府中推送基於位置的服務。
  • 跟蹤系統和管理

===== 第05天 ===== 如何證明 Big Data BI 在組織內實施的合理性:

  • 定義實施大數據的投資回報率(回報率Investment)
  • 節省分析師收集和準備數據時間的案例研究 - 提高生產力
  • 通過降低資料庫許可成本獲得收入
  • 基於位置的服務的收入收益
  • 通過預防欺詐節省成本
  • 一種集成的電子錶格方法,用於計算大數據實施的近似費用與收入收益/節省。

用 Big Data 系統替換舊數據系統的分步過程

  • Big Data 遷移路線圖
  • 在構建 Big Data 系統之前需要哪些關鍵資訊?
  • 計算數據量、速度、多樣性和準確性的不同方法有哪些
  • 如何估算數據增長
  • 案例研究

審查 Big Data 供應商並審查其產品。

  • 埃森哲
  • APTEAN(前身為 CDC Software)
  • 思科系統
  • 克勞德拉
  • 山谷
  • 電磁相容
  • GoodData公司
  • 番石榴
  • 日立數據系統
  • 霍頓工廠
  • 惠普
  • IBM公司
  • 資訊網
  • 英特爾
  • Jaspersoft的
  • Microsoft
  • MongoDB(以前稱為 10Gen)
  • MU西格瑪
  • NetApp 的
  • Opera 解決方案
  • 神諭
  • 貝爾塔霍
  • 普拉特福拉
  • Qliktech的
  • 量子
  • 機架空間
  • 革命分析
  • Salesforce的
  • 樹液
  • SAS學院
  • 西森
  • 軟體 AG/Terracotta
  • Soft10 自動化
  • Splunk的
  • 平方
  • Supermicro 超微
  • Tableau 軟體
  • Teradata的
  • 大分析思維
  • 潮汐系統
  • 樹礦工
  • VMware (EMC的一部分)

問答環節

最低要求

  • 瞭解執法流程和數據系統
  • 基本瞭解 SQL/Oracle 或關係資料庫
  • 對統計學有基本的了解(電子錶格級別)
  35 時間:
 

人數


開始於

結束於


Dates are subject to availability and take place between 09:30 and 16:30.
Open Training Courses require 5+ participants.

客戶評論 (4)

相關課程

課程分類