
hadoop數(shù)據(jù)倉庫培訓
Hadoop數(shù)據(jù)倉庫概述
1.hadoop數(shù)據(jù)倉庫與傳統(tǒng)倉庫區(qū)別
2. hadoop數(shù)據(jù)倉庫架構
3. hadoop數(shù)據(jù)倉庫關鍵模塊
數(shù)據(jù)接入與存儲、數(shù)據(jù)加工,數(shù)據(jù)建模,數(shù)據(jù)分析及可視化等模塊
4. hadoop倉庫關鍵點
數(shù)據(jù)質量把控
數(shù)據(jù)模型選擇
OLAP引擎選擇
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)接入與存儲模塊
1. 數(shù)據(jù)接入模塊關鍵技術
講解sqoop,flume,kafka以及databus等常用開源技術以及它們對應的應用場景
2. 數(shù)據(jù)存儲模塊關鍵技術
講解hdfs(不同存儲格式及壓縮格式對性能的影響)、hbase、kudu、hive等開源技術以及它們對應的應用場景
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)加工模塊
數(shù)據(jù)加工模塊關鍵技術
講解spark/hive及spark streaming相關技術以及對應應用場景
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)建模
1. 1. Hadoop數(shù)據(jù)模型
涉及原始表,聚集表以及cube等
涉及元信息管理系統(tǒng)hive metastore
2. 數(shù)據(jù)模型選擇原則
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)分析
計算引擎的分類及對應應用場景
涉及hive,presto/impala以及kylin三類系統(tǒng)以及對應應用場景
Hadoop數(shù)據(jù)倉庫:數(shù)據(jù)可視化
1. 自研系統(tǒng)
C3,Echarts等
2. 商業(yè)系統(tǒng)
tableau等
Hadoop數(shù)據(jù)倉庫實例:某互聯(lián)網(wǎng)公司TB及數(shù)據(jù)倉庫構建案例
1. 項目背景
2. 系統(tǒng)架構
3. 關鍵技術點和特色