曙海教學(xué)優(yōu)勢
本課程,秉承二十一年積累的教學(xué)品質(zhì),以項目實現(xiàn)為導(dǎo)向,面向企事業(yè)項目實際需要,老師將會與您分享設(shè)計的全流程以及工具的綜合使用經(jīng)驗、技巧。課程可定制,線上/線下/上門皆可,熱線:4008699035。
曙海培訓(xùn)的課程培養(yǎng)了大批受企業(yè)歡迎的工程師。大批企業(yè)和曙海
建立了良好的合作關(guān)系,合作企業(yè)30萬+。曙海培訓(xùn)的課程在業(yè)內(nèi)有著響亮的知名度。
?通過培訓(xùn)您將會:
深刻理解Hadoop原理與調(diào)優(yōu)?
深刻理解Hive原理掌握程序開發(fā)?
深刻理解Hbase?掌握程序開發(fā)?
深刻理解Hadoop?日常運維管理
?
課程大綱:
Hadoop和傳統(tǒng)數(shù)據(jù)庫技術(shù)優(yōu)劣勢對比
Hadoop/Hive?對比?Oracle?在構(gòu)建數(shù)據(jù)倉庫上的優(yōu)劣勢
Hadoop?如何和傳統(tǒng)IT系統(tǒng)配合完成原來不可能的任務(wù)
Hadoop版本講解及Hadoop新舊版本使用對比
案例及實驗
Apache社區(qū)版本:Cloudera?版本、MapR版本、Intel版本、Oracle、Dell、HP版本
Hadoop的來源和動機
傳統(tǒng)大規(guī)模系統(tǒng)存在的問題?
Hadoop概述?
Hadoop分布式文件系統(tǒng)??????
MapReduce工作原理?????????
Hadoop集群剖析????????????
Hadoop生態(tài)系統(tǒng)對一種新的解決方案的需求
Hadoop的行業(yè)應(yīng)用案例分析
Hadoop在云計算和大數(shù)據(jù)的位置和關(guān)系
非結(jié)構(gòu)化數(shù)據(jù)與半結(jié)構(gòu)化數(shù)據(jù)在大數(shù)據(jù)中的應(yīng)用
案例及實驗
某銀行數(shù)據(jù)統(tǒng)一處理平臺,通過Hadoop進行系統(tǒng)優(yōu)化
某電信運營商用戶行為分析系統(tǒng)
某電力行業(yè)數(shù)據(jù)采集大數(shù)據(jù)分析案例
聯(lián)通使用Hadoop/Hbase解決3G詳單查詢問題。
Hadoop生態(tài)系統(tǒng)介紹和演示
Hadoop?HDFS?和?MapReduce?
Hadoop數(shù)據(jù)庫之HBase?
HBase架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合
Hadoop數(shù)據(jù)倉庫之Hive
Hive架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合
Hadoop數(shù)據(jù)處理腳本Pig?
Pig架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合
Hadoop數(shù)據(jù)接口Sqoop和Flume?
Sqoop和Flume架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合
Hadoop工作流引擎?Oozie
Oozie架構(gòu)及如何應(yīng)用與編程開發(fā)相結(jié)合
Hadoop生態(tài)系統(tǒng)各模塊應(yīng)用與編程開發(fā)相結(jié)合
案例及實驗
某銀行如何使用Hadoop統(tǒng)一數(shù)據(jù)平臺
手機上網(wǎng)日志分析
移動GPRS上網(wǎng)日志查詢系統(tǒng)
國家電網(wǎng)城區(qū)用電量分析
聯(lián)通不良信息檢測系統(tǒng)
電廠海量數(shù)據(jù)監(jiān)控分析系統(tǒng)
某銀行數(shù)據(jù)統(tǒng)一處理平臺
海量指紋比對系統(tǒng)
Hadoop集群調(diào)優(yōu)
選擇適合hadoop的硬件配置
Hadoop配置項優(yōu)化
Hadoop配置優(yōu)化?-?core-site.xml
Hadoop配置優(yōu)化?-?hdfs-site.xml
Hadoop配置優(yōu)化?-?mapred-site.xml
Hadoop配置優(yōu)化?-?機架感知
網(wǎng)絡(luò)帶寬參數(shù)調(diào)優(yōu)
系統(tǒng)參數(shù)調(diào)優(yōu)
配置文件管理
嚴(yán)格控制root權(quán)限
Java的GC模式
選擇正確的JDK
hadoop作業(yè)調(diào)優(yōu)
Map?side?tuning設(shè)置
Map?side設(shè)置
Linux操作系統(tǒng)優(yōu)化
其他配置和參數(shù)調(diào)優(yōu)
案例及實驗
Hadoop硬件優(yōu)化
不是所有的硬件都合適拿來直接使用
安裝調(diào)優(yōu)的第一步服務(wù)器硬件的選型的竅門
如何選擇適合業(yè)務(wù)使用的CPU
內(nèi)存越大越好嗎?設(shè)置合理的的內(nèi)存配置
連接網(wǎng)絡(luò)的選擇和優(yōu)化
高速硬盤的選擇注意事項
硬盤為什么不做raid?
設(shè)置網(wǎng)絡(luò)的注意事項
中間結(jié)果壓縮對磁盤和網(wǎng)絡(luò)的優(yōu)化
機架感知,網(wǎng)絡(luò)和磁盤IO優(yōu)化作用,確定存儲的具體位置,
內(nèi)存參數(shù),map/reduce槽位數(shù)的計算方法。
對磁盤和網(wǎng)絡(luò)的優(yōu)化
Java工具使用,jstack使用
Sun和open之間的區(qū)別,JIT編譯器的使用
inux系統(tǒng)參數(shù)調(diào)優(yōu)
Linux監(jiān)控系統(tǒng)的使用
cacti,
ganglia
常用的linux排錯工具lsof,strace,iostat,vmstat,netstat...
常見異常現(xiàn)象級處理方法
網(wǎng)卡流量導(dǎo)致連接失敗
權(quán)限錯誤
主機名IP轉(zhuǎn)換錯誤
NN與DN?namespaceID不一致
磁盤滿導(dǎo)致報錯
Jave?heap?size?OOM
Hadoop?2.0
Hadoop?1.0?存在的問題及現(xiàn)有的解決方案
Hadoop?2.0?各廠商版本對比
Apahce?and?CDH4
Hadoop?2.0?項目結(jié)構(gòu)解析
Hadoop?2.0?環(huán)境搭建
Yarn?與MapReduce的不同
Yarn?原理與架構(gòu)
Apache?YARN基本框架
Apache?YARN工作流程
Apache?YARN設(shè)計細節(jié)
MapReduce與YARN結(jié)合
如何與Yarn來結(jié)合
yarn的優(yōu)化、資源管理、優(yōu)先級管理。
Hadoop?生態(tài)系統(tǒng)解析
Hadoop?小圖檔方案
Hadoop?2.0?HDFS?運維管理
丟失block的情況分析
常見的故障排查
HDFS高級程序?qū)崙?zhàn)演練?
HDFS實戰(zhàn)-命令行等使用
HDFS命令行工具?
啟動、停止HDFS服務(wù)?
如何查看HDFS日志?
如何查看HDFS?Web控制臺?
HDFS參數(shù)配置?
案例及實驗
HDFS實戰(zhàn)-Java?API使用
Eclipse?開發(fā)環(huán)境介紹
HDFS?開發(fā)基本步驟
HDFS?Java?API詳解
Configuration
Path
FileSystem
Stream、IOUtils
Hadoop?HDFS?HA方案介紹?
Hadoop?1.0?系?HA的一些辦法
Hadoop?2.0?介紹
MapReduce高級程序?qū)崙?zhàn)演練?
使用?Hadoop?MapReduce?Streaming?編程
MapReduce流程??????????
剖析一個MapReduce程序?
基本MapReduceAPI?概念?
驅(qū)動代碼?Mapper、Reducer
Hadoop流?
API?使用Eclipse進行快速開發(fā)???????????????
新MapReduce?API?
MapReduce的優(yōu)化
MapReduce的任務(wù)調(diào)度
MapReduce編程實戰(zhàn)?
滿足解決實際數(shù)據(jù)分析問題的高級Hadoop?API
案例及實驗
Hadoop?Streaming?和?Java?MapReduce?Api?差異。
MapReduce?實現(xiàn)數(shù)據(jù)庫功能
利用Combiners來減少中間數(shù)據(jù)
編寫Partitioner來優(yōu)化負載平衡
直接訪問Hadoop分布式文件系統(tǒng)(HDFS)
Hadoop的join操作
輔助排序在Reducer方的合并
定制Writables和WritableComparables?
使用SequenceFiles和Avro文件保存二進制數(shù)據(jù)?
創(chuàng)建InputFormats?OutputFormats
Hadoop的二次排序
Hadoop的海量日志分析
在Map方的合并?
Hadoop?SQL?接口Hive?
Hive基礎(chǔ)??????????????
Hive的作用和原理說明
Hadoop倉庫和傳統(tǒng)數(shù)據(jù)倉庫的協(xié)作關(guān)系;Hive與傳統(tǒng)數(shù)據(jù)庫的對接使用
Hadoop/Hive倉庫數(shù)據(jù)數(shù)據(jù)流
Hive?Cli?的基本用法
HQL基本語法
自行編寫數(shù)據(jù)庫與Hadoop相互ETL工具的思路
案例及實驗
使用JDBC?連接Hive進行查詢和分析
使用正則表達式加載數(shù)據(jù)
HQL高級語法
編寫UDF函數(shù)
編寫UDAF自定義函數(shù)
執(zhí)行嵌套sql的優(yōu)化
Hadoop數(shù)據(jù)庫之HBase及HBase優(yōu)化??
hbase概念與架構(gòu)??????????????
hbase核心知識點
hbase安裝、部署
HBase配置優(yōu)化綜述
表設(shè)計優(yōu)化相關(guān)參數(shù)
監(jiān)控工具使用方法及注意事項
常見異常現(xiàn)象級處理方法
案例及實驗
hot?region造成讀請求瓶頸
region預(yù)劃分
Memstore合并設(shè)置的時機選擇
合并storefile策略設(shè)置技巧
Memstore?flush設(shè)置時機選擇
Hbase-env.sh、Single、multi-thread、CMS使用及參數(shù)調(diào)整
GC回收垃圾時機、GC日志打印設(shè)置
GC階段,region無法提供服務(wù)如何如何處理
Split時機控制(增大、disable)方法
CF數(shù)量多少對讀寫性能的影響
自動關(guān)閉flush的目的
?