曙海教學優勢
本課程,秉承二十一年積累的教學品質,以項目實現為導向,面向企事業項目實際需要,老師將會與您分享設計的全流程以及工具的綜合使用經驗、技巧。課程可定制,線上/線下/上門皆可,熱線:4008699035。
曙海培訓的課程培養了大批受企業歡迎的工程師。大批企業和曙海
建立了良好的合作關系,合作企業30萬+。曙海培訓的課程在業內有著響亮的知名度。
本課程建立在R語言基礎課程之上。本課程重在實踐,將以多個案例的形式,介紹完整的數據分析的流程,從數據模型建立到數據清洗到可視化的過程。學員在這個課程中,將學習如何使用原始數據建立分析模型,根據不同的目標使用不同的數據分析方法,并通過繪圖的方式,最終實現數據的可視化。
?
?
模塊名稱 |
課程內容 |
原始數據的探索與預處理? |
1.?度量數據集的集中程度 2.?度量數據集的分散程度 ???? 1) 極值,方差和標準差 ???? 2)標準誤和偏差系數,峰度系數 3. 創建一個數字摘要表 4. 異常值的觀測與說明 ???? 1)利用箱線圖觀測異常值并處理 ???? 2)異常值檢測的其他情況和說明 5. 缺失值的填補與處理 ???? 1)刪除缺失值或對其進行簡單填補 ???? 2)按照相關性對空缺值進行填補 |
R的數據可視化? |
1.? plot()函數和常用的圖形參數 ???? 1)設置plot()函數中的參數 ???? 2)修改散點圖的坐標并加入標注 2. 經典的基礎圖形及用途 ???? 1)線圖 ???? 2)直方圖 ???? 3)箱線圖和莖葉圖 3. 將圖形組合起來 4. 更多的高水平作圖函數 5. 更多的常用作圖命令 |
R中參數的估計和檢驗? |
1. 使用R進行點估計和區間估計 ???? 1) 簡單的點估計和區間估計 ???? 2 )估計單側置信區間 2. 與正態總體有關的參數檢驗 3. 列聯表與獨立性檢驗 4. 集中檢驗數據分布的函數 5. 對非正態總體的區間估計和檢驗 ?1)非正態總體的區間估計 ?2)非參數檢驗中的符合檢驗 ?3)非參數檢驗中的秩檢驗 |
R中的方差分析? |
1. 方差分析模型的建立 2? .單因素方差分析 ???? 1)單因素方差分析的數學思想與模型 ??? ?2)檢驗樣本是否滿足方差分析的假設條件 ???? 3)構建單因素方差分析模型 3. 多因素方差分析 ?1)多因素方差分析的數學思想與模型 ?2)不考慮交互作用的雙因素方差分析 ?3)考慮交互作用的雙因素方差分析 4. 秩檢驗和協方差分析 ?1)對控制變量應用秩檢驗方法 ??? 2)協方差分析的假設與應用 |
R中的相關分析和回歸分析? |
1. 多種相關系數的計算和檢驗 ???? 1)簡單相關系數的計算和檢驗 ?2)散步矩陣圖和偏相關系數 ?3)典型相關分析 2. 線性回歸分析及其常歸參數 ?1)對數據進行預處理 ?2)構建第一個回歸模型 ?3)修正方程并檢驗殘差 3. 使用逐步回歸篩選自變量 ?1)逐步回歸的思想與分類 ?2)構建逐步回歸模型 4. 啞變量和邏輯回歸 ?1)啞變量和邏輯回歸的思想 ?2)向線性回歸模型中納入啞變量 |
更高級的數據可視化? |
1. 基礎圖形的擴展與延伸 ?1)繪制分類散點圖并添加圖標 ?2)繪制含多種類別的密度分布圖 ?3)復合條形圖和堆棧條形圖 2. 有關多元分布函數的特殊圖形 ?1)星圖和臉譜圖 ?2)輪廓圖 ?3)調和曲線圖 3.?建立最簡單的3D圖形 4.?如何讓圖形更美觀 5.?更過的繪圖包和系統 |
R中的聚類分析和判別分析? |
1. 集中聚類分析的異同 2. 使用R實現KNN聚類 ?1)KNN算法的思想和模型 ?2)使用R實現KNN聚類 3. 使用R實現系統聚類 ?1)系統聚類的思想和模型 ?2)使用R實現系統聚類 4. 使用R實現快速聚類 ?1)快速聚類的思想和模型 ?2)使用R實現快速聚類 5. 集中判別分析模型綜述 ?1)距離判別模型 ?2)Fisher判別模型 |
R中的主成分分析和因子分析? |
1. 主成分分析的實現與應用 ?1)主成分分析的模型假設和數據處理 ?2)構造一個主成分分析模型 ?3)計算主成分的綜合得分 2. 因子分析的初次構建與完善 ?1)構造一個簡單的因子分析模型 ?2)計算因子得分并分析 3. 對因子分析模型進行修正 ?1)修改因子分析模型中的因子個數 ?2)基于主成分法和主軸因子法進行因子分析 4. 在降維分析的基礎上進行回歸分析和聚類分析 ? 1)在降維分析的基礎上進行回歸分析 ? 2)在降維分析的基礎上進行聚類分析 5. 決策樹 ? 1)C4.5算法 ? 2)CART算法 ? 3)C5.0算法 |
R中的廣義線性回歸模型? |
1. 一般的廣義線性回歸模型 ?1) 使用二次函數擬合線性回歸模型 ?2) 擬合更多的廣義線性模型 ?3) 比較線性模型的優劣 2.? Logistic線性回歸模型 1)Logistic模型的原理與構建方法 2)Logistic模型的顯著性檢驗和優勢比 3)修正被警告的Logistic模型 3. 泊松回歸分析模型 1)?擬合第一個泊松回歸模型 2)?泊松回歸模型的過散布檢驗 4. 廣義線性模型的交叉驗證 |
R中的時間序列模型? |
1. 將數據轉換為時間序列格式 1)?使用ts()函數轉換數據格式并繪制時間序列曲線 2)?使用zoo()函數轉換數據格式并繪制時間序列曲線 2. 分解時間序列并檢驗時間序列的自相關性 1)?使用經典方法分解時間序列 2)?使用STL方法分解時間序列 3. 探究時間序列的自相關性 1)?使用月圖和季度圖探究自相關性 2)?使用散點圖探究自相關性 4. 構建時間序列并預測 1)?均值預測,單純預測和漂移 2)?不考慮長期趨勢和季節波動的簡單指數平滑 3)?在指數平滑中加入長期趨勢和季節波動 4)?自回歸移動平均模型 |
R中的最優化問題? |
1. 最優化問題簡述 2. 黃金分割法 1)?黃金分割法和局部最優解 2)?使用R實現黃金分割法 3. 牛頓最優化方法 1)?牛頓方法的算法原理 2)?在一維情形下實現牛頓迭代法 3)?在多維情形下實現牛頓迭代法 4. 最快上升法 1)?利用梯度求解上升最快的相鄰點 2)?構建最快上升法函數并檢驗 5.? R中最優化函數 |
使用R繪制地理信息圖形? |
1.?繪制世界,國家,省市地圖 1)?使用map()函數繪制地圖 2)?另一種繪制地圖的方法 3)?分省市繪制地圖 2.?向地圖中添加顏色 1)?向地圖中添加顏色前的準備工作 2)?在地圖上添加顏色 3.?向地圖上添加標簽和線條 1)?向地圖中添加標簽前的準備工作 2)?在地圖上添加標簽 3)?在地圖上添加線條 4.?使用其他格式的文件優化地圖 |
使用R構建支持向量機? |
1.?構建一個簡單的支持向量機 1)?支持向量機的算法原理 2)?構建一個簡單的支持向量機 3)?使用其他核函數構建支持向量機 2.?優化支持向量機的參數 1)?優化參數degree 2)?優化參數cost 3)?優化參數gamma 3.?比較支持向量機與Logistic回歸的優劣 4.?比較支持向量機和KNN聚類算法的優劣 |
構建電影評分預測模型? |
1.?獲取數據并探索 2.?利用recommenderlab包處理數據 3.?建立模型并評估 1)?模型的選擇與建立 2)?模型之間的比較和評估 |
貝葉斯垃圾郵件過濾器模型? |
1.?貝葉斯模型中的條件概率 2.?復雜的數據預處理過程 1)?利用for循環讀入多封郵件正文 2)?利用tm包進一步轉換數據格式 3)?將TDM轉換成真正有用的數據框 3.?利用occurrece值構造分類器 1)?完成理論準備并處理測試郵件和普通郵件 2)?創建一個函數用于比較概率 |
可視化數據挖掘工具Rattle內置? |
1.?Rattle簡介及其安裝 1)?Rattle簡介 2)?Rattle安裝 2.?功能預覽 3.?數據導入 1)?導入CSC數據 2)?導入ARFF數據 3)?導入ODBC數據 4)?R Dataset—導入其他數據源 5)?導入RData File數據集 6)?導入Library數據 4.?數據探索 1)?數據總體概況 2)?數據分布探索 3)?相關性 4)?主成分 5)?交互圖 5.?數據建模 1)?聚類分析 2)?關聯規則 3)?決策樹 4)?隨機深林 6.?模型評估 1)?混淆矩陣 2)?風險圖 3)?ROC圖及相關圖表 4)?模型得分數據集 |
?
?
?