CCA159 Data Analyst(數據分析師培訓)
課程大綱
認證須知
開課計劃
學習QQ群
常見問題
提升你的生態系統專業知識
培訓內容
> Pig、Hive 和 Impala 針對數據采集、存儲和分析而提供的功能。
> Pig、Hive 和 Impala 是如何提高典型分析任務的處理效率的。
> 執行實時、復雜的數據集查詢。
本課程是專為數據分析師、商業智能專家、開發人員、系統架構師和 數據庫管理員開發的。培訓學員需具備一定的SQL 知識水平,且基本熟悉 Linux 命令行。培訓學員至少熟悉一種腳本語言知識(例如,Bash 腳本編程、 Perl、Python 和 Ruby)將會更有幫助,但不是必需的。此外,培訓學員不需具備Apache Hadoop 知識。
課程大綱
Pig 簡介
> Pig 是什么? > Pig 的特點。 > Pig 使用案例。 > 與Pig 的交互。
Pig 基本數據分析
> PigLatin 語法。 > 加載數據。 > 簡單數據類型。 > 字段定義。 > 數據輸出。 > 架構查看。 > 數據篩選和排序。 > 常用函數。
使用 Pig 處理復雜的數據
> 數據存儲格式。 > 復合 /嵌套數據類型。 > 數據分組。 > 復雜數據內置函數。 > 遍歷分組數據。
Pig 多數據集操作
> 數據集合并技術。 > 在Pig 中聯接數據集。 > 集合運算。 > 拆分數據集。Pig 故障診斷和性能優化 > Pig 故障排除。 > 日志。> 使用 Hadoop 的Web UI。 > 數據采樣及調試。 > 性能概述。 > 了解執行計劃。 > 提高 Pig 作業性能的技巧
Hive 和 Impala 簡介
> 什么是 Hive ? > 什么是 Impala ? > 架構和數據存儲 > Hive 與傳統數據庫的比較。 > Hive 使用案例。
使用 Hive 和 Impala 進行數據查詢
> 數據庫和表。 > 基本的 Hive 和Impala 查詢語言語法。 > 數據類型。 > Hive 和Impala 查詢語法之間的差異。 > 使用 Hue 來執行查詢。 > Impala Shell 的使用。
數據管理
> 數據存儲。 > 創建數據庫和表。 > 加載數據。 > 修改數據庫和表。 > 使用視圖簡化查詢。 > 存儲查詢結果。
數據存儲和性能
> 對表進行分區。 > 選擇文件格式。 > 管理元數據。 > 控制對數據的訪問。使用 Hive 和 Impala 進行關系數據分析 > 聯接數據集。 > 常見的內置函數。 > 聚合和窗口函數。
理解、擴展和改善 Impala
> Impala 是如何執行查詢的。 > 使用用戶定義的函數擴展 Impala。 > 改善 Impala 的性能。
使用Hive分析文本和復雜數據
> Hive 中的復雜數據。 > 在Hive 中使用正則表達式。 > 情感分析和 N-Grams。 > 結論。
Hive 優化
> 了解查詢性能。 > 控制作業執行計劃。 > Bucketing(分桶)。 > 索引數據。
擴展 Hive
> SerDes。 > 基于自定義腳本的數據轉換。 > 用戶定義函數。 > 參數化查詢。
選擇最佳工具
> 比較 MapReduce、Pig、Hive、Impala 和 關系數據庫。 > 該選擇哪一個?