Hive教程
Hive教程是在Hadoop分布式文件系統上使用業界流行的HiveQL,成為查詢、總結和分析數十億或萬億條記錄的專家的踏腳石。本教程使您熟悉該語言的功能和范圍,以便更好地優化和處理查詢。使用類似SQL的方言,可以使用簡單的DDL和DML命令編寫查詢,以指定或更改數據庫、表或視圖,并對其執行操作。本文將重點介紹可以在配置單元上執行的各種類型的查詢,以及后端MapReduce作業的執行計劃。
為什么我們需要學習Hive
- 作為一名數據分析師,攪動數據(干凈/不干凈)并從中獲得可操作的見解非常重要。通過使用不同的文件格式,例如:Textfile、Sequencefile、Avro、Parquet或ORC(優化的行-列),可以高效地處理各種數據</李>
- Hive就是這樣一種高級語言,它可以更快地匯總數據,并支持用戶定義的用于操作字符串、整數或日期的函數。這種SQL抽象阻止我們編寫復雜的Mapreduce作業</李>
- 臨時查詢變得很容易,并且可以對來自外部表的數據進行操作,而無需將數據存儲在HDFS中
- Hadoop分發了文件系統(HDFS),該系統管理如何跨集群存儲數據。此外,MapReduce計算模型有助于將作業分解為任務,以便跨服務器或集群進行并行處理</李>
蜂箱的應用
- 作為一個開源的數據倉庫系統,Hive在大數據分析和數據摘要中得到了應用</李>
- Hadoop開發人員也在使用ApacheHive解決Hadoop軟件包(如RHive、RHipe)的復雜分析問題。甚至Apache Mahout也支持配置單元查詢</李>
- 分區和bucketing的概念使數據能夠存儲在邏輯部分或段中,從而加快查詢響應時間</李>
Hive還支持許多數據科學應用程序,如:
- 文檔索引
- 文本挖掘
- 谷歌分析
- 情緒分析
- 預測建模
- 日志處理
- 假設檢驗
先決條件
為了學習HiveQL,SQL、Hadoop體系結構和Unix/Linux shell腳本命令的基本知識將很有幫助。理解解決問題的邏輯方法有助于構建查詢和ETL作業。
目標受眾
HiveQL教程旨在滿足銀行、零售、保險等領域的大數據專業人士/工程師和分析師的PB級數據分析需求。本教程將幫助Hadoop開發人員自動化ETL作業,以總結Hadoop生態系統上的大型數據集。數據庫架構師和管理員也可以從這個全面的教程中學習許多概念。
贊 0