Hive是什么意思?干嘛用的

2022-03-2615:28:24Hive是什么意思?干嘛用的已關閉評論

Hive教程

Hive教程是在Hadoop分布式文件系統上使用業界流行的HiveQL,成為查詢、總結和分析數十億或萬億條記錄的專家的踏腳石。本教程使您熟悉該語言的功能和范圍,以便更好地優化和處理查詢。使用類似SQL的方言,可以使用簡單的DDL和DML命令編寫查詢,以指定或更改數據庫、表或視圖,并對其執行操作。本文將重點介紹可以在配置單元上執行的各種類型的查詢,以及后端MapReduce作業的執行計劃。

為什么我們需要學習Hive

  1. 作為一名數據分析師,攪動數據(干凈/不干凈)并從中獲得可操作的見解非常重要。通過使用不同的文件格式,例如:Textfile、Sequencefile、Avro、Parquet或ORC(優化的行-列),可以高效地處理各種數據</李>
  2. Hive就是這樣一種高級語言,它可以更快地匯總數據,并支持用戶定義的用于操作字符串、整數或日期的函數。這種SQL抽象阻止我們編寫復雜的Mapreduce作業</李>
  3. 臨時查詢變得很容易,并且可以對來自外部表的數據進行操作,而無需將數據存儲在HDFS中
  4. Hadoop分發了文件系統(HDFS),該系統管理如何跨集群存儲數據。此外,MapReduce計算模型有助于將作業分解為任務,以便跨服務器或集群進行并行處理</李>

蜂箱的應用

  1. 作為一個開源的數據倉庫系統,Hive在大數據分析和數據摘要中得到了應用</李>
  2. Hadoop開發人員也在使用ApacheHive解決Hadoop軟件包(如RHive、RHipe)的復雜分析問題。甚至Apache Mahout也支持配置單元查詢</李>
  3. 分區和bucketing的概念使數據能夠存儲在邏輯部分或段中,從而加快查詢響應時間</李>

Hive還支持許多數據科學應用程序,如:

  • 文檔索引
  • 文本挖掘
  • 谷歌分析
  • 情緒分析
  • 預測建模
  • 日志處理
  • 假設檢驗

先決條件

為了學習HiveQL,SQL、Hadoop體系結構和Unix/Linux shell腳本命令的基本知識將很有幫助。理解解決問題的邏輯方法有助于構建查詢和ETL作業。

目標受眾

HiveQL教程旨在滿足銀行、零售、保險等領域的大數據專業人士/工程師和分析師的PB級數據分析需求。本教程將幫助Hadoop開發人員自動化ETL作業,以總結Hadoop生態系統上的大型數據集。數據庫架構師和管理員也可以從這個全面的教程中學習許多概念。