Hive是什么意思？干嘛用的

2022-03-2615:28:24已關閉評論

Hive教程

Hive教程是在Hadoop分布式文件系統上使用業界流行的HiveQL，成為查詢、總結和分析數十億或萬億條記錄的專家的踏腳石。本教程使您熟悉該語言的功能和范圍，以便更好地優化和處理查詢。使用類似SQL的方言，可以使用簡單的DDL和DML命令編寫查詢，以指定或更改數據庫、表或視圖，并對其執行操作。本文將重點介紹可以在配置單元上執行的各種類型的查詢，以及后端MapReduce作業的執行計劃。

為什么我們需要學習Hive

作為一名數據分析師，攪動數據（干凈/不干凈）并從中獲得可操作的見解非常重要。通過使用不同的文件格式，例如：Textfile、Sequencefile、Avro、Parquet或ORC（優化的行-列），可以高效地處理各種數據</李>
Hive就是這樣一種高級語言，它可以更快地匯總數據，并支持用戶定義的用于操作字符串、整數或日期的函數。這種SQL抽象阻止我們編寫復雜的Mapreduce作業</李>
臨時查詢變得很容易，并且可以對來自外部表的數據進行操作，而無需將數據存儲在HDFS中
Hadoop分發了文件系統（HDFS），該系統管理如何跨集群存儲數據。此外，MapReduce計算模型有助于將作業分解為任務，以便跨服務器或集群進行并行處理</李>

蜂箱的應用

作為一個開源的數據倉庫系統，Hive在大數據分析和數據摘要中得到了應用</李>
Hadoop開發人員也在使用ApacheHive解決Hadoop軟件包（如RHive、RHipe）的復雜分析問題。甚至Apache Mahout也支持配置單元查詢</李>
分區和bucketing的概念使數據能夠存儲在邏輯部分或段中，從而加快查詢響應時間</李>

Hive還支持許多數據科學應用程序，如：