大數據架構簡介
在管理海量數據和對海量數據進行復雜操作時,需要使用大數據工具和技術。當我們說使用大數據工具和技術時,我們實際上是指我們要求利用大數據生態系統及其領域中的各種軟件和程序。沒有針對每個用例提供的通用解決方案,因此必須根據特定公司的業務需求以有效的方式精心設計和制造。因此,需要利用不同的大數據架構,因為各種技術的組合將導致最終的用例得以實現。通過建立固定的體系結構,可以確保為所請求的用例提供可行的解決方案。
什么是大數據架構
- 該體系結構的設計方式是,它處理攝取過程、數據處理和數據分析,這對于處理傳統數據庫管理系統來說太大或太復雜</李>
- 不同的組織對其組織有不同的閾值,一些組織的閾值為幾百GB,而對于其他組織,即使是一些TB也不足以作為閾值</李>
- 由于這一事件的發生,如果你看一下商品系統和商品存儲,存儲的價值和成本已經顯著降低。數據種類繁多,需要以不同的方式滿足需求</李>
- 其中一些是在特定時間出現的批處理相關數據,因此需要以類似的方式安排作業,而另一些屬于流媒體類,其中必須構建實時流媒體管道以滿足所有要求。所有這些挑戰都由大數據架構解決</李>
大數據架構解讀
Hadoop、數據科學、統計和;其他
大數據系統涉及多種工作負載類型,大致分為以下幾類:
- 在基于大數據的數據源處于靜止狀態的情況下,需要進行批處理</李>
- 動態大數據處理用于實時處理</李>
- 探索交互式大數據工具和技術</李>
- 機器學習和預測分析</李>
1。數據來源
數據源包括所有黃金來源,數據提取管道就是從這些黃金來源建立起來的,因此這可以說是大數據管道的起點。
示例包括:
(i) 應用程序的數據存儲,比如關系數據庫
(ii)由多個應用程序生成的文件,主要是靜態文件系統的一部分,例如基于web的服務器文件生成日志。
(iii)物聯網設備和其他實時數據源。
2。數據存儲
這包括為批量構建操作管理的數據,存儲在文件存儲區中,這些文件存儲區本質上是分布式的,并且能夠存儲大量不同格式的大文件。它被稱為數據湖。這通常是我們的Hadoop存儲(如HDFS、Microsoft Azure、AWS、GCP存儲)與blob容器一起提供的部分。
3。批處理
所有數據都被劃分為不同的類別或區塊,利用長期運行的作業進行過濾和聚合,并為分析處理狀態的數據做好準備。這些作業通常使用源,對其進行處理,并將處理后的文件輸出到新文件。批處理以各種方式完成,方法包括使用Hive作業或基于U-SQL的作業,或使用Sqoop或Pig以及自定義map reducer作業,這些作業通常用Java或Scala或任何其他語言(如Python)編寫。
4。基于實時的消息接收
與批處理不同,這包括所有實時流系統,這些系統以固定模式按順序生成數據。這通常是一個簡單的數據集市或存儲區,負責所有傳入的消息,這些消息被放入必要用于數據處理的文件夾中。然而,大多數解決方案都需要基于消息的攝取存儲,它充當消息緩沖區,還支持基于規模的處理,與其他消息隊列語義一起提供相對可靠的傳遞。這些選項包括ApacheKafka、ApacheFlume、Azure的事件中心等。
5。流處理
實時消息攝取和流處理之間有細微的區別。前者考慮了最初收集的攝取數據,然后將其用作一種發布-訂閱工具。另一方面,流處理用于處理windows或流中發生的所有流數據,然后將數據寫入輸出接收器。這包括Apache Spark、Apache Flink、Storm等。
6?;诜治龅臄祿鎯?/h4>
這是用于分析目的的數據存儲,因此,可以使用與BI解決方案相對應的分析工具來查詢和分析已處理的數據。數據還可以借助NoSQL數據倉庫技術(如HBase)或任何交互式使用hive database來呈現,后者可以在數據存儲中提供元數據抽象。工具包括Hive、Spark SQL、Hbase等。
7。報告和分析
必須根據處理后的數據生成洞察,這是由報告和分析工具有效完成的,這些工具利用其嵌入式技術和解決方案生成對業務有用的圖表、分析和洞察。工具包括Cognos、Hyperion等。
8。編排
基于大數據的解決方案包括與數據相關的操作,這些操作本質上是重復的,并且也封裝在工作流中,這些工作流可以轉換源數據,還可以跨源和匯移動數據,并在存儲中加載,并推送到分析單元中。示例包括Sqoop、oozie、數據工廠等。
結論
在這篇文章中,我們了解了大數據體系結構,這是在公司或組織中實施這些技術所必需的。希望你喜歡我們的文章。
推薦文章
這是大數據架構的指南。這里我們討論了什么是大數據?我們還展示了大數據的體系結構以及方框圖。您也可以瀏覽我們建議的其他文章以了解更多信息——