大數(shù)據(jù)架構(gòu)簡介
在管理海量數(shù)據(jù)和對海量數(shù)據(jù)進(jìn)行復(fù)雜操作時(shí),需要使用大數(shù)據(jù)工具和技術(shù)。當(dāng)我們說使用大數(shù)據(jù)工具和技術(shù)時(shí),我們實(shí)際上是指我們要求利用大數(shù)據(jù)生態(tài)系統(tǒng)及其領(lǐng)域中的各種軟件和程序。沒有針對每個(gè)用例提供的通用解決方案,因此必須根據(jù)特定公司的業(yè)務(wù)需求以有效的方式精心設(shè)計(jì)和制造。因此,需要利用不同的大數(shù)據(jù)架構(gòu),因?yàn)楦鞣N技術(shù)的組合將導(dǎo)致最終的用例得以實(shí)現(xiàn)。通過建立固定的體系結(jié)構(gòu),可以確保為所請求的用例提供可行的解決方案。
什么是大數(shù)據(jù)架構(gòu)
- 該體系結(jié)構(gòu)的設(shè)計(jì)方式是,它處理攝取過程、數(shù)據(jù)處理和數(shù)據(jù)分析,這對于處理傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)來說太大或太復(fù)雜</李>
- 不同的組織對其組織有不同的閾值,一些組織的閾值為幾百GB,而對于其他組織,即使是一些TB也不足以作為閾值</李>
- 由于這一事件的發(fā)生,如果你看一下商品系統(tǒng)和商品存儲(chǔ),存儲(chǔ)的價(jià)值和成本已經(jīng)顯著降低。數(shù)據(jù)種類繁多,需要以不同的方式滿足需求</李>
- 其中一些是在特定時(shí)間出現(xiàn)的批處理相關(guān)數(shù)據(jù),因此需要以類似的方式安排作業(yè),而另一些屬于流媒體類,其中必須構(gòu)建實(shí)時(shí)流媒體管道以滿足所有要求。所有這些挑戰(zhàn)都由大數(shù)據(jù)架構(gòu)解決</李>
大數(shù)據(jù)架構(gòu)解讀
Hadoop、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)和;其他
大數(shù)據(jù)系統(tǒng)涉及多種工作負(fù)載類型,大致分為以下幾類:
- 在基于大數(shù)據(jù)的數(shù)據(jù)源處于靜止?fàn)顟B(tài)的情況下,需要進(jìn)行批處理</李>
- 動(dòng)態(tài)大數(shù)據(jù)處理用于實(shí)時(shí)處理</李>
- 探索交互式大數(shù)據(jù)工具和技術(shù)</李>
- 機(jī)器學(xué)習(xí)和預(yù)測分析</李>
1。數(shù)據(jù)來源
數(shù)據(jù)源包括所有黃金來源,數(shù)據(jù)提取管道就是從這些黃金來源建立起來的,因此這可以說是大數(shù)據(jù)管道的起點(diǎn)。
示例包括:
(i) 應(yīng)用程序的數(shù)據(jù)存儲(chǔ),比如關(guān)系數(shù)據(jù)庫
(ii)由多個(gè)應(yīng)用程序生成的文件,主要是靜態(tài)文件系統(tǒng)的一部分,例如基于web的服務(wù)器文件生成日志。
(iii)物聯(lián)網(wǎng)設(shè)備和其他實(shí)時(shí)數(shù)據(jù)源。
2。數(shù)據(jù)存儲(chǔ)
這包括為批量構(gòu)建操作管理的數(shù)據(jù),存儲(chǔ)在文件存儲(chǔ)區(qū)中,這些文件存儲(chǔ)區(qū)本質(zhì)上是分布式的,并且能夠存儲(chǔ)大量不同格式的大文件。它被稱為數(shù)據(jù)湖。這通常是我們的Hadoop存儲(chǔ)(如HDFS、Microsoft Azure、AWS、GCP存儲(chǔ))與blob容器一起提供的部分。
3。批處理
所有數(shù)據(jù)都被劃分為不同的類別或區(qū)塊,利用長期運(yùn)行的作業(yè)進(jìn)行過濾和聚合,并為分析處理狀態(tài)的數(shù)據(jù)做好準(zhǔn)備。這些作業(yè)通常使用源,對其進(jìn)行處理,并將處理后的文件輸出到新文件。批處理以各種方式完成,方法包括使用Hive作業(yè)或基于U-SQL的作業(yè),或使用Sqoop或Pig以及自定義map reducer作業(yè),這些作業(yè)通常用Java或Scala或任何其他語言(如Python)編寫。
4。基于實(shí)時(shí)的消息接收
與批處理不同,這包括所有實(shí)時(shí)流系統(tǒng),這些系統(tǒng)以固定模式按順序生成數(shù)據(jù)。這通常是一個(gè)簡單的數(shù)據(jù)集市或存儲(chǔ)區(qū),負(fù)責(zé)所有傳入的消息,這些消息被放入必要用于數(shù)據(jù)處理的文件夾中。然而,大多數(shù)解決方案都需要基于消息的攝取存儲(chǔ),它充當(dāng)消息緩沖區(qū),還支持基于規(guī)模的處理,與其他消息隊(duì)列語義一起提供相對可靠的傳遞。這些選項(xiàng)包括ApacheKafka、ApacheFlume、Azure的事件中心等。
5。流處理
實(shí)時(shí)消息攝取和流處理之間有細(xì)微的區(qū)別。前者考慮了最初收集的攝取數(shù)據(jù),然后將其用作一種發(fā)布-訂閱工具。另一方面,流處理用于處理windows或流中發(fā)生的所有流數(shù)據(jù),然后將數(shù)據(jù)寫入輸出接收器。這包括Apache Spark、Apache Flink、Storm等。
6。基于分析的數(shù)據(jù)存儲(chǔ)
這是用于分析目的的數(shù)據(jù)存儲(chǔ),因此,可以使用與BI解決方案相對應(yīng)的分析工具來查詢和分析已處理的數(shù)據(jù)。數(shù)據(jù)還可以借助NoSQL數(shù)據(jù)倉庫技術(shù)(如HBase)或任何交互式使用hive database來呈現(xiàn),后者可以在數(shù)據(jù)存儲(chǔ)中提供元數(shù)據(jù)抽象。工具包括Hive、Spark SQL、Hbase等。
7。報(bào)告和分析
必須根據(jù)處理后的數(shù)據(jù)生成洞察,這是由報(bào)告和分析工具有效完成的,這些工具利用其嵌入式技術(shù)和解決方案生成對業(yè)務(wù)有用的圖表、分析和洞察。工具包括Cognos、Hyperion等。
8。編排
基于大數(shù)據(jù)的解決方案包括與數(shù)據(jù)相關(guān)的操作,這些操作本質(zhì)上是重復(fù)的,并且也封裝在工作流中,這些工作流可以轉(zhuǎn)換源數(shù)據(jù),還可以跨源和匯移動(dòng)數(shù)據(jù),并在存儲(chǔ)中加載,并推送到分析單元中。示例包括Sqoop、oozie、數(shù)據(jù)工廠等。
結(jié)論
在這篇文章中,我們了解了大數(shù)據(jù)體系結(jié)構(gòu),這是在公司或組織中實(shí)施這些技術(shù)所必需的。希望你喜歡我們的文章。
推薦文章
這是大數(shù)據(jù)架構(gòu)的指南。這里我們討論了什么是大數(shù)據(jù)?我們還展示了大數(shù)據(jù)的體系結(jié)構(gòu)以及方框圖。您也可以瀏覽我們建議的其他文章以了解更多信息——