大數(shù)據(jù)技術(shù)簡(jiǎn)介
大數(shù)據(jù)技術(shù)和Hadoop聽(tīng)起來(lái)可能是一個(gè)熱門(mén)詞匯。隨著各個(gè)行業(yè)和領(lǐng)域的數(shù)據(jù)和信息領(lǐng)域的巨大增長(zhǎng),建立和引入一種高效的技術(shù)變得非常重要,該技術(shù)能夠滿足負(fù)責(zé)數(shù)據(jù)生成的客戶和大型行業(yè)的所有需求和要求。早些時(shí)候,數(shù)據(jù)是由普通編程語(yǔ)言和簡(jiǎn)單結(jié)構(gòu)化查詢語(yǔ)言處理的,但現(xiàn)在這些系統(tǒng)和工具在處理大數(shù)據(jù)時(shí)似乎沒(méi)有多大作用。
大數(shù)據(jù)技術(shù)被定義為一種技術(shù)和軟件實(shí)用工具,用于分析、處理和提取大量極其復(fù)雜的結(jié)構(gòu)和大型數(shù)據(jù)集中的信息,而傳統(tǒng)系統(tǒng)很難處理這些信息。大數(shù)據(jù)技術(shù)用于處理實(shí)時(shí)和批量相關(guān)數(shù)據(jù)。機(jī)器學(xué)習(xí)已經(jīng)成為日常生活和每個(gè)行業(yè)中非常關(guān)鍵的組成部分,因此通過(guò)大數(shù)據(jù)管理數(shù)據(jù)變得非常重要。
Hadoop、數(shù)據(jù)科學(xué)、統(tǒng)計(jì)和;其他
大數(shù)據(jù)技術(shù)的類型
在開(kāi)始技術(shù)列表之前,讓我們先看看所有這些技術(shù)的大致分類。
它們主要可分為4個(gè)領(lǐng)域。
- 數(shù)據(jù)存儲(chǔ)
- 分析
- 數(shù)據(jù)挖掘
- 形象化
讓我們先介紹一下存儲(chǔ)保護(hù)傘下的所有技術(shù)
1。Hadoop:在大數(shù)據(jù)方面,Hadoop是第一個(gè)發(fā)揮作用的技術(shù)。這基于map reduce體系結(jié)構(gòu),有助于處理與批處理相關(guān)的作業(yè)和處理批處理信息。它設(shè)計(jì)用于在分布式數(shù)據(jù)處理環(huán)境中存儲(chǔ)和處理數(shù)據(jù),以及商品硬件和簡(jiǎn)單的編程執(zhí)行模型。它可以用于存儲(chǔ)和分析各種不同機(jī)器中的數(shù)據(jù),具有高存儲(chǔ)、高速度和低成本。這構(gòu)成了Apache軟件基金會(huì)在2011年度開(kāi)發(fā)的大數(shù)據(jù)技術(shù)的核心部分之一,并用java編寫(xiě)。
2。MongoDB:大數(shù)據(jù)技術(shù)在存儲(chǔ)方面的另一個(gè)非常重要和核心的組件是MongoDB NoSQL數(shù)據(jù)庫(kù)。它是一個(gè)NoSQL數(shù)據(jù)庫(kù),這意味著關(guān)系屬性和其他RDBMS相關(guān)屬性不適用于它。它不同于傳統(tǒng)的使用結(jié)構(gòu)化查詢語(yǔ)言的RDBMS數(shù)據(jù)庫(kù)。它使用模式文檔,數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)也不同,因此它們有助于保存大量數(shù)據(jù)。它是一個(gè)跨平臺(tái)的面向文檔的設(shè)計(jì)和數(shù)據(jù)庫(kù)程序,使用類似JSON的文檔和模式。在大多數(shù)金融機(jī)構(gòu)中,這成為了一個(gè)非常有用的操作數(shù)據(jù)存儲(chǔ)用例,從而取代了傳統(tǒng)的大型機(jī)。MongoDB在高容量和分布式體系結(jié)構(gòu)中處理靈活性和多種數(shù)據(jù)類型。
3。Hunk:通過(guò)使用虛擬索引,通過(guò)遠(yuǎn)程Hadoop集群訪問(wèn)數(shù)據(jù)非常有用,還可以使用Splunk搜索處理語(yǔ)言來(lái)分析數(shù)據(jù)。hunk可以用來(lái)報(bào)告和可視化來(lái)自Hadoop和NoSQL數(shù)據(jù)庫(kù)和源的大量數(shù)據(jù)。它是2013年由Splunk團(tuán)隊(duì)用Java編寫(xiě)的。
<強(qiáng)>4。Cassandra:Cassandra是流行的NoSQL數(shù)據(jù)庫(kù)列表中的首選,這是一個(gè)免費(fèi)的開(kāi)源數(shù)據(jù)庫(kù),它是分布式的,具有廣泛的柱狀存儲(chǔ),可以有效地處理大型商品集群上的數(shù)據(jù),也就是說(shuō),它被用來(lái)提供高可用性,沒(méi)有單一故障點(diǎn)。主要功能包括分布式特性、可擴(kuò)展性、容錯(cuò)機(jī)制、MapReduce支持、可調(diào)一致性、查詢語(yǔ)言屬性、支持多數(shù)據(jù)中心復(fù)制以及最終一致性。
接下來(lái)讓我們談?wù)劥髷?shù)據(jù)技術(shù)的不同領(lǐng)域,即數(shù)據(jù)挖掘
5。Presto:它是一個(gè)流行的開(kāi)源和基于SQL的分布式查詢引擎,用于對(duì)各種規(guī)模的數(shù)據(jù)源運(yùn)行交互式查詢,數(shù)據(jù)源大小從千兆字節(jié)到千兆字節(jié)不等。在它的幫助下,我們可以在Cassandra、Hive、專有數(shù)據(jù)存儲(chǔ)和關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)系統(tǒng)中查詢數(shù)據(jù)。這是一個(gè)基于java的查詢引擎,是由Apache基金會(huì)在2013年開(kāi)發(fā)的。Netflix、Airbnb、Checkr、Repo和Facebook等幾家公司充分利用了Presto工具。
6。ElasticSearch:這是當(dāng)今搜索領(lǐng)域的一個(gè)非常重要的工具。這構(gòu)成了麋鹿群的一個(gè)重要組成部分,即彈性搜索、Logstash和Kibana。ElasticSearch是一個(gè)基于Lucene庫(kù)的搜索引擎,類似于Solr,用于提供一個(gè)純分布式、支持多租戶的全文搜索引擎。它有一個(gè)無(wú)模式JSON文檔列表和一個(gè)HTTP web界面。它是用JAVA語(yǔ)言編寫(xiě)的,由Elastic公司在2012年開(kāi)發(fā)。使用elasticsearch的公司有:LinkedIn、StackOverflow、Netflix、Facebook、谷歌、埃森哲等。
現(xiàn)在,讓我們來(lái)了解一下作為數(shù)據(jù)分析一部分的所有大數(shù)據(jù)技術(shù):
7。Apache Kafka:以其發(fā)布-訂閱或發(fā)布-訂閱(俗稱)而聞名,是一個(gè)直接消息傳遞、異步消息傳遞代理系統(tǒng),用于接收實(shí)時(shí)流數(shù)據(jù)并對(duì)其執(zhí)行數(shù)據(jù)處理。它還規(guī)定了保留期,數(shù)據(jù)可以通過(guò)生產(chǎn)者-消費(fèi)者機(jī)制進(jìn)行渠道化。它是最流行的流媒體平臺(tái)之一,與企業(yè)消息系統(tǒng)或消息隊(duì)列非常相似。到目前為止,Kafka已經(jīng)推出了許多增強(qiáng)功能,其中一種主要的是Kafka confluent,它為Kafka提供了額外級(jí)別的屬性,如Schema registry、Ktables、KSql等。它是由Apache軟件社區(qū)在2011年開(kāi)發(fā)的,用Java編寫(xiě)。使用這項(xiàng)技術(shù)的公司包括Twitter、Spotify、Netflix、Linkedin、雅虎等。
8。Splunk:Splunk用于從可搜索存儲(chǔ)庫(kù)中捕獲、關(guān)聯(lián)和索引實(shí)時(shí)流數(shù)據(jù),從中生成報(bào)告、圖形、儀表板、警報(bào)和數(shù)據(jù)可視化。它還用于安全性、法規(guī)遵從性和應(yīng)用程序管理,以及web分析,生成業(yè)務(wù)見(jiàn)解和業(yè)務(wù)分析。它是由Splunk用Python、XML和Ajax開(kāi)發(fā)的。
9。Apache Spark:現(xiàn)在是大數(shù)據(jù)技術(shù)領(lǐng)域最關(guān)鍵、最受期待的技術(shù),即Apache Spark。它可能是當(dāng)今需求量最大的軟件之一,并使用Java、Scala或Python進(jìn)行處理。它通過(guò)使用Spark streaming來(lái)處理實(shí)時(shí)流數(shù)據(jù),Spark streaming使用批處理和窗口操作來(lái)實(shí)現(xiàn)這一點(diǎn)。Spark SQL用于在RDD之上創(chuàng)建數(shù)據(jù)幀和數(shù)據(jù)集,從而提供一種良好的轉(zhuǎn)換和操作風(fēng)格,這些轉(zhuǎn)換和操作構(gòu)成了Apache Spark Core的一個(gè)組成部分。Spark Mllib、R和graphX等其他組件在分析和執(zhí)行機(jī)器學(xué)習(xí)和數(shù)據(jù)科學(xué)方面也很有用。內(nèi)存計(jì)算技術(shù)使它不同于其他工具和組件,并支持多種應(yīng)用。它主要由java語(yǔ)言中的Apache軟件基金會(huì)開(kāi)發(fā)。
10。R語(yǔ)言:R是一種編程語(yǔ)言和一種自由軟件環(huán)境,用于統(tǒng)計(jì)計(jì)算,也用于R中最重要的語(yǔ)言之一的圖形。這是數(shù)據(jù)科學(xué)家、數(shù)據(jù)挖掘者和數(shù)據(jù)從業(yè)者在開(kāi)發(fā)統(tǒng)計(jì)軟件和主要數(shù)據(jù)分析方面最流行的語(yǔ)言之一。
現(xiàn)在讓我們來(lái)討論與數(shù)據(jù)可視化相關(guān)的技術(shù)
11。Tableau:它是商業(yè)智能領(lǐng)域中增長(zhǎng)最快、功能最強(qiáng)大的數(shù)據(jù)可視化工具。數(shù)據(jù)分析是一種非常快速的機(jī)器,在Tableau的幫助下是可能的,可視化是以工作表和儀表板的形式創(chuàng)建的。它是由TabLao公司在2013年度開(kāi)發(fā)的,用Python、C++、java和C編寫(xiě)。
12。Plotly:Plotly主要用于更快、更高效地制作圖形和相關(guān)組件。它有一組更豐富的庫(kù)和API,如MATLAB、Python、R、Arduino、Julia等。這可以在Jupyter notebook和Pycharm中交互使用,并可用于設(shè)計(jì)交互式圖形。它最早于2012年開(kāi)發(fā),并用javascript編寫(xiě)。為數(shù)不多的公司正在密謀使用圣騎士、比特銀行等。
推薦文章
這是大數(shù)據(jù)技術(shù)指南。這里我們討論了大數(shù)據(jù)技術(shù)的介紹和類型。你也可以瀏覽我們的其他建議文章