大數(shù)據(jù)訪談問答簡介
互聯(lián)網(wǎng)上產(chǎn)生的各種數(shù)據(jù)被稱為大數(shù)據(jù),超過數(shù)百GB的數(shù)據(jù)僅通過在線活動在互聯(lián)網(wǎng)上產(chǎn)生。在線活動,如網(wǎng)絡活動、博客、文本、視頻/音頻文件、圖像、電子郵件、社交網(wǎng)絡活動。大數(shù)據(jù)需要專門的系統(tǒng)和軟件工具來處理所有非結構化數(shù)據(jù)。這些活動產(chǎn)生的數(shù)據(jù)稱為大數(shù)據(jù)。大數(shù)據(jù)是完全廣泛分布在互聯(lián)網(wǎng)上的,因此,大數(shù)據(jù)的處理需要分布式系統(tǒng)和工具,以便從中提取信息。
以下是一些重要的2019年大數(shù)據(jù)采訪問題和答案:
Hadoop、數(shù)據(jù)科學、統(tǒng)計和;其他
如果你正在尋找與大數(shù)據(jù)相關的工作,你需要準備2019年大數(shù)據(jù)面試問題。雖然每次面試都不一樣,工作的范圍也不一樣,但我們可以幫助你解決面試中最重要的問題和答案,這將幫助你邁出第一步,獲得成功你在大數(shù)據(jù)面試中的成功。
這些問題分為兩部分:
第一部分——大數(shù)據(jù)面試問題(基礎)
第一部分包括基本的面試問題和答案
1。大數(shù)據(jù)的含義是什么?它有什么不同
回答:
大數(shù)據(jù)是指互聯(lián)網(wǎng)上產(chǎn)生的各種數(shù)據(jù)。在互聯(lián)網(wǎng)上,只有在線活動才能產(chǎn)生超過數(shù)百GB的數(shù)據(jù)。在這里,在線活動意味著網(wǎng)絡活動、博客、文本、視頻/音頻文件、圖像、電子郵件、社交網(wǎng)絡活動等等。大數(shù)據(jù)可以被稱為從所有這些活動中創(chuàng)建的數(shù)據(jù)。在線生成的數(shù)據(jù)大多是非結構化的。大數(shù)據(jù)還將包括數(shù)據(jù)庫中的交易數(shù)據(jù)、系統(tǒng)日志文件,以及傳感器、物聯(lián)網(wǎng)、RFID標簽等智能設備生成的數(shù)據(jù),以及在線活動。
大數(shù)據(jù)需要專門的系統(tǒng)和軟件工具來處理所有非結構化數(shù)據(jù)。事實上,據(jù)一些行業(yè)估計,互聯(lián)網(wǎng)上生成的數(shù)據(jù)中有近85%是非結構化的。通常,關系數(shù)據(jù)庫具有結構化格式,并且數(shù)據(jù)庫是集中的。因此,可以使用SQL等查詢語言快速完成RDBMS處理。另一方面,大數(shù)據(jù)非常大,分布在互聯(lián)網(wǎng)上,因此處理大數(shù)據(jù)將需要分布式系統(tǒng)和工具從中提取信息。大數(shù)據(jù)需要Hadoop、Hive等專用工具以及高性能硬件和網(wǎng)絡來處理。
2。大數(shù)據(jù)的特點是什么
回答:
大數(shù)據(jù)有三個主要特征:數(shù)量、多樣性和速度。
體積特征指的是數(shù)據(jù)的大小。據(jù)估計,每天生成的數(shù)據(jù)超過300萬GB。在計算帶寬和存儲容量有限的辦公環(huán)境中,在普通個人計算機或客戶機-服務器網(wǎng)絡中無法處理這一數(shù)量的數(shù)據(jù)。然而,云服務提供了處理大數(shù)據(jù)量的解決方案,并使用分布式計算架構高效地處理它們。
多樣性特征指的是大數(shù)據(jù)的格式——結構化或非結構化。傳統(tǒng)的RDBMS符合結構化格式。
非結構化數(shù)據(jù)格式的一個例子是,視頻文件格式、圖像文件、純文本格式、來自web文檔或標準MS Word文檔的格式都是唯一的,等等。還要注意的是,RDBMS沒有處理非結構化數(shù)據(jù)格式的能力。此外,必須對所有這些非結構化數(shù)據(jù)進行分組和整合,這就需要專門的工具和系統(tǒng)。此外,每天或每分鐘都會添加新數(shù)據(jù),數(shù)據(jù)會不斷增長。因此,大數(shù)據(jù)更像是多樣性的同義詞。
速度特性指的是創(chuàng)建數(shù)據(jù)的速度和處理所有數(shù)據(jù)所需的效率。
例如,F(xiàn)acebook在一個月內(nèi)被超過16億用戶訪問。同樣,還有其他社交網(wǎng)站、YouTube、谷歌服務等。此類數(shù)據(jù)流必須使用實時查詢進行處理,并且必須在不丟失數(shù)據(jù)的情況下進行存儲。因此,速度特性在大數(shù)據(jù)處理中非常重要。
此外,其他特征包括準確性和價值。準確性將決定數(shù)據(jù)的可靠性和可靠性,價值是組織從大數(shù)據(jù)處理中獲得的價值。
3。為什么大數(shù)據(jù)對組織很重要
回答:
這是采訪中提出的基本大數(shù)據(jù)采訪問題。大數(shù)據(jù)很重要,因為通過處理大數(shù)據(jù),組織可以獲得與以下方面相關的洞察信息:
?降低成本
?產(chǎn)品或服務的改進
?了解客戶行為和市場
?有效的決策
?提高競爭力
4。列舉一些用于大數(shù)據(jù)處理的工具或系統(tǒng)
回答:
大數(shù)據(jù)處理和分析可以使用,
?Hadoop
?蜂巢
?豬
?管理員
?水槽
第2部分——大數(shù)據(jù)面試問題(高級)
現(xiàn)在讓我們來看一下高級面試問題。
5。大數(shù)據(jù)如何支持組織
回答:
大數(shù)據(jù)有可能在許多方面支持組織。從大數(shù)據(jù)中提取的信息可以用于,
?更好地與客戶和利益相關者協(xié)調(diào),解決問題
?改進產(chǎn)品或服務改進的報告和分析
?針對選定市場定制產(chǎn)品和服務
?確保更好地共享信息
?支持管理決策
?識別新機會、產(chǎn)品理念和新市場
?從多個來源收集數(shù)據(jù)并存檔以備將來參考
?維護數(shù)據(jù)庫和系統(tǒng)
?確定績效指標
?了解業(yè)務職能之間的相互依賴關系
?評估組織績效
6。解釋如何使用大數(shù)據(jù)來增加業(yè)務價值
回答:
在理解分析大數(shù)據(jù)的必要性的同時,此類分析將幫助企業(yè)確定其在市場中的地位,并幫助企業(yè)從競爭對手中脫穎而出。例如,從大數(shù)據(jù)分析的結果來看,企業(yè)可以了解定制產(chǎn)品的需求,或者了解增加收入和價值的潛在市場。分析大數(shù)據(jù)將涉及對來自不同來源的數(shù)據(jù)進行分組,以了解與業(yè)務相關的趨勢和信息。當通過從正確的來源收集數(shù)據(jù),有計劃地進行大數(shù)據(jù)分析時,企業(yè)可以輕松地創(chuàng)造近5%到20%的業(yè)務價值和收入。亞馬遜、Linkedin、沃爾瑪和許多其他組織就是這樣的例子。
讓我們轉(zhuǎn)到下一個大數(shù)據(jù)采訪問題
7。什么是大數(shù)據(jù)解決方案實施
回答:
大數(shù)據(jù)解決方案首先以小規(guī)模實施,基于適合業(yè)務的概念。從結果來看,這是一個原型解決方案,業(yè)務解決方案的規(guī)模進一步擴大。這些是在大數(shù)據(jù)采訪中最受歡迎的大數(shù)據(jù)采訪問題行業(yè)中遵循的一些最佳實踐包括:,
?有明確的項目目標,并在必要時進行合作
?從正確的來源收集數(shù)據(jù)
?確保結果不會扭曲,因為這可能導致錯誤結論
?準備好創(chuàng)新,在處理過程中考慮混合方法,包括結構化和非結構化類型的數(shù)據(jù),包括內(nèi)部和外部數(shù)據(jù)源
?了解大數(shù)據(jù)對組織內(nèi)現(xiàn)有信息流的影響
8。大數(shù)據(jù)解決方案涉及哪些步驟
回答:
大數(shù)據(jù)解決方案的實施遵循三個標準步驟。他們是:
數(shù)據(jù)攝取:此步驟將定義從多個來源提取和整合數(shù)據(jù)的方法。例如,數(shù)據(jù)源可以是社交網(wǎng)絡提要、CRM、RDBMS等。從不同來源提取的數(shù)據(jù)存儲在Hadoop分布式文件系統(tǒng)(HDFS)中。
數(shù)據(jù)存儲:這是第二步,存儲提取的數(shù)據(jù)。該存儲可以在HDFS或HBase(NoSQL數(shù)據(jù)庫)中。
處理數(shù)據(jù):這是最后一步。必須對存儲的數(shù)據(jù)進行處理。處理是使用Spark、Pig、MapReduce等工具完成的。
推薦文章
這是關于大數(shù)據(jù)面試問題和答案的綜合指南,以便應聘者可以輕松解決這些面試問題。您還可以閱讀以下文章了解更多信息——