數(shù)據(jù)分析導論
數(shù)據(jù)分析是對原始數(shù)據(jù)進行分析得出結(jié)論的科學。數(shù)據(jù)分析指的是分析數(shù)據(jù)以提高生產(chǎn)力和企業(yè)利潤的技術(shù)。從不同來源提取和清理數(shù)據(jù),以分析各種模式。許多數(shù)據(jù)分析技術(shù)和流程被自動化為機械流程和算法,這些流程和算法處理原始數(shù)據(jù)供人類使用。
數(shù)據(jù)分析的類型
根據(jù)分析數(shù)據(jù)的目的,數(shù)據(jù)分析過程主觀上分為三類:
Hadoop、數(shù)據(jù)科學、統(tǒng)計和;其他
- 描述性分析
- 預測分析
- 規(guī)定性分析
上述分析類型的特征如下所示:
1。描述性分析
描述性分析側(cè)重于總結(jié)過去的數(shù)據(jù)以得出推論。
定量描述歷史數(shù)據(jù)分布最常用的方法包括:
- 中心趨勢的衡量標準:平均值、中位數(shù)、四分位數(shù)、模式
- 可變性或擴散的衡量標準:范圍、四分位間范圍、百分位
近年來,通過統(tǒng)計推斷過程克服了收集、存儲和理解海量數(shù)據(jù)堆的困難和局限性。利用抽樣方法,結(jié)合中心極限理論,推導出關(guān)于人口數(shù)據(jù)集統(tǒng)計的廣義推論。一家領(lǐng)先的新聞廣播公司在選舉日在投票站出口收集隨機選擇的選民的投票細節(jié),以得出有關(guān)全體民眾偏好的統(tǒng)計推斷。
人口數(shù)據(jù)集的重復采樣會產(chǎn)生大量樣本。通常,為了生成分層良好、無偏的人口數(shù)據(jù)集代表,最好采用聚類抽樣。在采樣數(shù)據(jù)塊上計算感興趣的統(tǒng)計度量,以獲得稱為采樣分布的樣本統(tǒng)計值分布。利用中心極限理論,將抽樣分布的特征與總體數(shù)據(jù)集的特征聯(lián)系起來。
2。預測分析
預測分析利用歷史或過去數(shù)據(jù)中的模式來估計未來的結(jié)果、識別趨勢、發(fā)現(xiàn)潛在的風險和機會,或預測流程行為。由于預測用例在本質(zhì)上是合理的,這些方法使用概率模型來測量所有可能結(jié)果的可能性。金融公司客戶服務(wù)門戶中的聊天機器人根據(jù)客戶過去在其web域中的活動主動了解客戶的意圖或需求。根據(jù)預測的上下文,聊天機器人與客戶進行交互對話,以快速提供apt服務(wù),并獲得更好的客戶滿意度。
除了根據(jù)可用的過去數(shù)據(jù)預測未來會發(fā)生什么的外推場景外,很少有應用程序借助可用的數(shù)據(jù)樣本猜測遺漏的數(shù)據(jù)條目。給定數(shù)據(jù)樣本范圍內(nèi)缺失值的這種近似在技術(shù)上稱為插值。一個強大的圖像編輯器應用程序支持通過在缺失塊處插值特征函數(shù)來重建由于超文本而丟失的紋理部分。特征函數(shù)可以解釋為扭曲圖像紋理中圖案的數(shù)學表示法。
影響預測模型/策略選擇的重要因素包括:
- 預測精度:表示預測值和實際值之間的接近程度。預測值與實際值之差的方差越小,則表明預測模型的精度越高</李>
- 預測速度:在實時跟蹤應用中,它的優(yōu)先級很高
- 模型學習率:它取決于模型的復雜性和計算模型參數(shù)所涉及的計算</李>
3。規(guī)定性分析
規(guī)定性分析將所發(fā)現(xiàn)的知識作為描述性和預測性分析的一部分,來推薦一個上下文感知的行動方案。采用先進的統(tǒng)計技術(shù)和計算密集型優(yōu)化方法來理解估計預測的分布。
準確地說,在預測分析過程中估計的每個結(jié)果的影響和益處都會被評估,以針對給定的一組條件做出啟發(fā)式和時間敏感的決策。一家股票市場咨詢公司對投資者投資組合中股票的預測價格進行SWOT(優(yōu)勢、劣勢、機會和威脅)分析,并向客戶推薦最佳買入賣出期權(quán)。
數(shù)據(jù)分析中的流程
數(shù)據(jù)分析過程包括以下不同的數(shù)據(jù)處理階段:
1。數(shù)據(jù)提取
從不同類型的多個數(shù)據(jù)源(包括網(wǎng)頁、數(shù)據(jù)庫、遺留應用程序)攝取數(shù)據(jù)會產(chǎn)生不同格式的輸入數(shù)據(jù)集。
輸入數(shù)據(jù)分析流程的數(shù)據(jù)格式大致可分為:
- 結(jié)構(gòu)化數(shù)據(jù)對數(shù)據(jù)類型以及相關(guān)字段長度或字段分隔符有明確的定義。這類數(shù)據(jù)可以像存儲在關(guān)系數(shù)據(jù)庫(RDBMS)中的內(nèi)容一樣輕松查詢</李>
- 半結(jié)構(gòu)化數(shù)據(jù)缺乏精確的布局定義,但可以根據(jù)標準模式或其他元數(shù)據(jù)規(guī)則識別、分離和分組數(shù)據(jù)元素。XML文件使用標記來保存數(shù)據(jù),而Javascript對象表示法文件(JSON)以名稱-值對的形式保存數(shù)據(jù)。NoSQL(不僅是SQL)數(shù)據(jù)庫,比如MongoDB和Coach base,也用于存儲半結(jié)構(gòu)化數(shù)據(jù)</李>
- 非結(jié)構(gòu)化數(shù)據(jù)包括社交媒體對話、圖像、音頻片段等。傳統(tǒng)的數(shù)據(jù)解析方法無法理解這些數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)存儲在數(shù)據(jù)池中</李>
結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)解析實現(xiàn)被整合到各種ETL工具中,如從頭算、Informatica、Datastage和Talend等開源替代工具。
2。數(shù)據(jù)清理和轉(zhuǎn)換
清理解析后的數(shù)據(jù)是為了確保數(shù)據(jù)的一致性和相關(guān)數(shù)據(jù)在流程的后期階段的可用性。
數(shù)據(jù)分析中的主要清理操作包括:
- 檢測和消除數(shù)據(jù)量中的異常值</李>
- 刪除數(shù)據(jù)集中的重復項</李>
- 在理解功能或用例的情況下處理數(shù)據(jù)記錄中缺失的條目</李>
- 數(shù)據(jù)記錄(如“2月31日”)中允許的字段值的驗證在任何日期字段中都不能是有效值</李>
清理后的數(shù)據(jù)被轉(zhuǎn)換成合適的格式來分析數(shù)據(jù)。
數(shù)據(jù)轉(zhuǎn)換包括:
- 不需要的數(shù)據(jù)記錄的過濾器</李>
- 連接從不同來源獲取的數(shù)據(jù)</李>
- 數(shù)據(jù)的聚合或分組</李>
- 數(shù)據(jù)類型轉(zhuǎn)換</李>
3。關(guān)鍵績效指標/洞察力推導
數(shù)據(jù)挖掘、深度學習方法用于評估關(guān)鍵績效指標(KPI),或從清理和轉(zhuǎn)換的數(shù)據(jù)中獲得有價值的見解。基于分析的目標,使用各種模式識別技術(shù)(如k-means聚類、SVM分類、貝葉斯分類器等)和機器學習模型(如馬爾可夫模型、高斯混合模型(GMM))進行數(shù)據(jù)分析。
概率模型在訓練階段學習最優(yōu)模型參數(shù),在驗證階段,使用k-折疊交叉驗證測試對模型進行測試,以避免過擬合和欠擬合錯誤。數(shù)據(jù)分析最常用的編程語言是R和Python。兩者都有一套豐富的庫(SciPy、NumPy、Pandas),它們都是開源的,可以執(zhí)行復雜的數(shù)據(jù)分析。
4。數(shù)據(jù)可視化
數(shù)據(jù)可視化是清晰有效地展示未發(fā)現(xiàn)模式的過程,使用圖形、繪圖、儀表盤和圖形從數(shù)據(jù)中得出結(jié)論。
- QlikView、Tableau等數(shù)據(jù)報告工具以不同的粒度級別顯示KPI和其他衍生指標</李>
- 報告工具使最終用戶能夠使用用戶友好的拖放界面,使用pivot和drill-down選項創(chuàng)建自定義報告</李>
- 交互式數(shù)據(jù)可視化庫,如D3。js(數(shù)據(jù)驅(qū)動文檔)、HTML5圖表等。。用于提高探索分析數(shù)據(jù)的能力</李>