數據分析導論
數據分析是對原始數據進行分析得出結論的科學。數據分析指的是分析數據以提高生產力和企業利潤的技術。從不同來源提取和清理數據,以分析各種模式。許多數據分析技術和流程被自動化為機械流程和算法,這些流程和算法處理原始數據供人類使用。
數據分析的類型
根據分析數據的目的,數據分析過程主觀上分為三類:
Hadoop、數據科學、統計和;其他
- 描述性分析
- 預測分析
- 規定性分析
上述分析類型的特征如下所示:
1。描述性分析
描述性分析側重于總結過去的數據以得出推論。
定量描述歷史數據分布最常用的方法包括:
- 中心趨勢的衡量標準:平均值、中位數、四分位數、模式
- 可變性或擴散的衡量標準:范圍、四分位間范圍、百分位
近年來,通過統計推斷過程克服了收集、存儲和理解海量數據堆的困難和局限性。利用抽樣方法,結合中心極限理論,推導出關于人口數據集統計的廣義推論。一家領先的新聞廣播公司在選舉日在投票站出口收集隨機選擇的選民的投票細節,以得出有關全體民眾偏好的統計推斷。
人口數據集的重復采樣會產生大量樣本。通常,為了生成分層良好、無偏的人口數據集代表,最好采用聚類抽樣。在采樣數據塊上計算感興趣的統計度量,以獲得稱為采樣分布的樣本統計值分布。利用中心極限理論,將抽樣分布的特征與總體數據集的特征聯系起來。
2。預測分析
預測分析利用歷史或過去數據中的模式來估計未來的結果、識別趨勢、發現潛在的風險和機會,或預測流程行為。由于預測用例在本質上是合理的,這些方法使用概率模型來測量所有可能結果的可能性。金融公司客戶服務門戶中的聊天機器人根據客戶過去在其web域中的活動主動了解客戶的意圖或需求。根據預測的上下文,聊天機器人與客戶進行交互對話,以快速提供apt服務,并獲得更好的客戶滿意度。
除了根據可用的過去數據預測未來會發生什么的外推場景外,很少有應用程序借助可用的數據樣本猜測遺漏的數據條目。給定數據樣本范圍內缺失值的這種近似在技術上稱為插值。一個強大的圖像編輯器應用程序支持通過在缺失塊處插值特征函數來重建由于超文本而丟失的紋理部分。特征函數可以解釋為扭曲圖像紋理中圖案的數學表示法。
影響預測模型/策略選擇的重要因素包括:
- 預測精度:表示預測值和實際值之間的接近程度。預測值與實際值之差的方差越小,則表明預測模型的精度越高</李>
- 預測速度:在實時跟蹤應用中,它的優先級很高
- 模型學習率:它取決于模型的復雜性和計算模型參數所涉及的計算</李>
3。規定性分析
規定性分析將所發現的知識作為描述性和預測性分析的一部分,來推薦一個上下文感知的行動方案。采用先進的統計技術和計算密集型優化方法來理解估計預測的分布。
準確地說,在預測分析過程中估計的每個結果的影響和益處都會被評估,以針對給定的一組條件做出啟發式和時間敏感的決策。一家股票市場咨詢公司對投資者投資組合中股票的預測價格進行SWOT(優勢、劣勢、機會和威脅)分析,并向客戶推薦最佳買入賣出期權。
數據分析中的流程
數據分析過程包括以下不同的數據處理階段:
1。數據提取
從不同類型的多個數據源(包括網頁、數據庫、遺留應用程序)攝取數據會產生不同格式的輸入數據集。
輸入數據分析流程的數據格式大致可分為:
- 結構化數據對數據類型以及相關字段長度或字段分隔符有明確的定義。這類數據可以像存儲在關系數據庫(RDBMS)中的內容一樣輕松查詢</李>
- 半結構化數據缺乏精確的布局定義,但可以根據標準模式或其他元數據規則識別、分離和分組數據元素。XML文件使用標記來保存數據,而Javascript對象表示法文件(JSON)以名稱-值對的形式保存數據。NoSQL(不僅是SQL)數據庫,比如MongoDB和Coach base,也用于存儲半結構化數據</李>
- 非結構化數據包括社交媒體對話、圖像、音頻片段等。傳統的數據解析方法無法理解這些數據。非結構化數據存儲在數據池中</李>
結構化和半結構化數據的數據解析實現被整合到各種ETL工具中,如從頭算、Informatica、Datastage和Talend等開源替代工具。
2。數據清理和轉換
清理解析后的數據是為了確保數據的一致性和相關數據在流程的后期階段的可用性。
數據分析中的主要清理操作包括:
- 檢測和消除數據量中的異常值</李>
- 刪除數據集中的重復項</李>
- 在理解功能或用例的情況下處理數據記錄中缺失的條目</李>
- 數據記錄(如“2月31日”)中允許的字段值的驗證在任何日期字段中都不能是有效值</李>
清理后的數據被轉換成合適的格式來分析數據。
數據轉換包括:
- 不需要的數據記錄的過濾器</李>
- 連接從不同來源獲取的數據</李>
- 數據的聚合或分組</李>
- 數據類型轉換</李>
3。關鍵績效指標/洞察力推導
數據挖掘、深度學習方法用于評估關鍵績效指標(KPI),或從清理和轉換的數據中獲得有價值的見解?;诜治龅哪繕?,使用各種模式識別技術(如k-means聚類、SVM分類、貝葉斯分類器等)和機器學習模型(如馬爾可夫模型、高斯混合模型(GMM))進行數據分析。
概率模型在訓練階段學習最優模型參數,在驗證階段,使用k-折疊交叉驗證測試對模型進行測試,以避免過擬合和欠擬合錯誤。數據分析最常用的編程語言是R和Python。兩者都有一套豐富的庫(SciPy、NumPy、Pandas),它們都是開源的,可以執行復雜的數據分析。
4。數據可視化
數據可視化是清晰有效地展示未發現模式的過程,使用圖形、繪圖、儀表盤和圖形從數據中得出結論。
- QlikView、Tableau等數據報告工具以不同的粒度級別顯示KPI和其他衍生指標</李>
- 報告工具使最終用戶能夠使用用戶友好的拖放界面,使用pivot和drill-down選項創建自定義報告</李>
- 交互式數據可視化庫,如D3。js(數據驅動文檔)、HTML5圖表等。。用于提高探索分析數據的能力</李>