資料探索 - 數據挖掘過程的概述

在之前的文章也提到過,資料探勘是從數據庫中找尋有用資料,或從未經結構化的數據中擷取有用信息的過程。資料探索模型在用法上不會只局限於Machine Learning演算法的應用。

到底這個方法如何運作呢?看看下圖來了解當中的過程吧:



數據整合
來自不同數據庫的資料會首先被整合,并存放於稱為數據倉庫的資料存放系統裡。其目的是準備原始數據並進一步處理。表格存放資料的格式都是由資料的特質(直行)和紀錄(橫行)組成。

抽樣
大部分的資料探索模型涉及複雜的演算法,當遇上太大量的數據,便難以進行分析。因此,只抽出部分的數據作建模以節省運算時間。
抽樣有幾種方法:例如隨機抽樣,系統抽樣和分群法(Clustering)。均是減少數據量的好方法。

數據探索
為了觀察數據的結構和檢測是否存在缺失和奇怪數據,所以先進行數據探索,可以利用統計的技巧來分析,概括和描述這些資料。而最常用的方法便是平均值和方差。毫無疑問,利用圖像代替數字來表達數據,不但能令讀者更容易洞察數據的分佈, 也更有助於把結果包裝成故事說給聽眾們。

數據清理
在現實中,並沒有“完美"的數據。 收集回來的數據不能避免有缺失或異常值(Outlier),所以我們需要進行數據的清理。 它的目的在於確保數據質量,從而提升數據挖掘的準確度。先前寫下的文章會為大家介紹一連串提升數據質量的方法。

數據分區
在挖掘資訊的過程,為了利用一部分的數據來驗證模型的準確性或者檢測模型有沒有過度學習。由於驗證模型並不是必要的,所以決定數據區需要分區也取向於分析的目的,也不是必要的步驟。一般來說,我們可以把數據源按一定比例分為三部分: 訓練,驗證,測試數據集。 首先利用訓練部分的數據中的目標變數(Target variable)來訓練及構建所需的模型。 而驗證部分的數據會被注入訓練數據的模型中,從中得出模型的表現(例如分類/預測的準確性),繼而選擇最佳模型。最後,測試數據會放入那個最佳的模型,獲得和評估得出的的結果。

建模
談到模型這部分,這無疑是萬眾期待和令人著迷的部分,因為不同的模型都有它們的作用,有些能用作分類,預測和分群法等。能夠用作分類的模型也可以分為監督式學習,有邏輯回歸,人工神娙網絡,K-近鄰和支持向量機模型,而非監督式學習則有分群法,自組織映射圖等。至於線性回歸,決策樹,人工神娙網絡,支持向量機模型均是常用作預測的模型。

模型評估
無可否認,我們很難一次便能把模型的性能推到最高,根據適當的性能指標來調整模型的參數或者再一次清理數據,令模型發揮其最大功用。


部署實施
表現最好的模型會用作分析或估算。例如,某個分類的模型會把新的數據進行分類,判斷其屬於那一個類別。


解釋
當我們獲得結果之後,便可以解釋由模型得出的資訊或者是預測結果。


相信讀者們會看得一頭霧水,紿終整個過程實在難以用三言兩語能解釋,尤其是對於初學者。不過不用擔心,我會在其他文章示範更多實際的例子,讓各位更明白資料探索和機器學習,而且是多麼容易令人著迷。




Comments