機器學習=資料探勘?

機器學習(Machine Learning)屬於人工智能(Artificial Intelligence)的其中一門學科,人工智能界的先驅者Arthur Samuel在1959年給人工智能定義為令電腦機器無需明確編程,也有能力學習。人工智能的研究人員一般在研究,設計和開發A.I算法,務求讓機器能像人一般思考。而機器學習的模型有部分是基於數學統計的理論假設被設計出來的,亦有部分無需為模型作出任何假設,各式各樣的模型不停演化,由最基礎的Regression和Tree,至ANN和Random Forest,進階至Bagging, Boosting,多樣化的配搭也亦筆者著迷。

資料探勘(Data Mining)定義為從結構或非結構性的數據中發掘隱藏的資訊,而剛好機器的學習的模型成為資料探勘的工具,借此來進行分類或預測,亦著重闡釋那些因素如何影響結果。有時,為了解釋模型如何影響結果,選擇一個性能較弱但能夠解釋的模型,

明顯地,資料探勘和機器學習最大不同的就是其目的,機器學習目的只為機器懂得思考,做最好的決定和預測,而資料探勘著重的則是為結果作最好的解釋,由於這兩個領域用上的工具是一樣的,所以對於模型的設計,假設,理論支持要有一定的認識和基礎知識。





另外,我們常聽到Classification, Prediction, Forecasting這幾個術語,它們挻容易混淆,各人亦對其有不同的見解和定義,對於自己,我會有以下的意見:

Classification = Prediction ?
Classification會用作預計在多個事件中,某一事件會否發生 (Foster & Tom, 2013),所以我們會用模型把每一組分類成最近似的群組,就好像預計顧客們會否流失,把磨菇的品種分類;而Prediction則預計有多少事情會發生,即是一組連續性的數字,例如價錢,數量等。無論是
監督或無監督式的學習模型均可以用作Classification。至於Prediction便需要監督式的學習模型才能滿足。
 
Prediction = Forecasting ?

有一次,我的朋友問我哪個算法模型有能力根據消費記錄來"Forecast"客戶行為。 在我看來,prediction與forecasting有區別我建議他用“Predict”來代替“Forecast”。

在中文,它與“ Predict”和“ Forecast”都是譯作預測。 兩者都用於預測,"Predict"是基於具有已知範圍值的獨立變量來估計目標變量的值,而"Forecast"是估計在已知範圍以內和以外的屬性(例如時間之前和之後)的目標變量的值。 下圖顯示了線性回歸和時間序列(time series)的兩個模型。 回歸的擬合線畫在數據范圍內,而時間序列中的曲線則畫在最大數據範圍之後(也可以在內)。

回到最初的問題上,交易記錄屬於歷史數據,我們只能根據這些已知的範圍預測客戶行為,所以這是一個Prediction的問題。



正如剛才所說,以上是自我的觀點,旨在這個話題引發更多討論。因此,歡迎您們在這里分享自己的想法或意見!

Comments

  1. IT's very informative blog and useful article thank you for sharing with us , keep posting learn more about Product engineering services | Product engineering solutions.

    ReplyDelete

Post a Comment

Popular posts from this blog

Boosting vs Bagging? 別再胡亂用了!

機器學習之陷阱 - Imbalance Class Classification

Excel VBA - 自動生成分析報告