Data & Model, 誰更重要?

還記得筆者出席某公司的面試,面試官問了我一個頗有爭議性的問題:到底Data(數據)和Model(模型),那個更重要?我當時的想法是,如果沒有數據,有多精準多強大的模型或演算法,也是紙上談兵。於是把我表達這個見解,沒想到面試官反問道:如果沒有模型和演算法,你還可以基於已有的數據做分析嗎?我當時並不同意這看法,因為自己做分析的時候,總是覺得如果有多一點數據的屬性,分析或者預測結果會一定更好,現在Python跟R的Library已經擁有各式各樣的演算法,Ensemble跟boosting等也大大增強了預測結 果,剩下的工作只有Data Cleansing跟Feature Engineering,而這就依賴著你有什麽類型的數據和其質素。但事後細心一想,其實這個問題的答案其實很簡單:當你缺乏數據,數據就顯得更重要,反之亦然,沒有模型的話,你才知道它的重要,而且數據跟模型兩者缺一也不可。其實這與"廚具和食材,那個更重要?"有異曲同工之妙。因為那時候的我認為模型並不缺乏,所以才會突顯出數據比較重要,因而下了這個結論。

對於一間企業,它缺的不是數據,而是人才,是一個能從各式各樣又無處不在的數據中發掘有用的資訊的人,把平平無奇和悶透的數據,利用統計模型化成有用的資訊,協助管理層決策,了解市場環境。模型成了他們的挖擴的工具,從而逹到以上目的。一般中至大型企業資料庫早已儲下數年的數據,因此它們最缺乏是人才。當然如果公司期望做更多深入的分析,而資料庫並沒有存下一些重要的數據種類,那時候才發現數據的重要。對於小型初創的企業,更不用說,人才和數據都是它們渴求,需要這些專家把周圍的數據,不論是Open Data和Web data爬下來,並加以建模分析。

從學術角度出發,這段YouTube短片 (按我) 指出,在兩個相同強大的模型下,較大的數據量會提升Precision,即是已知我們選出了數個data instances,在這裡面找到我們想要的data instances比起不想要來的更多,簡單來說準成度是有所提升,由此可見,數據量扮演住一個十分重要的角色,在不缺強大的演算法下,數據顯得較為重要。當然,還有更多的研究支持"更多的數據勝過更聰明的演算法"這個觀點未能盡錄在此。

對於現在的筆者,因為還有很不同形式的數據,包括數字、文字、圖片,跟複雜的模型和演算法缺乏更深入的了解和掌握,所以無論數據或是模型,兩者皆是非常重要,仍需繼續努力學習!

Data Jungler囧囧地努力中!


Comments

Popular posts from this blog

Boosting vs Bagging? 別再胡亂用了!

機器學習之陷阱 - Imbalance Class Classification

Excel VBA - 自動生成分析報告