Data & Model, 誰更重要？

- May 09, 2016

還記得筆者出席某公司的面試，面試官問了我一個頗有爭議性的問題：到底Data(數據)和Model(模型)，那個更重要？我當時的想法是，如果沒有數據，有多精準多強大的模型或演算法，也是紙上談兵。於是把我表達這個見解，沒想到面試官反問道：如果沒有模型和演算法，你還可以基於已有的數據做分析嗎？我當時並不同意這看法，因為自己做分析的時候，總是覺得如果有多一點數據的屬性，分析或者預測結果會一定更好，現在Python跟R的Library已經擁有各式各樣的演算法，Ensemble跟boosting等也大大增強了預測結果，剩下的工作只有Data Cleansing跟Feature Engineering，而這就依賴著你有什麽類型的數據和其質素。但事後細心一想，其實這個問題的答案其實很簡單：當你缺乏數據，數據就顯得更重要，反之亦然，沒有模型的話，你才知道它的重要，而且數據跟模型兩者缺一也不可。其實這與"廚具和食材，那個更重要？"有異曲同工之妙。因為那時候的我認為模型並不缺乏，所以才會突顯出數據比較重要，因而下了這個結論。

對於一間企業，它缺的不是數據，而是人才，是一個能從各式各樣又無處不在的數據中發掘有用的資訊的人，把平平無奇和悶透的數據，利用統計模型化成有用的資訊，協助管理層決策，了解市場環境。模型成了他們的挖擴的工具，從而逹到以上目的。一般中至大型企業資料庫早已儲下數年的數據，因此它們最缺乏是人才。當然如果公司期望做更多深入的分析，而資料庫並沒有存下一些重要的數據種類，那時候才發現數據的重要。對於小型初創的企業，更不用說，人才和數據都是它們渴求，需要這些專家把周圍的數據，不論是Open Data和Web data爬下來，並加以建模分析。

從學術角度出發，這段YouTube短片 (按我) 指出，在兩個相同強大的模型下，較大的數據量會提升Precision，即是已知我們選出了數個data instances，在這裡面找到我們想要的data instances比起不想要來的更多，簡單來說準成度是有所提升，由此可見，數據量扮演住一個十分重要的角色，在不缺強大的演算法下，數據顯得較為重要。當然，還有更多的研究支持"更多的數據勝過更聰明的演算法"這個觀點未能盡錄在此。

對於現在的筆者，因為還有很不同形式的數據，包括數字、文字、圖片，跟複雜的模型和演算法缺乏更深入的了解和掌握，所以無論數據或是模型，兩者皆是非常重要，仍需繼續努力學習！

Data Jungler囧囧地努力中！

Search This Blog

Data Jungler

Data & Model, 誰更重要？

Comments

Post a Comment

Popular posts from this blog

機器學習之陷阱 - Imbalance Class Classification

Excel VBA - 自動生成分析報告

Excel VBA - Generate a report in dashboard format