You Jump, I Jump? (上)
筆者最近脫離苦海,工作生活總算變得好平衡一點,於是無聊逛逛 Kaggle.com ,看看有什麼最新的數據分析的比賽進行中, 我左看右看上看下看,每一個的比賽都不簡單(歌聲) ,直到我看到Titanic...... 我就停下來,心裡在想當年鐡達尼也有數據嗎?Come On James,原來真的是有的,好吧,我投降了。再仔細看看,原來這個比賽的目的是想讓初學者學習和應用Machine Learning的技術,所以比賽的結束時間才會截至2020年,嚴格來說這算不上是比賽,不過也沒有所謂了,反正我是因為主題而衝著來的,相信大家都知道鐡達尼下沉的故事,由於那次的意外實在太震撼,後來也拍成一部電影,從來沒有看過的朋友不用擔心,谷阿莫會用5分鐘的時間,讓你清楚來龍去脈,科科。 Source: YouTube (主頻道【谷阿莫】) 首先我們有兩組數據(Data Source: https://www.kaggle.com/c/titanic / https://www.encyclopedia-titanica.org /),一組是已知生死的乘客的資料,主要用來訓練模型的數據,另外一組是生死未卜的乘客資料 (不包括船員,船長) ,那現在要幹嗎了?沒錯,這次研究的目的有兩部分:(1) 用數據來描繪出當時的情況,(2)估計在這次事件中當時的乘客能否存活。為避免文章太冗長,現在這篇文章只包含上半部分的分析,下半部分則在另一篇文章繼續討論。 可能你沒有想過我們能透過電腦,便可以達到這個目的。站在Machine Learning的角度看,這是一個分類(Classification)的問題,從已知的數據學習,並對新的數據推算某乘客能夠存活(Survived)或者是不幸逝世(Not Survived)。我們先了解和分析一下當時的環境和存活的因素,好讓我們做一個更準的模型。 乘客們來自? 當時乘坐鐡達尼號的乘客有1309人,其25%是坐頭等艙,其餘21%和54%分別在二等和三等艙。 船上大部分也是男性(843人),而女性只有466人,年齡層的分佈(如下圖)大多是21-30的成年人,有20%的乘客年齡為不詳。 誰更喜歡和親人共享天倫之樂? 大多數人都是沒有親友或者伴侶陪同之下上船的,筆者好奇觀察一下他們的年齡,...