女生看男生,男生看女生?
最近,我在一個在杜雷斯專頁的貼文中(利申:沒有收取廣告費,要給我是歡迎的,笑)看到了有一個決策樹(Decision Tree),我本來一笑而之,可是再想一想,用直覺去判斷這個樹的設計,也好像是挺合理的。突然,我的靈感就跑出來,如果用數據去建模(Modeling)的話,結果會一樣嗎?這個無聊的想法也驅使我做更無聊的事,就是把分類決策樹(Classification Tree)建造出來 LOL,看看朋友們的想法是否接近這幅圖所表達的~
如果自己沒有膽量,又想了解女神或者男神對你的感覺,這棵樹應該可以幫助你,因為它能大概預測到男神或女神對你有沒有好感!
剛好筆者正在學習使用R,所以分析和建模的那部分這一次就交給R,來當作練習吧~所以對不起了,Python大大~_~
首先,我認清自己的目標和方向
目標變數 (Target Variables): 對異性的感覺,值有以下3個:
$y_1$: 有好感的(好感)
$y_2$: 沒有好感,但覺得是好人 (好人)
$y_3$: 完全沒有好感(BYE~)
輸入變數(Input Variables):
$x_1$: 外表, Appearance(帥vs不帥, 美女vs不好看)
$x_2$: 交流, Chatable(聊得來,聊不來)
為了獲得數據,最直接了當就是去做訪問,而訪問對象當然就是自己的朋友們(還好沒有傷害到友情),去了解他們對自己的朋友X先生/Y小姐們的感覺。
想直接看結果,直接拉去 ===分隔線=== 吧~
於是我設計幾個問題, 來刁難訪問我幾位的朋友們:
為了提高問卷可信性,外表和交流因素各拆分成3個問題,回答只有兩個選項:對/不對,以最多的對或者不對來決定該因素是對還是不對,即是,如果我回答Y小姐外表吸引,樣子漂亮,可是身材不好,那麼外表因素會被視為對(Apperance = 1)。
筆者一共訪問了16位朋友,每位朋友提交大概3至5個回應,收集回來的回應一共有60,其中31個來自女生的,29個來自男生的。
P. S. 由於R不能顯示中文,所以用了英文表示:
Interested: 有好感的
Good Guy: 沒有好感,但覺得是好人
Bye~: 完全沒有好感
好!先來看看"女生看男生"的決䇿樹(右圖),跟左圖也十分相似,結果與我想像的是有出入,我本以為女生除了帥哥,還要看看能不能聊天,可是這棵樹表示只有是帥哥,女生就直接有好感,這讓我很詫異,女生看外表實屬正常,可是談不來的男生也通吃,這個說法未免太飢喝了吧,實在是說不過去,於是我直接把數據閱讀一次,發現了全部被認為是外表吸引的男生,同時是聊得來的,用概率來表示即是$P(Chatable=1|Appearance=1) = 1$。至於為什麼決策樹左邊的Node(綠色那個節點)沒有再分成2支,是綠色節點裡的男生(帥,Apperance = 1)全都是聊得來(chatable = 1),根本沒有聊不來的男生,$n(chatable=0)=0$),所以綠色節點裡已經不能再分裂下去,這就能解釋這個看似女生都很肉食的現象~LOL
P. S.
綠色節點(1)裡面都預為"好感"
藍色節點(2)裡面都預為"好人"
橙色節點(3)裡面都預為"BYE~"
如果你不想了解這棵樹的構造跟用途,可以直接跳去男生看女生那部分。所謂在機器學習(Machine_Learning)的決策樹(Decision_Tree),就是有利用分支上規則來決定(預測)目標變數的值,由於今次的研究的目標變數是3個類別,所以我建的是分類樹(Classification_Tree),顧名思義,就是用作分類,至於如何決定用什麼的規則來作分支,還有迴歸樹(Regression_Tree)等,請期待未來的文章,我會發佈一個決䇿樹的詳細教學。
先回到這裡,右圖有3個Leaf Nodes,最左邊綠色的有5組數字,到底這是什麼意思呢?最上面的是預測的類別代號,1就是"好感",剛才也討論過,綠色節點的男生都帥哥,0.83, 0.17, 0.00就是說明,有83%的帥哥是被認為有好感,17%的是好人,沒有帥哥是被拒絕的(0%),這個肉食現象已經解釋了, 有39%的小鮮肉都被分配到這個節點。所以再看看藍色的,不帥可是聊得來的男生,有7%幸運得到女生的青睞,七成的都被派好人卡了(哭哭),其餘BYE了。橙色的不用說了,跟沒有外表又聊不來的男生直接說再見。男生們不用擔心,俗語有話情人眼裡出西施,在某些女生眼中,你可能是她們眼中的帥哥。
那麼這裸樹,為什麼能達到預測的效果呢?其實每一個Leaf_Node的類別也是從真普選選出來的,綠色節點裡好感的男生佔太多數,所以這個節點被視為"好感",如此類推,藍色是"好人",橙色是"BYE~",絕對是十分民主的。假設我手頭上多了一些數據可是沒有目標變數不見了,也即是去訪問女性朋友A對男性朋友B的外表帥不帥跟能不能聊得來,可是直接問對朋友B有沒有好感,實在讓人難為情和尬尷,,這時候,這裸樹就大派用場了!根據樹上的規則,如果朋友B不是朋友A眼中的帥哥(Appearance = 0),又能聊得下去 (Chatable = 1),他已經被分類為"好人",作為兄弟只好安慰他,準備收好人卡吧(Sosad)。不用擔心,模型的預測是不可能100%準確的,所以是不能盡信的,不要過於依賴這些模型預測的結果啊!
很明顯的,如果覺得女生沒有吸引的外表,91%的機會收好人卡或者拒絕,你可能會說男生都很膚淺很壞的,只顧外表,可是,當我看到右圖的藍色節點後,發現我建的模型(右圖)是預測為"沒有好感",而左圖的則是"好感",把左圖的作者直接打臉。所以不要認為女生們不要傻傻的以為男生只看重外表,凡是美女都會有好感,那只是用來安慰自以為有漂亮臉蛋,性格王八蛋的女生啊。
要了解這棵樹的構造,原理跟"女生看男生"的那一棵是一模一樣的,數字所表達的意思是一樣,所以可以參考"女生看男生"那部分。不過,這裡特別一點就是,左邊的藍節點有7%的漂亮女生在裡面,可是她們都是男生眼中的"BYE~",由於這個節點沒有混雜了其他類別,很Pure也很True,所以這個節點稱為Pure Leaf Node, 其Impurity的值為0。
只要我把目標變數還原回三個值:"好感","好人","BYE~",就更清楚男生的想法,外表跟聊得來也是同樣重要的,缺少其中一樣也只是男人心目中的"好人",至於"BYE~",大家都是聰明人的,我就不解釋了,嗯。
綜觀兩個結果,對於男生和女生,要對一個異性產生好感,外表跟聊得來這兩個因素,缺一也不可。其實結果也很直覺的,只是筆主也想看看會不會有什麽特別的發現,例如漂亮的女生或者帥哥會被直接Say Bye~。
另外,想知道女神或者男神們,你可以請你的好友跟你的女神男神們套話,如果他們心裡覺得你外表吸引又談得來,那麼你準備"得米"(成功)吧!當然,模型的預測能力不是百分之百,如果結果不是想像中的,也不要太灰心,因為你根本不知道女神男神們的真正想法,據筆者經驗,尤其是男生們,與其守株待兔倒不如主動出擊吧!
當談到那一個因素是比較重要的,很抱歉決策樹不能檢測因素對輸出的相對重要性,所以我是不知道的。如果徇眾要求的話,我倒是可以建其他的模型,來對比重要性。
當然,這個實驗的準確可信性也有一些因素限制,包括樣本數量並不多,而且沒有考慮研究對象的年齡,性格,經濟,家境,感情狀態等其他因素,會造成統計學上的取樣偏誤(Sampling Bias) ,所以分析結果不能應用在Population上, 即是所有香港人身上,換句話說就是不能以偏概全。
更重要的是,收集回來的回應可能並不是朋友們心裡想的一樣,始終這是比較敏感的問題嘛,如果是說謊是可以原諒的~這也因此難免造成誤差。
而且目標變數(Target Variable),一般會集中"好人"這個類別,對於一個人來說,在自己的朋友圈中,"好人"的數目一定會多過"有好感的"或者"完全沒有好感",因此會出現統計學上的bias,如果"好人"的數目太多的話,決策樹的預測能力會受到影響,還好類別的比例沒有出現太大的差距。
現實上,一個人會對一個異性有好感,不一定是外表跟談得來那麽的簡單,還有相處,經濟,環境,時間洗禮等不同因素,這個小實驗純粹試一下廣告貼文中的樹是否有根據而已,如果過份認真你就輸了~(所以我早已輸了X"D)
最後,如果你覺得我的文章或好看或是有用的話,不妨給我一個G+1吧!謝謝你,不是因為你的G+1,是因為你已經把我的文章讀完,感謝你的時間,尤其是幫我做填問卷的各位好朋友,沒有你們的幫忙,就沒有這篇文章!
如果自己沒有膽量,又想了解女神或者男神對你的感覺,這棵樹應該可以幫助你,因為它能大概預測到男神或女神對你有沒有好感!
剛好筆者正在學習使用R,所以分析和建模的那部分這一次就交給R,來當作練習吧~所以對不起了,Python大大~_~
來源:杜雷斯Facebook專頁
首先,我認清自己的目標和方向
目標變數 (Target Variables): 對異性的感覺,值有以下3個:
$y_1$: 有好感的(好感)
$y_2$: 沒有好感,但覺得是好人 (好人)
$y_3$: 完全沒有好感(BYE~)
輸入變數(Input Variables):
$x_1$: 外表, Appearance(帥vs不帥, 美女vs不好看)
$x_2$: 交流, Chatable(聊得來,聊不來)
為了獲得數據,最直接了當就是去做訪問,而訪問對象當然就是自己的朋友們
想直接看結果,直接拉去 ===分隔線=== 吧~
於是我設計幾個問題, 來
1a. 你覺得X先生/Y小姐外表吸引嗎? 對/不對
1b. 你覺得X先生/Y小姐的樣子帥嗎? 對/不對
1c. 你覺得X先生/Y小姐的身材好嗎? 對/不對
2a. 你跟X先生/Y小姐聊得來嗎? 對/不對
2b. 你會想繼續跟X先生/Y小姐聊天嗎? 對/不對
2c. 你不會抗拒跟X先生/Y小姐聊天嗎? 對/不對
3. 那麽,你對X先生/Y小姐的感覺是嗎?
有好感的/沒有好感,但覺得是好人/完全沒有好感 (三選一)
4. 你是男生還是女生? 男/女
為了提高問卷可信性,外表和交流因素各拆分成3個問題,回答只有兩個選項:對/不對,以最多的對或者不對來決定該因素是對還是不對,即是,如果我回答Y小姐外表吸引,樣子漂亮,可是身材不好,那麼外表因素會被視為對(Apperance = 1)。
筆者一共訪問了16位朋友,每位朋友提交大概3至5個回應,收集回來的回應一共有60,其中31個來自女生的,29個來自男生的。
女生眼中的男生分佈圖
P. S. 由於R不能顯示中文,所以用了英文表示:
Interested: 有好感的
Good Guy: 沒有好感,但覺得是好人
Bye~: 完全沒有好感
男生眼中的女生分佈圖
==================================== 女生看男生 ====================================
好!先來看看"女生看男生"的決䇿樹(右圖),跟左圖也十分相似,結果與我想像的是有出入,我本以為女生除了帥哥,還要看看能不能聊天,可是這棵樹表示只有是帥哥,女生就直接有好感,這讓我很詫異,女生看外表實屬正常,可是談不來的男生也通吃,這個說法未免太飢喝了吧,實在是說不過去,於是我直接把數據閱讀一次,發現了全部被認為是外表吸引的男生,同時是聊得來的,用概率來表示即是$P(Chatable=1|Appearance=1) = 1$。至於為什麼決策樹左邊的Node(綠色那個節點)沒有再分成2支,是綠色節點裡的男生(帥,Apperance = 1)全都是聊得來(chatable = 1),根本沒有聊不來的男生,$n(chatable=0)=0$),所以綠色節點裡已經不能再分裂下去,這就能解釋這個看似女生都很肉食的現象~LOL
P. S.
綠色節點(1)裡面都預為"好感"
藍色節點(2)裡面都預為"好人"
橙色節點(3)裡面都預為"BYE~"
如果你不想了解這棵樹的構造跟用途,可以直接跳去男生看女生那部分。所謂在機器學習(Machine_Learning)的決策樹(Decision_Tree),就是有利用分支上規則來決定(預測)目標變數的值,由於今次的研究的目標變數是3個類別,所以我建的是分類樹(Classification_Tree),顧名思義,就是用作分類,至於如何決定用什麼的規則來作分支,還有迴歸樹(Regression_Tree)等,請期待未來的文章,我會發佈一個決䇿樹的詳細教學。
先回到這裡,右圖有3個Leaf Nodes,最左邊綠色的有5組數字,到底這是什麼意思呢?最上面的是預測的類別代號,1就是"好感",剛才也討論過,綠色節點的男生都帥哥,0.83, 0.17, 0.00就是說明,有83%的帥哥是被認為有好感,17%的是好人,沒有帥哥是被拒絕的(0%),這個肉食現象已經解釋了, 有39%的小鮮肉都被分配到這個節點。所以再看看藍色的,不帥可是聊得來的男生,有7%幸運得到女生的青睞,七成的都被派好人卡了(哭哭),其餘BYE了。橙色的不用說了,跟沒有外表又聊不來的男生直接說再見。男生們不用擔心,俗語有話情人眼裡出西施,在某些女生眼中,你可能是她們眼中的帥哥。
那麼這裸樹,為什麼能達到預測的效果呢?其實每一個Leaf_Node的類別也是從真普選選出來的,綠色節點裡好感的男生佔太多數,所以這個節點被視為"好感",如此類推,藍色是"好人",橙色是"BYE~",絕對是十分民主的。假設我手頭上多了一些數據可是沒有目標變數不見了,也即是去訪問女性朋友A對男性朋友B的外表帥不帥跟能不能聊得來,可是直接問對朋友B有沒有好感,實在讓人難為情和尬尷,,這時候,這裸樹就大派用場了!根據樹上的規則,如果朋友B不是朋友A眼中的帥哥(Appearance = 0),又能聊得下去 (Chatable = 1),他已經被分類為"好人",作為兄弟只好安慰他,準備收好人卡吧(Sosad)。不用擔心,模型的預測是不可能100%準確的,所以是不能盡信的,不要過於依賴這些模型預測的結果啊!
==================================== 男生看女生 ====================================
至於男生看女生,由於原圖的目標變數只有兩個值:"好感","BYE~",因此我把問卷裡的目標變數:"沒有好感,但覺得是"好人"和"完全沒有好感"合成為"沒有好感"。我們可以從下面的對比圖看到,樹的結構跟原圖是一樣的!很明顯的,如果覺得女生沒有吸引的外表,91%的機會收好人卡或者拒絕,你可能會說男生都很膚淺很壞的,只顧外表,可是,當我看到右圖的藍色節點後,發現我建的模型(右圖)是預測為"沒有好感",而左圖的則是"好感",把左圖的作者直接打臉。所以不要認為女生們不要傻傻的以為男生只看重外表,凡是美女都會有好感,那只是用來安慰自以為有漂亮臉蛋,性格王八蛋的女生啊。
要了解這棵樹的構造,原理跟"女生看男生"的那一棵是一模一樣的,數字所表達的意思是一樣,所以可以參考"女生看男生"那部分。不過,這裡特別一點就是,左邊的藍節點有7%的漂亮女生在裡面,可是她們都是男生眼中的"BYE~",由於這個節點沒有混雜了其他類別,很Pure也很True,所以這個節點稱為Pure Leaf Node, 其Impurity的值為0。
只要我把目標變數還原回三個值:"好感","好人","BYE~",就更清楚男生的想法,外表跟聊得來也是同樣重要的,缺少其中一樣也只是男人心目中的"好人",至於"BYE~",大家都是聰明人的,我就不解釋了,嗯。
綜觀兩個結果,對於男生和女生,要對一個異性產生好感,外表跟聊得來這兩個因素,缺一也不可。其實結果也很直覺的,只是筆主也想看看會不會有什麽特別的發現,例如漂亮的女生或者帥哥會被直接Say Bye~。
另外,想知道女神或者男神們,你可以請你的好友跟你的女神男神們套話,如果他們心裡覺得你外表吸引又談得來,那麼你準備"得米"(成功)吧!當然,模型的預測能力不是百分之百,如果結果不是想像中的,也不要太灰心,因為你根本不知道女神男神們的真正想法,據筆者經驗,尤其是男生們,與其守株待兔倒不如主動出擊吧!
當談到那一個因素是比較重要的,很抱歉決策樹不能檢測因素對輸出的相對重要性,所以我是不知道的。如果徇眾要求的話,我倒是可以建其他的模型,來對比重要性。
========================================================================
當然,這個實驗的準確可信性也有一些因素限制,包括樣本數量並不多,而且沒有考慮研究對象的年齡,性格,經濟,家境,感情狀態等其他因素,會造成統計學上的取樣偏誤(Sampling Bias) ,所以分析結果不能應用在Population上, 即是所有香港人身上,換句話說就是不能以偏概全。
更重要的是,收集回來的回應可能並不是朋友們心裡想的一樣,始終這是比較敏感的問題嘛,如果是說謊是可以原諒的~這也因此難免造成誤差。
而且目標變數(Target Variable),一般會集中"好人"這個類別,對於一個人來說,在自己的朋友圈中,"好人"的數目一定會多過"有好感的"或者"完全沒有好感",因此會出現統計學上的bias,如果"好人"的數目太多的話,決策樹的預測能力會受到影響,還好類別的比例沒有出現太大的差距。
現實上,一個人會對一個異性有好感,不一定是外表跟談得來那麽的簡單,還有相處,經濟,環境,時間洗禮等不同因素,這個小實驗純粹試一下廣告貼文中的樹是否有根據而已,如果過份認真你就輸了~(所以我早已輸了X"D)
最後,如果你覺得我的文章或好看或是有用的話,不妨給我一個G+1吧!謝謝你,不是因為你的G+1,是因為你已經把我的文章讀完,感謝你的時間,尤其是幫我做填問卷的各位好朋友,沒有你們的幫忙,就沒有這篇文章!
Comments
Post a Comment