預測電信商客戶的流失

業務問題
在大數據時代,許多技術和分析工具幫助我們根據客戶的歷史活動,來分析其行為和生命週期。 當然,許多公司不想錯過機會並落伍,電信公司Telco也不例外。 現在,Telco面臨的挑戰是,它花費了很多運營成本來獲取新客戶,但卻發現客戶群的增長不似預期。 顯然,這是因為有些客戶流失了,不再使用該服務,很可能會切換到其他電信提供商。於是,它引起了電信公司管理層的關注。 本文中,我們將扮演客戶分析團隊的角色,以緩解客戶流失問題,並建立長期解決方案以降低流失率。

在此之前,讓我們看看我們擁有哪些歷史數據(可在Kaggle中找到)。 大約有七千條記錄顯示了人口統計信息,訂閱服務的合同詳細信息以及單個客戶的費用金額。 為了更好地說明,Data Dictionary如下:

No.
Column
Desc
1
customerID
Customer ID
2
gender
Gender
3
SeniorCitizen
10,具體取決於客戶是否為老年人
4
Partner
客戶是否是合作夥伴
5
Dependents
客戶是否有受撫養人
6
tenure
服務期開始
7
PhoneService
訂閱電話服務
8
MultipleLines
多條線路的訂購電話服務
9
InternetService
訂閱的互聯網服務
10
OnlineSecurity
訂閱的在線安全
11
OnlineBackup
訂閱的在線備份
12
DeviceProtection
帶來設備保護
13
TechSupport
訂閱的技術支持服務
14
StreamingTV
訂閱的流媒體電視
15
StreamingMovies
訂閱的流電影
16
Contract
合同類型
17
PaperlessBilling
是否使用非書面形式開票
18
PaymentMethod
付款方法
19
MonthlyCharges
每月收費
20
TotalCharges
總費用
21
Churn
是否流失



解決方案設計
為了克服這個問題,我們建議了解流失的傾向性以及影響潛在結果的主要因素。 因此,我們將建立一個預測模型,以估計每位客戶的流失可能性。由於我們的數據變量大多是Categorical, 為了避免Prediction Shift的出現,所以決定採用Catboost分類器進行預測。 對模型進行訓練和驗證後,再應用Shapley Additive exPlanations解釋輸出結果,以確定每個變量如何影響正向或負向的傾向。機率評分和對應的主要因素將會是客戶經理在合同期限結束之前要如何挽留客戶的重要參考。


模型性能和解釋
Catboost的預測表現尚算令人滿意。 它達到82%的準確度和0.87 AUC。下圖是帶有歸一化和ROC曲線的Confusion Matrix作參考:



從電信公司的角度來看,保留潛在的流失客戶會涉及一定成本,如果將客戶誤判為流失客戶,但事實上並沒有離開的打算則會造成損失。 相反,模型預計不會流失但最終還是停止服務的客戶,也會造成潛在的銷售和收入損失。


如前所述,SHAP主要用於解釋因素的影響。 現在,我們將重點放在不同的變量上,以探討任何其和客戶流失機會的關係。 一般而言,任期較長,費用總額較低,但較高的月度費用或者老年人的流失機會更大。 明顯地,每個數值特徵和流失機會率之間都沒有非線性關係。



在上圖,所有Categorical Variable都沒有顯示任何顏色,因為沒法知道這變數的大小。 因此,我們把這些變數都變成Dummy Variables,並進行了Correlation analysis,好讓我們看到它們和流失有什麼的關係,作為另一個重要參考。


此外,SHAP還可以解釋每個客戶,是哪個主而得出模型的結果。舉一個例子,一名客戶具有模型預計會流失的概率為80%,為何會得出這麼高的機會?原來因為合約有效期都是一個月,每個月續約,沒有提供技術支持,這意味著該客戶切換到另一家電信提供商的成本較低。 因此建議銷售前線在合同終止之前採取先行措施,例如,提出在新合同中提供較便宜但更長的合約限



作為臨時解決方案,我們可以把前三個因素增加或減少流失的模型結果把結果分享銷售部門。 從長遠來看,這個模型可以融合在公司的銷售平台上,以便客戶經理可以審查評分,加上專業的判斷以採取適當的行動。 此外,該模型需要作定期維護,使用最新的數據集進行訓練,令模型學習最新的客戶行為。


Comments

Popular posts from this blog

Boosting vs Bagging? 別再胡亂用了!

機器學習之陷阱 - Imbalance Class Classification

Excel VBA - 自動生成分析報告