Business Domain表示:你是看不起我嗎?
當談到數據科學、人工智能流行語,幾乎每個人都會眼前一亮,相信數據分析師和數據科學家選擇入行的原因之一都是因為他們沉醉在於最先進的預測、語言和圖像模型,而這些模型讓他們成為預言家去推測未來趨勢或事件。但當中尤其是初學者會誤以為一直追求強大而複雜的演算法或統計模型,便可以解決一切的問題,於是投入全副精力在模型開發和優化。然而,在實際的工作環境中,數據科學家不應只一味盲目追求複雜的演算法,完美的模型,無可否認這是值得讚賞的,但是請不要忽略了業務操作和流程的重要性。為了證明其重要性,我將提出一個案例研究,在本文中作進一步解釋和討論。 在美國的一個線上平台LendingClub (LC)幫助連接貸款人與借款人,進行Peer-to-peer貸款,它還從貸款人和借款人的貸款記錄中收集數據。假設現在,我們想推行一個新的Data Science Project,就是開發一個Auto-engine來預測客戶是否會違約,並自動拒絕那些高風險的貸款。正好,Kaggle 的Dataset也記錄了LendingClub (LC)的完整貸款記錄。而數據字典可供我們瞭解每個欄位的定義和描述,而這些數據被提取並保存在一個csv 檔。 No. 資料欄位 簡要說明 1 id 客戶的唯一識別碼 2 credit_policy 1 或 0 取決於借款人是否符合某信貸標準 3 loan_amount 借款人申請的貸款清單金額 4 term 貸款付款期數 5 instalment 借款人每月所欠的付款 6 grade 貸款等級 7 emp_length 以年計僱傭時間 8 home_ownership 借款人在登記期間提供的房屋擁有權狀況或從信用報告中獲得的房屋擁有權狀況 9 annual_income 借款人提供的自報年收入 10 verification_status 指示收入是否已驗證 ...