Posts

Showing posts from March, 2020

Business Domain表示:你是看不起我嗎?

Image
當談到數據科學、人工智能流行語,幾乎每個人都會眼前一亮,相信數據分析師和數據科學家選擇入行的原因之一都是因為他們沉醉在於最先進的預測、語言和圖像模型,而這些模型讓他們成為預言家去推測未來趨勢或事件。但當中尤其是初學者會誤以為一直追求強大而複雜的演算法或統計模型,便可以解決一切的問題,於是投入全副精力在模型開發和優化。然而,在實際的工作環境中,數據科學家不應只一味盲目追求複雜的演算法,完美的模型,無可否認這是值得讚賞的,但是請不要忽略了業務操作和流程的重要性。為了證明其重要性,我將提出一個案例研究,在本文中作進一步解釋和討論。 在美國的一個線上平台LendingClub (LC)幫助連接貸款人與借款人,進行Peer-to-peer貸款,它還從貸款人和借款人的貸款記錄中收集數據。假設現在,我們想推行一個新的Data Science Project,就是開發一個Auto-engine來預測客戶是否會違約,並自動拒絕那些高風險的貸款。正好,Kaggle 的Dataset也記錄了LendingClub (LC)的完整貸款記錄。而數據字典可供我們瞭解每個欄位的定義和描述,而這些數據被提取並保存在一個csv 檔。 No. 資料欄位 簡要說明 1 id 客戶的唯一識別碼 2 credit_policy 1 或 0 取決於借款人是否符合某信貸標準 3 loan_amount 借款人申請的貸款清單金額 4 term 貸款付款期數 5 instalment 借款人每月所欠的付款 6 grade 貸款等級 7 emp_length 以年計僱傭時間 8 home_ownership 借款人在登記期間提供的房屋擁有權狀況或從信用報告中獲得的房屋擁有權狀況 9 annual_income 借款人提供的自報年收入 10 verification_status 指示收入是否已驗證 ...

利用Amazon.com的買家評論,對銷售登山用品的電子商務平台提出戰略性建議

Image
業務問題與目的 一家名為 HikeSports 的專售徒步旅行運動用品的虛構公司,將啟動一個新的零售業務,計劃在線電子商務平臺上銷售徒步旅行相關的商品。管理層的計劃是戰略式進入市場,爭取更多的市場份額。 希望透過瞭解客戶對徒步旅行相關商品的反饋的市場趨勢,並開發一個推薦系統,根據使用者喜好和購買歷史記錄,將最合適的商品推送給我們的使用者。 俗話有云:萬事起頭難。 HikeSports 現在面臨的一個障礙是,由於 HikeSports 剛剛開始他們的零售業務,在平臺中成功完成的交易很少,因此存儲的數據量也很少,因此很難構建一個 D ata Science 的 解決方案。幸好, Amazon.com ,美國著名的電子商務平臺正在銷售數千種登山產品,產生無數的交易。客戶更主動對自己購買的產品的留下評。為了進一步了解我們的目標客戶群的行為,通過 W eb scraping 收集頂級相關意見和相應的產品和客戶。通過利用這些數據,我們可以總結客戶們的評論,以瞭解市場需求及其趨勢,並開發推薦引擎。 A s is – 客戶旅程 在目前的在線平台設計中,這裡包括客戶旅程、認知、參與和交易三個階段。對於使用者,他或她登錄到在線商店與認證和搜索他們想要的產品性質,最後可能會找到感興趣的一個。如果用戶沒有退學,他 / 她開始查看其詳細資訊,與備選方案進行比較,並選擇一些放入購物車或標記為 " 最愛 " 。一旦使用者確認訂單, H     ikeSports 將 相應地與他們執行交易和物流安排,這是生命週期的結束。 To be – 客戶旅程 當前行動或網頁介面僅允許使用者根據產品性質來搜索商品。為了增強客戶旅程的更好體驗,建議 在 使用者瀏覽線上平台 添加一個新的 頁面,讓他們利用主題或者是潮流來搜索感興趣的 。 首先,假設我們知道有 k 個主題代表客戶在徒步旅行過程中的行為趨勢,每個產品的主題可以通過構建的 Topic Model 來識別。 使用者特別是初心者,沒有太多裝備,但喜歡探索不同類型的產品,他們可以根據預先設定好的主題,例如,露營、夜間活動等,來找想買的。 如我們所知,大多數客戶傾向於比較類似的,以便他們可以選擇正確的商品。然後選擇最喜歡的放到購物車或進一步付款。此時, HikeSpo...