利用Amazon.com的買家評論,對銷售登山用品的電子商務平台提出戰略性建議


業務問題與目的
一家名為HikeSports的專售徒步旅行運動用品的虛構公司,將啟動一個新的零售業務,計劃在線電子商務平臺上銷售徒步旅行相關的商品。管理層的計劃是戰略式進入市場,爭取更多的市場份額。 希望透過瞭解客戶對徒步旅行相關商品的反饋的市場趨勢,並開發一個推薦系統,根據使用者喜好和購買歷史記錄,將最合適的商品推送給我們的使用者。
俗話有云:萬事起頭難。HikeSports現在面臨的一個障礙是,由於HikeSports剛剛開始他們的零售業務,在平臺中成功完成的交易很少,因此存儲的數據量也很少,因此很難構建一個Data Science解決方案。幸好,Amazon.com,美國著名的電子商務平臺正在銷售數千種登山產品,產生無數的交易。客戶更主動對自己購買的產品的留下評。為了進一步了解我們的目標客戶群的行為,通過Web scraping收集頂級相關意見和相應的產品和客戶。通過利用這些數據,我們可以總結客戶們的評論,以瞭解市場需求及其趨勢,並開發推薦引擎。






As is – 客戶旅程
在目前的在線平台設計中,這裡包括客戶旅程、認知、參與和交易三個階段。對於使用者,他或她登錄到在線商店與認證和搜索他們想要的產品性質,最後可能會找到感興趣的一個。如果用戶沒有退學,他/她開始查看其詳細資訊,與備選方案進行比較,並選擇一些放入購物車或標記為"最愛"。一旦使用者確認訂單,H   ikeSports相應地與他們執行交易和物流安排,這是生命週期的結束。


To be – 客戶旅程
當前行動或網頁介面僅允許使用者根據產品性質來搜索商品。為了增強客戶旅程的更好體驗,建議使用者瀏覽線上平台添加一個新的頁面,讓他們利用主題或者是潮流來搜索感興趣的首先,假設我們知道有k個主題代表客戶在徒步旅行過程中的行為趨勢,每個產品的主題可以通過構建的Topic Model來識別。使用者特別是初心者,沒有太多裝備,但喜歡探索不同類型的產品,他們可以根據預先設定好的主題,例如,露營、夜間活動等,來找想買的。
如我們所知,大多數客戶傾向於比較類似的,以便他們可以選擇正確的商品。然後選擇最喜歡的放到購物車或進一步付款。此時,HikeSports可以將另一種產品推薦給該客戶,供其考慮。要如何實現這個想法,那麼建立一個新的推薦引擎,在使用者尋找類似產品或在準備付款的時候,向他們推薦可能感興趣的產品




客戶生命週期
客戶關係管理實務中,客戶生命週期是為了理解客戶在在不同階段的行為。事實上,通過一些活動或營銷活動,我們可以獲取新的用家,並希望將其轉換為用家。 HikeSports應該努力留住那些現有的客戶,尤其忠誠的客戶.無論是新的活躍或者回流的的用家,仍有流失的風險。如何重新激活流失的用家,並讓他們重新成為活躍份子,以保持我們的客戶群不斷擴大,這正正是給HikeSports的挑戰



理解已有的數據
資料類型
描述
review_id
STRING
評論的唯一識別碼
product_id
STRING
產品的唯一識別碼
product_rating
FLOAT
客戶對特定產品的評等
rating_count
INTEGER
評級的客戶數量
review_comments_count
INTEGER
評論評論數
review_content
STRING
評論內容
review_date
TIMESTAMP
評論日期
review_helpful
INTEGER
發現此評論有幫助的人數
review_rating
FLOAT
評論的平均客戶評級
review_title
STRING
評論標題
reviewer_name
STRING
評論者的姓名
price
FLOAT
產品價格


方法
1.      Web Scraping
在這項研究中,整體上筆者建立了兩個Scraper 首先,在Amazon.com搜索關鍵字"Hiking",這樣我們就得到了一系列與徒步旅行相關的產品。利用Brower-based的自動化來透過掃描所有頁面來收集有關的產品 (product_id)。第二,是根據每個產品ID來收集客戶評論和詳細資訊,最後一共收集 44061 條評論並將其存儲在原始 csv 檔中以作進一步處理。

2.      Topic Model
Le Mikolov (2013) 引入Distributed Representation of Sentences and Documents (又名doc2vec)Doc2vec 模型通過分層軟極或負採樣演算法進行初始化和培訓。本文會用作捕獲客戶評論中單詞的順序和語義,在此之前,所有stopwords都已被刪除,然後每項評論都會轉化為paragraph vector
Latent Dirichlet Allocation (LDA) 在從矢量化的客戶評論中找出當中的主題。LDA 作為非監督式演算法是不需要任何標籤來做訓練。首先定義主題數後,它會將每個單詞分配給一個主題,以便每個使用者評論代表住某個主題 (Alpha)。假設當前評論的主題不正確,而其他評論中的單詞分配正確。然後,根據相應客戶評審中的主題和所有評論 (beta) 重新分配每個單詞最合適的主題。通過反覆運算上述過程,最終為每個評論最接近的主題。由於Alpha Beta 分別是主題和單詞的Prior distributionHyperparameters,通過最大化Topic coherent來優化 LDA

Source: Blei, Ng & Jordan (2003), Latent Dirichlet Allocation

3.      Recommendation System
本文提出了一套較為全面的建議系統,在客戶生命週期的不同階段,挽留我們的用家,從而提高Retention rate。對於新用家,他們都會在購買之前某產品前,找一些類似的產品。除此之外,在用家做出購買的決定後,我們會把其他用家通常一起購買的產品清單將推送給他們。由於存儲在HikeSports中的交易數據HikeSports不足,Basket Analysis預測結果不會很有效。但隨著業務增長,Item-based collaborative filtering將被Basket Analysis所取代,比以前更精確地定位。但以目前的狀況,只有Item-based collaborative filtering會被實現。日後若果有些用家早已流失,要吸引他們回流,我們需要通過不同類型的市場渠道,例如個人化的eDM,以鼓勵他們回到我們的平台。



至於Item-based collaborative filtering,筆者混合了一是產品的評分和二是客戶評論內容方面,來量化產品的相似度。前者顯然可以通過計算評分的相關矩陣來實現,而後者則是利用TF-IDF(術語頻率-反向文檔頻率)把評論內容轉化為Vector space。只需要簡單取平均值, 從而取得相似度,並由高至低排列。Recommendation engine將會為每位用家生成產品清單,買家之後可以查閱其詳細資訊。當客戶查看同類產品,我們的系統會過濾同性質的產品,並推送給用家,他們可隨意選擇最喜愛的產品。在用家做出決策后,用家們將看到新的推薦清單,讓他們考慮其他類型的產品,從以達到交叉銷售的效果。這兩層推薦的流程旨在幫助我們的消費者獲得他們正在尋找的最佳產品,並交叉銷售他們可能感興趣的商品。


結果與分析
如上一節所述,主題建模是分段亞馬遜客戶對徒步旅行相關商品的評論。在向量的評論內容並調整了 LDA 中的Hyperparameters後,一共找出了七個主題及其最代表性的關聯詞。

主題#
標題
十大有代表性的詞(降序)
評論 *
1
寒冷環境
warm, great, gloves, comfortable, love, cold, hands, size, like, soft
7,232
2
夜間活動
good, quality, product, great, light, battery, price, flashlight, batteries, charge
6,086
3
衣裝
comfortable, feet, socks, shoes, boots, pair, hiking, good, wear, like
8,142
4
冷卻
water, like, straps, bottle, pack, belt, great, strap, easy, towel
3,977
5
露營
great, light, hammock, camping, easy, like, bright, love, time, nice
7,101
6
野外生存
knife, playing, settings, sparks, like, blue, yoga, blade, sleeves, striker
2,083
7
承載
great, small, backpack, love, carry, easy, pack, phone, perfect, like
9,440

為了描述模型的結果和更好的理解,每個主題都會用相關的標題代表著。首先,主題一,這些評論都是關於用家們在寒冷或冬季條件下購買的產品如何發揮其功用。顧客滿意手套和其他保暖品的表現,讓他們在徒步旅行時感覺舒適和温暖。第二個主題代表消費者評論一些照明和點火工具,從而進行夜間活動,例如,打火機和生火器具。關於第三個主題,適當的穿著或衣服無疑是在試驗中保持安全的遠足必需品之一,大多數消費者關注衣裝的舒適程度和穿著方式。除了衣裝,水也是徒步旅行的另一個必需品,大多數由購買水容器的客戶撰寫的評論都表明貨物如何方便和易於攜帶。主題五顯然與營活動有關,都是評論一些吊床、便攜式椅子、毯子、GPS跟蹤器等,另外也發現重量輕、顏色更優、攜帶的輕鬆度是客戶給予積極評價的關鍵因素和標準。至於第六個主題勻是刀、生存包、用於野外活動或生存的水篩檢程式等工具。而最後一個主題是承載,一些有關簡單、背包攜帶的評論很可能屬於這個話題。與主題五 一樣,無論是半天、全日遊或數天的行山活動,用家們也喜歡攜帶設計輕便的包包。

在理解每個評論主題後,用戶介面可以按建議的主題重新排列。所有產品不僅按產品性質分組,還可以按主題或活動進行分組。例如,用戶計劃在週末去露營,想購買一些需要的裝備。在當前的介面中,他/她需要查看每個類別中來找他想要的東西,這非常耗時。但現在,由於新的添加介面,用戶可以簡單地點擊"Camping",所有露營有關的設備便會一覽無違,也省下了不少查找的時間。




X. 產品目錄的現有()和新的新增()介面設計

至於推薦系統,它可以推薦類似的替代品和其他類型的產品,在用家查看某產品的細節。為了說明推薦引擎的應用,假設有一個名為Morris的用家,剛登錄我們的線上平台來尋找露營設備。正好,他看到了亞馬遜產品 ID B07B31BJQJ便攜式吊床(參考下圖 )  然後推薦引擎推出四個類似的吊床,只要他輕掃螢幕,便可以看到照片或規格和細節。假設Morris比較了這五個吊床後,並選擇了最喜歡的,選了第一個吊床,並放在進購物車裡,這樣他就可以繼續付款了。在此同時,推薦引擎會再次計算,並推動其他六種不同性質的產品給他進一步考慮。



B07B31BJQJ - 便攜式吊床

下表顯示建議引擎建議產品的記錄,並帶有基於專案的協作篩選。根據方法部分,建議使用其他吊床,以方便使用者搜索替代方法以進行快速比較。對於其他自然產品,如背包、副線和防水袋,使用者將其放入購物車或將其標記為最愛後將它們做廣告
建議莫裡斯產品 ID :  product id:  B07B31BJQJ
挽留對象
亞馬遜產品ID
產品性質
混合相似性分數
挽留新用家
B077JG1MHX
吊床
0.7771
B06Y5MD17G
吊床
0.7649
B072L32V88
吊床
0.7322
B01LXU0K66
吊床
0.6335
挽留活躍用家
B000F34ZKS
背包
0.5492
B01JYY7M5S
背包
0.5490
B014GCNKOK
副線
0.5442
B07TWDTT1T
背包
0.5378
B07CZ5T1KF
背包
0.5330
B07L99B5RK
防水袋
0.5292

總結
借助非監督的學習主題模型,從數以萬計的客戶評論中提取如何地進行登山活動。HikeSports 中,登山產品可以按主題細分,但不只限於產品性質,這樣用家們可以流覽更多更廣的商品。

推薦系引擎能夠在兩個特定情況中發揮作用,如上一節所述。相信該系統可以提高Conversion rate。在實現整個系統後,將執行隨機A/B測試,以檢驗假設。
此外,很多消費者高度喜歡重量輕、攜帶方便、在一定環境下功能良好的工具或商品。筆者會建議為產品的功能建立一個評分,並記錄我們的用家如何評價這些功能的重要性。一旦我們有了這些資訊,Model-based的協同過濾也可以容易地實現。此模型的優點可以更具體地推薦產品,並得出每種產品特定功能,例如重量、耐用等的評分,把結果可視化為雷達圖,更能吸引用家們的注意,作為另一個參考選擇行山用品,最終為他們提供更佳的用戶體驗。

作為一家雄心勃勃的初創公司,HikeSports日後會繼續探索任何Data Science解決方案,以擴大業務並爭取更多的市場份額。

Comments

Popular posts from this blog

Boosting vs Bagging? 別再胡亂用了!

機器學習之陷阱 - Imbalance Class Classification

Excel VBA - 自動生成分析報告