摘 要: 客戶(hù)流失是電信行業(yè)發(fā)展過(guò)程中所面臨的一個(gè)嚴(yán)重問(wèn)題,,直接影響到運(yùn)營(yíng)商的企業(yè)效益,。本文主要介紹了對(duì)電信行業(yè)客戶(hù)流失情況進(jìn)行數(shù)據(jù)挖掘的過(guò)程,,改進(jìn)了已有模型存在的缺乏靈活性、難以處理高維度數(shù)據(jù)的缺點(diǎn),,根據(jù)運(yùn)營(yíng)商的歷史數(shù)據(jù)資料,,利用SAS/EM模塊對(duì)客戶(hù)的固有特征和行為特征進(jìn)行挖掘分析,采用決策樹(shù)分類(lèi)算法的CART算法建立了聚類(lèi)分析模型和包括評(píng)估模塊在內(nèi)的一套完整的流失預(yù)測(cè)模型,,能夠直觀地顯示出流失客戶(hù)的基本特征,,并且可以對(duì)任意的數(shù)據(jù)集進(jìn)行分析,,有效提高了模型的普遍應(yīng)用性和準(zhǔn)確性。
關(guān)鍵詞: 客戶(hù)流失,;數(shù)據(jù)挖掘,;決策樹(shù),;CART算法,;聚類(lèi)分析,;SAS/EM模塊,;客戶(hù)流失預(yù)測(cè)模型
0 引言
在電信這個(gè)服務(wù)型行業(yè)中,客戶(hù)關(guān)系管理工作直接關(guān)系著企業(yè)的經(jīng)濟(jì)效益,、聲譽(yù)和信譽(yù),而在客戶(hù)關(guān)系管理工作中,,開(kāi)發(fā)一個(gè)新客戶(hù)的成本比挽留一個(gè)老客戶(hù)的成本要高出很多倍[1],。
傳統(tǒng)上國(guó)內(nèi)外移動(dòng)運(yùn)營(yíng)商認(rèn)為新客戶(hù)在最初兩個(gè)月內(nèi)流失的概率最大,大約為10%左右,,所以運(yùn)營(yíng)商會(huì)建立一個(gè)呼叫中心,,在客戶(hù)使用移動(dòng)電話一個(gè)月左右后,主動(dòng)和客戶(hù)聯(lián)系[2],,但這樣的方法不切實(shí)際。因此,,近年來(lái)好多電信運(yùn)營(yíng)商都開(kāi)始建立客戶(hù)流失預(yù)測(cè)模型,。
目前主要的做法有采用SPSS公司的Clementine工具,使用節(jié)點(diǎn)連接的方式,,分別用分類(lèi)回歸樹(shù)(CART)算法和C5.0算法建立流失預(yù)測(cè)模型[3],。還有一種采用Weka工具的決策樹(shù)分類(lèi)器,應(yīng)用一趟聚類(lèi)算法進(jìn)行聚類(lèi)分析,,將分析后的簇群號(hào)作為新的特征增加到原數(shù)據(jù)集中,,對(duì)新的數(shù)據(jù)建立決策樹(shù)分類(lèi)模型[4]。該模型準(zhǔn)確率較高,,但是模型考慮的變量因素比較少,、數(shù)據(jù)量比較小,缺乏普遍性,,對(duì)于客戶(hù)流失的原因分析具有一定的局限性,。
本文采用SAS軟件,在對(duì)大規(guī)模,、高維度的歷史數(shù)據(jù)引入屬性選擇,、特征提取和特征選擇的基礎(chǔ)上,,對(duì)數(shù)據(jù)進(jìn)行處理,然后利用新的數(shù)據(jù)源建立包括模型評(píng)估在內(nèi)的完整的流失預(yù)測(cè)模型,。模型中添加了評(píng)估模塊,,可以對(duì)流失預(yù)測(cè)的結(jié)果進(jìn)行檢測(cè)優(yōu)化,提高流失預(yù)測(cè)的準(zhǔn)確率,;克服了單一評(píng)價(jià)標(biāo)準(zhǔn)的缺陷,,結(jié)合了是否流失和流失概率兩個(gè)基本的評(píng)價(jià)標(biāo)準(zhǔn),;而且對(duì)于最終的預(yù)測(cè)結(jié)果有詳細(xì)的報(bào)告存儲(chǔ)路徑,,以便查看和應(yīng)用于日后的市場(chǎng)運(yùn)營(yíng)策略的改進(jìn)工作中,從而有效地采取挽留措施,,減少客戶(hù)的流失量,,做好客戶(hù)關(guān)系管理工作,提高企業(yè)的經(jīng)營(yíng)效益,,獲得企業(yè)持續(xù)經(jīng)營(yíng)的成功,。
1 數(shù)據(jù)準(zhǔn)備
要建立靈活、普遍性高的客戶(hù)流失預(yù)測(cè)模型,,必須采集大量的客戶(hù)信息資源數(shù)據(jù),,同時(shí)需要對(duì)其進(jìn)行數(shù)據(jù)的預(yù)處理,得到構(gòu)建模型所需的數(shù)據(jù)形式,。因此,,在這個(gè)階段需要對(duì)模型所需的原始數(shù)據(jù)(訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù))進(jìn)行分析處理,以便能充分挖掘出客戶(hù)的關(guān)鍵性行為特征[5],。
1.1 樣本選擇和數(shù)據(jù)描述
以某地區(qū)聯(lián)通運(yùn)營(yíng)商的客戶(hù)業(yè)務(wù)數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)(包括訓(xùn)練樣本集和測(cè)試樣本集),,該樣本數(shù)據(jù)集中總共包含了695 689條(包含正常客戶(hù)和流失客戶(hù))記錄,,每條記錄由33項(xiàng)客戶(hù)基本信息和48項(xiàng)客戶(hù)行為特征(12種業(yè)務(wù),4個(gè)月,,共48項(xiàng))以及1項(xiàng)客戶(hù)類(lèi)別特征組成,。
(1)客戶(hù)基本信息:主要是客戶(hù)資料數(shù)據(jù),??蛻?hù)基本信息數(shù)據(jù)是客戶(hù)的靜態(tài)數(shù)據(jù)(如表1所示),相對(duì)來(lái)說(shuō)比較穩(wěn)定,,但是由于這些數(shù)據(jù)在客戶(hù)入網(wǎng)填寫(xiě)時(shí)會(huì)包含大量的缺失值,,甚至是假的錯(cuò)誤的信息,所以需要進(jìn)行大量的數(shù)據(jù)清洗和轉(zhuǎn)換工作,。
?。?)客戶(hù)消費(fèi)行為特征:主要是客戶(hù)在過(guò)去4個(gè)月的消費(fèi)行為數(shù)據(jù),。客戶(hù)消費(fèi)行為特征的每條記錄包含了客戶(hù)在過(guò)去4個(gè)月的消費(fèi)情況,,包括12個(gè)基本消費(fèi)行為,,所以該樣本總共包含了48(12×4=48)項(xiàng)數(shù)據(jù)記錄,如表2所示,。
?。?)客戶(hù)類(lèi)別特征:主要用來(lái)標(biāo)注客戶(hù)的狀態(tài)。實(shí)驗(yàn)樣本數(shù)據(jù)集中包含了一個(gè)可以判定類(lèi)別信息的類(lèi)別特征(如表3所示),,根據(jù)類(lèi)別信息可以知道每個(gè)客戶(hù)的基本狀態(tài),。
1.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的效果會(huì)直接影響到模型的性能和流失預(yù)測(cè)的結(jié)果,一方面,,通過(guò)對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整,、完善,可以使得建立的模型更簡(jiǎn)單,、準(zhǔn)確,,而且便于理解;另一方面,,可以根據(jù)整理好的數(shù)據(jù)的特點(diǎn)以及不同算法的要求,,選擇合適的執(zhí)行算法,從而降低算法的時(shí)間和空間復(fù)雜度,。為了克服已有模型存在的缺乏靈活性缺陷,,此處的數(shù)據(jù)預(yù)處理是根據(jù)數(shù)據(jù)的屬性特點(diǎn)分開(kāi)進(jìn)行,主要包括數(shù)據(jù)清洗,、特征構(gòu)造和特征選擇等過(guò)程[6],。
(1)數(shù)據(jù)清洗
主要是補(bǔ)全缺失的數(shù)據(jù),、處理不一致的數(shù)值,、除去錯(cuò)誤的數(shù)據(jù)。例如:如果某條記錄中存在大量的缺失值,,而且這些數(shù)據(jù)很難用正常的方法來(lái)補(bǔ)全,,則可以考慮刪除整條記錄數(shù)據(jù);又或者記錄數(shù)據(jù)的某項(xiàng)缺失,,在不影響整體樣本數(shù)據(jù)集的情況下,,可以考慮用均值來(lái)補(bǔ)全缺失值。
?。?)數(shù)據(jù)轉(zhuǎn)換
主要包括構(gòu)造新的衍生特征信息和對(duì)連續(xù)型數(shù)據(jù)進(jìn)行規(guī)范化,。在采集的數(shù)據(jù)信息中,消費(fèi)行為特征只有過(guò)去4個(gè)月的消費(fèi)記錄,這幾個(gè)特征不能充分體現(xiàn)客戶(hù)在這4個(gè)月以及將來(lái)的消費(fèi)情況,。所以,,在對(duì)數(shù)據(jù)集進(jìn)行處理時(shí),對(duì)于12項(xiàng)月消費(fèi)行為的記錄采用了構(gòu)造衍生特征的措施,,構(gòu)造了24項(xiàng)月均消費(fèi)信息和月均消費(fèi)趨勢(shì)的信息,。例如:
月均消費(fèi)行為:為過(guò)去4個(gè)月的費(fèi)用的平均值,表示為mb_fee,,即:
月消費(fèi)趨勢(shì):為過(guò)去4個(gè)月的消費(fèi)記錄中后2個(gè)月的總消費(fèi)與前2個(gè)月的總消費(fèi)的比值,,表示為trend_fee,即:
?。?)特征選擇
這個(gè)步驟將會(huì)直接影響到分類(lèi)預(yù)測(cè)模型的性能,。通過(guò)選擇相關(guān)性強(qiáng)的特征,從原始數(shù)據(jù)集中刪除不相關(guān)或者相關(guān)性很小的特征項(xiàng),,保留與目標(biāo)特征相關(guān)性大的特征項(xiàng),,可以減少樣本的維度,從而大大減少計(jì)算量,,降低時(shí)間和空間的復(fù)雜度,,簡(jiǎn)化學(xué)習(xí)模型。
經(jīng)過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,,最終整理了高維度,、大規(guī)模的、用于實(shí)驗(yàn)數(shù)據(jù)集的樣本,,總共包含了631 590條記錄,,每條記錄包含33項(xiàng)客戶(hù)基本信息和114項(xiàng)客戶(hù)消費(fèi)行為特征(構(gòu)造的24項(xiàng)月均消費(fèi)行為特征、24項(xiàng)月均消費(fèi)趨勢(shì)特征和17項(xiàng)通話行為特征,、21項(xiàng)不同時(shí)段通話頻率行為特征,、20項(xiàng)服務(wù)消費(fèi)行為特征以及8項(xiàng)手機(jī)上網(wǎng)行為特征)以及1項(xiàng)類(lèi)別特征,總共148項(xiàng),。
2 建立模型
因?yàn)楸景咐饕獞?yīng)用兩種模型來(lái)進(jìn)行數(shù)據(jù)挖掘,,所以在建立模型時(shí)需要考慮可實(shí)施性來(lái)建立合理的模型。在這里采用SAS/EM模塊來(lái)搭建整個(gè)模型,,將聚類(lèi)分析模型和流失預(yù)測(cè)模型布置在同一個(gè)工作區(qū)中,,兩個(gè)模型各自執(zhí)行不同的功能,最終完成對(duì)數(shù)據(jù)的挖掘工作,。所建立的模型如圖1所示。
2.1 聚類(lèi)分析模型
聚類(lèi)分析模型通過(guò)對(duì)客戶(hù)的合理劃分來(lái)反映客戶(hù)的整體特征,,根據(jù)劃分后的類(lèi)別簇群來(lái)判斷不同客戶(hù)的固有信息及消費(fèi)特點(diǎn),。
從聚類(lèi)分析模型的顯示結(jié)果(如圖2所示)可以看出,所有的客戶(hù)被分為10個(gè)簇群,,從各個(gè)簇群的類(lèi)別分布情況來(lái)看,,有6個(gè)簇(簇1,、簇2、簇4,、簇5,、簇8、簇9)的客戶(hù)基本是由正??蛻?hù)組成,,其他4個(gè)簇的客戶(hù)基本是由流失客戶(hù)組成,而且通過(guò)與每個(gè)特征分布的均值對(duì)比,,可以發(fā)現(xiàn)10號(hào)簇群的差異性最大[7-8],。
2.2 流失預(yù)測(cè)模型
對(duì)數(shù)據(jù)進(jìn)行聚類(lèi)分析是流失預(yù)測(cè)的基礎(chǔ),目的是將客戶(hù)劃分為不同的類(lèi)別,,這樣可以在不同的客戶(hù)群體上進(jìn)行預(yù)測(cè)分析,,從而根據(jù)各記錄的類(lèi)別編號(hào)判定流失客戶(hù)的所屬類(lèi)別。所以在進(jìn)行流失預(yù)測(cè)分析之前,,將每條記錄所在的類(lèi)別編號(hào)作為一項(xiàng)特征添加到實(shí)驗(yàn)數(shù)據(jù)表中,,用于流失預(yù)測(cè)建立模型的數(shù)據(jù)集中總共包含了150項(xiàng)特征(148項(xiàng)基本特征+1項(xiàng)聚類(lèi)編號(hào)+1項(xiàng)目標(biāo)特征)和631 590條數(shù)據(jù)記錄。選取其中2/3的數(shù)據(jù)作為訓(xùn)練集,,剩余1/3的數(shù)據(jù)作為測(cè)試集,,這樣分開(kāi)預(yù)測(cè)主要是后面便于檢測(cè)預(yù)測(cè)模型的準(zhǔn)確度。
本案例使用SAS/EM的決策樹(shù)分類(lèi)節(jié)點(diǎn)作為客戶(hù)流失預(yù)測(cè)的基本工具,,選用決策樹(shù)分類(lèi)算法中的分類(lèi)與回歸樹(shù)(Classification and Regression Tree,,CART)算法構(gòu)建聚類(lèi)分析模型,該算法采用Gini系數(shù)來(lái)度量對(duì)某個(gè)屬性變量測(cè)試輸出的兩組取值的差異性,,采用“最佳評(píng)估值”方法來(lái)進(jìn)行樹(shù)剪枝,。
在SAS/EM模塊流失預(yù)測(cè)模型的分析結(jié)果中,圖3為混淆矩陣,,直觀顯示訓(xùn)練集和測(cè)試集的預(yù)測(cè)數(shù)據(jù)結(jié)果,,圖4為Gini系數(shù)均方誤差曲線圖,通過(guò)訓(xùn)練集和測(cè)試集Gini系數(shù)的均方誤差曲線對(duì)比來(lái)反映模型的誤分率情況,。
如圖5所示為流失預(yù)測(cè)的樹(shù)狀圖,,顯示決策樹(shù)深度為3,從頂部開(kāi)始,,直到獲得了最佳分類(lèi)結(jié)果時(shí)才停止分支,,當(dāng)其達(dá)到最佳結(jié)果并且獲得了按同一規(guī)則分類(lèi)的客戶(hù)時(shí),便會(huì)在底部出現(xiàn)葉子節(jié)點(diǎn),。每個(gè)葉子節(jié)點(diǎn)的產(chǎn)生所依據(jù)的最重要的變量依次為[9]:客戶(hù)平均每個(gè)月的總消費(fèi)(MB_TOTAL_FEE),、月均本地通話次數(shù)(CS_LOCAL_COUNT)和月均新業(yè)務(wù)費(fèi)(MB_NEW_FEE)等。
下面根據(jù)圖5所顯示的規(guī)則,結(jié)合聚類(lèi)分析模型的應(yīng)用來(lái)說(shuō)明被分類(lèi)為流失客戶(hù)的一個(gè)分支節(jié)點(diǎn),,流失客戶(hù)基本上具備以下特點(diǎn):
?。?)平均每個(gè)月的總消費(fèi)小于0.015元,流失概率為94.5%,;
?。?)平均每個(gè)月本地通話次數(shù)小于0.125,流失概率為95.2%,;
?。?)平均每個(gè)月的新業(yè)務(wù)費(fèi)小于6.25元,流失概率為96.0%,。
3 模型的評(píng)估與應(yīng)用
從預(yù)測(cè)模型的目標(biāo)分類(lèi)來(lái)看,,目標(biāo)客戶(hù)主要分為2類(lèi)(正常客戶(hù)和流失客戶(hù)),,應(yīng)用CART算法來(lái)進(jìn)行流失預(yù)測(cè)分析,,那么Gini系數(shù)的最大值為0.5。理想的分類(lèi)應(yīng)該盡量使樣本輸出變量取值的差異性總和達(dá)到最小,,即“純度”最大,,也就是使得輸出變量的取值差異性下降最快,“純度”增加最快,。從圖4所示的Gini系數(shù)均方誤差曲線圖來(lái)看,,曲線的下降速度很快,而且Gini系數(shù)的均方誤差取值很小,,也就是說(shuō),,建立的流失預(yù)測(cè)模型性能很好,接近理想的分類(lèi),。
對(duì)已知客戶(hù)狀態(tài)的數(shù)據(jù)利用模型來(lái)進(jìn)行預(yù)測(cè)分析,,將得到的預(yù)測(cè)結(jié)果和實(shí)際客戶(hù)的狀態(tài)進(jìn)行對(duì)比,可以計(jì)算出預(yù)測(cè)的準(zhǔn)確度,。流失預(yù)測(cè)模型的評(píng)估結(jié)果如圖6所示,,計(jì)算出準(zhǔn)確度為96.8%,從整個(gè)模型的預(yù)測(cè)結(jié)果和評(píng)估結(jié)果來(lái)看,,建立的客戶(hù)流失預(yù)測(cè)模型比較接近理想模型,,具有一定的實(shí)踐意義。
4 結(jié)束語(yǔ)
本文應(yīng)用數(shù)據(jù)挖掘技術(shù),,采用聚類(lèi)分析和決策樹(shù)分類(lèi)算法對(duì)電信行業(yè)中的客戶(hù)流失情況進(jìn)行了分析,。利用SAS/EM模塊,在建立了分類(lèi)模型后,,應(yīng)用CART算法建立了客戶(hù)流失預(yù)測(cè)模型,,結(jié)合2種模型的預(yù)測(cè)結(jié)果,,對(duì)流失客戶(hù)所具備的基本特征做了總結(jié),并且對(duì)建立的流失預(yù)測(cè)模型進(jìn)行了評(píng)估測(cè)試和優(yōu)化,。建立的這套完整的模型改進(jìn)了現(xiàn)有流失預(yù)測(cè)模型缺乏靈活性、難以處理大規(guī)模高維度數(shù)據(jù)的缺陷,,有效地提高了模型的準(zhǔn)確性(準(zhǔn)確性高達(dá)96.8%)和普遍應(yīng)用性,。
參考文獻(xiàn)
[1] 劉飛.我國(guó)通信企業(yè)客戶(hù)流失預(yù)測(cè)研究綜述[J].企業(yè)科技與發(fā)展,2011(7):273-275.
[2] 夏國(guó)恩.客戶(hù)流失預(yù)測(cè)的現(xiàn)狀與發(fā)展研究[J].計(jì)算機(jī)應(yīng)用研究,,2010,,27(2):151-153.
[3] 師江波,胡建華.基于數(shù)據(jù)挖掘的電信客戶(hù)流失預(yù)測(cè)分析[J].山西電子技術(shù),,2009(1):48-50.
[4] 蔣盛益,,王連喜.面向電信的客戶(hù)流失預(yù)測(cè)模型研究[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2011,,46(5):77-81.
[5] 李陽(yáng),,劉勝輝,趙洪松.數(shù)據(jù)挖掘在電信行業(yè)客戶(hù)流失管理中的研究與應(yīng)用[J].電腦知識(shí)與技術(shù),,2010,,6(3):518-521.
[6] 吳志勇,戴曰章,,鞠傳香.數(shù)據(jù)挖掘在電信客戶(hù)流失中的應(yīng)用[J].山東理工大學(xué)學(xué)報(bào)(自然科學(xué)報(bào)),,2007,21(5):28-31.
[7] 蔣盛益,,李霞,,鄭琪.數(shù)據(jù)挖掘原理與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2011.
[8] 楊池然,,仲文明,,周志勇.SAS9.2從入門(mén)到精通[M].北京:電子工業(yè)出版社,2011.
[9] MACLENNAN J,, Tang Zhaohui,, CRIVAT B. Data mining with Microsoft SQL Server 2008(2nd edition)[M].北京:清華大學(xué)出版社,2010.