摘 要: 語音應答業(yè)務利用率低,、人力需求成本高是一大問題,,對此,結合案例,,運用CRISP-DW方法,,采用Clementine工具對所得數(shù)據(jù)進行分析處理,得到IVR客戶與地區(qū)分布,、ARPU值和入網(wǎng)時長的關系,;對IVR客戶進行聚類分析,總結出其重要特點,;提出相應對策,,幫助提高IVR客戶的滿意度和利用率。建立一個C5.0決策樹模型,,分析預測客戶是基于什么情況才進入IVR系統(tǒng)的,。分析IVR客戶與入網(wǎng)時長、地區(qū),、ARPU值之間的規(guī)則,,有助于更準確地了解IVR客戶并對其細分。
關鍵詞: 語音應答業(yè)務,;數(shù)據(jù)挖掘,;CRISP-DM;客戶細分
互動式語音應答業(yè)務IVR(Interactive Voice Response)是企業(yè)客戶關系管理中一種有效的模式,,它可以解決用戶的絕大部分問題[1],。本文針對電信行業(yè)客戶細分要求,將數(shù)據(jù)挖掘中的聚類分析,、決策樹方法應用于分析過程[2],。
1 電信呼叫中心客戶細分體系
隨著客戶關系管理實踐和理論的發(fā)展,在客戶細分方法研究方面,,研究者正尋找將客戶聚類為獨特的客戶群的方法[3-4],。在國際學術界,,學者們主要利用數(shù)據(jù)挖掘技術建立基于細分市場水平的客戶分割模型。在國內,,武漢大學郭蘊華等人提出了基于模糊聚類分析的客戶分類算法,。
2 數(shù)據(jù)挖掘與數(shù)據(jù)處理
2.1 數(shù)據(jù)挖掘在客戶細分和呼叫中心中的應用
數(shù)據(jù)挖掘用來根據(jù)客戶的預測行為定義客戶細分群[5]。例如,,將決策樹的葉節(jié)點視為一個獨立的客戶細分群,。
2.2 移動中心數(shù)據(jù)獲取與預處理
研究數(shù)據(jù)來自于中國移動深圳分公司呼叫中心(10086)中的操作數(shù)據(jù),,操作數(shù)據(jù)的原數(shù)據(jù)項以及含義如表1所示,。
本文選取動感地帶2月份的數(shù)據(jù)進行分析研究,數(shù)據(jù)量為20多萬條,。進行數(shù)據(jù)挖掘[6]之前,,對原始數(shù)據(jù)進行預處理和數(shù)據(jù)整理,具體步驟如下,。
(1)合并具有相同變量的數(shù)據(jù)集,。
(2)對呼入時間進行升序排序,當一個客戶連續(xù)撥打10086時,,可以更好地顯示數(shù)據(jù),。
(3)去除重復數(shù)據(jù)。根據(jù)呼入時間排序,,在同一相鄰的時間段同時出現(xiàn)重復的呼叫號碼視為重復數(shù)據(jù),。
(4)去除異常數(shù)據(jù)。去除異常數(shù)據(jù)的條件為:ARPU值>1 000或入網(wǎng)時長>80或ARPU值<0或入網(wǎng)時長<0或地區(qū)="沉默",。
(5)平衡數(shù)據(jù)集,。
(6)離散化處理。采取“分箱”的方法劃分區(qū)間,,根據(jù)其取值情況分別對應到相應的區(qū)間,,結果如圖1所示。
入網(wǎng)時長為整型屬性,。對于整型屬性采取“分箱”的方法進行區(qū)間劃分,,根據(jù)取值情況對應到相應的區(qū)間,結果如圖2所示,。
3 聚類分析在客戶細分中的應用研究
以深圳移動動感地帶的客戶作為分析對象,,對IVR客戶進行聚類分析[7]。
3.1 深圳移動IVR客戶基本情況分析
?。?)地區(qū)分布與IVR客戶的關系分析
經(jīng)分析得到地區(qū)分布結果,,95%以上撥打IVR的客戶來自寶安、龍崗,、福田,、南山和羅湖5個地區(qū),。寶安地區(qū)撥打IVR的客戶最多,占到總數(shù)據(jù)量的45.79%,;鹽田地區(qū)的客戶撥打數(shù)最少,,僅占總數(shù)據(jù)量的1.31%。
?。?)ARPU值與IVR客戶的關系分析
經(jīng)分析得到ARPU值分布,,99.9%的客戶ARPU值小于600,而其余0.1%的客戶ARPU值在600~1 608.690之間,。因此可以看出,,ARPU值越大的客戶撥打IVR的數(shù)量越少,ARPU值小于200的客戶撥打數(shù)量最多,。撥打IVR的客戶主要是ARPU值小于350的客戶,,ARPU值為100~150之間的客戶撥打IVR的頻率最高。
3.2 K-means算法與分析過程
移動IVR客戶細分分析過程[5]如下:
(1)將客戶劃分為4類:
A類客戶:ARPU值及入網(wǎng)時長都很高
B類客戶:ARPU值高,,入網(wǎng)時長較低
C類客戶:ARPU值較低,,入網(wǎng)時長高
D類客戶:ARPU值和入網(wǎng)時長都較低
(2)選取“arpu”和“in_months”作為模型的輸入。
(3)數(shù)據(jù)準備:
?、賹⑺袛?shù)據(jù)合并到一個記錄表,;
②根據(jù)呼入時間對數(shù)據(jù)進行排序,;
?、鄹鶕?jù)呼入號碼去除重復數(shù)據(jù);
?、苋コ惓W兞?;
⑤選擇IVR客戶,。
ARPU值,、入網(wǎng)時長的數(shù)據(jù)大小差別非常大,具體統(tǒng)計值如圖3所示,。
(4)使用Clementine進行建模,,選取“arpu”、“in_months”作為模型的輸入,。此處設定K=4,。
(5)根據(jù)聚類結果,分為4類是較為理想的,,結果如圖4所示,。
相關統(tǒng)計量結果如表2所示。
從聚類結果得到以下客戶劃分:
A類:cluster-2,,7 487條記錄,,占13%
B類:cluster-3,,5 190條記錄,占9%
C類:cluster-4,,15 370條記錄,,占26%
D類:cluster-1,30 797條記錄,,占52%
4 決策樹C5.0算法的客戶行為預測
(1)進行客戶行為預測的商業(yè)理解,。用戶在撥打熱線電話時,只會產生兩種情況:一種是轉入“人工接聽”,,另一種是進入“自動語音播放”,。
(2)選取“area”、“arpu”,、“in_months”,,作為模型的輸入,,將 “是否轉人工”作為輸出變量,。
(3)評估客戶行為預測的模型。通過采用analysis節(jié)點對C5決策模型進行評估,,得到的評估結果如圖5所示,,從圖中的可信矩陣可以看出模型的正確率達到60.42%。
結果分析如下:
(1)更可能撥打IVR的客戶包括:ARPU值在50~150,,入網(wǎng)時長為5.5~8.5,,居住在鹽田、羅湖地區(qū)的客戶,;入網(wǎng)時長為0~2.5和59.5~62.5,,居住在鹽田、龍崗地區(qū)的客戶,;ARPU值在50~150,,入網(wǎng)時長為8.5~11.5,居住在南山,、寶安,、鹽田、羅湖的客戶,。
(2)更可能撥打人工座席的客戶包括:ARPU值在50~150,,入網(wǎng)時長為5.5~8.5,居住在南山,、寶安地區(qū)的客戶,;入網(wǎng)時長為11.5~20.5,居住在鹽田,、龍崗地區(qū)的客戶,;入網(wǎng)時長為5.5~11.5,,居住在鹽田、龍崗地區(qū)的客戶,。
該領域的研究仍有許多待改進之處,,特別是在模型分析上,利用數(shù)據(jù)挖掘的方法較少,,本文針對這些不足,,通過數(shù)據(jù)挖掘技術,達到提高客戶關系管理可用性,、實時性,、智能性等目標。本文在國外已有研究的基礎上,,結合電信企業(yè)的實際需要,,提出了電信客戶細分數(shù)據(jù)挖掘模型,并根據(jù)客戶細分結果為企業(yè)提供決策支持,。在業(yè)務應用上,,建立了一個聚類模型和一個定量化的決策樹數(shù)據(jù)挖掘模型,提出了相應的改進措施,,可為相關的決策者提供一定的參考,。
參考文獻
[1] 王扶東,馬玉芳.基于數(shù)據(jù)挖掘的客戶細分方法的研究[J].計算機工程與應用,,2011,,47(4):215-218.
[2] 易珺,路璐,,曹東.改進的k-means算法在客戶細分中的應用研究[J].微型機與應用,,2005,24(12):52-53.
[3] 潘玲玲,,張育平,,徐濤.核DBSCAN算法在民航客戶細分中的應用[J].計算機工程,2012,,38(10):71-73.
[4] 徐翔斌,,王佳強,涂歡,,等.基于改進RFM模型的電子商務客戶細分[J].計算機應用,,2012,32(5):1440-1442.
[5] 張煥國,,呂莎,,李瑋.C均值算法的電信客戶細分研究[J].計算機仿真,2011,28(6):185-188.
[6] 廖寶魁,,孫雋楓.基于MapReduce的增量數(shù)據(jù)挖掘研究[J].微型機與應用,,2014,33(1):67-70.
[7] 徐新國,,朱廷劭,,康衛(wèi),等.基于數(shù)據(jù)挖掘的工業(yè)控制系統(tǒng)防危機制研究[J].電子技術應用,,2012,,38(5):87-90.