摘 要: 針對現(xiàn)有話務(wù)預(yù)測模型變量單一,、預(yù)測誤差大等問題引入了逐步回歸分析法,;結(jié)合海河銀行信用卡呼叫中心實(shí)際需求,對話務(wù)數(shù)據(jù)進(jìn)行了抽取集成等預(yù)處理操作,;隨之建立了各影響因素的一元回歸模型,,并在此基礎(chǔ)上得到了多元逐步回歸的話務(wù)預(yù)測模型;最后將此建模方法與其他分析法進(jìn)行了綜合比較并給出評價(jià),。
關(guān)鍵詞: 話務(wù)預(yù)測,;回歸分析;逐步回歸,;時(shí)間序列分析
0 引言
目前許多企業(yè)的呼叫中心都面臨著話務(wù)量激增,、話務(wù)員大幅度增長的問題,如何準(zhǔn)確預(yù)測話務(wù)量對移動通信網(wǎng)絡(luò)的管理具有重大的意義,。
當(dāng)前,,建立預(yù)測模型的主要方法有Kalman濾波[1-2]、時(shí)間序列預(yù)測[3-4],、話務(wù)量OLAP分析[5]等,。其中Kalman濾波和時(shí)間序列預(yù)測法相對簡單,但難以滿足現(xiàn)階段話務(wù)量的復(fù)雜變化,,話務(wù)量OLAP分析技術(shù)則處于起步階段,,并沒有大范圍地推廣應(yīng)用。國內(nèi)各廠商的話務(wù)預(yù)測基本是以各種時(shí)間序列模型作為預(yù)測的核心技術(shù),,僅僅基于話務(wù)數(shù)據(jù),,使用時(shí)間序列回歸預(yù)測法和指數(shù)平滑預(yù)測法[6]進(jìn)行預(yù)測。然而這兩種方法都不適用于具有季節(jié)變動規(guī)律的分月話務(wù)量預(yù)測,。因此當(dāng)前迫切需要的話務(wù)預(yù)測模型是基于多因素預(yù)測話務(wù)量波動趨勢的模型,。
本文通過比較不同回歸分析法的優(yōu)缺點(diǎn),提出使用逐步回歸分析法解決預(yù)測話務(wù)量不夠精準(zhǔn),、運(yùn)算量太大的問題,。以海河銀行信用卡業(yè)務(wù)呼叫中心為實(shí)例,重點(diǎn)闡述了多元逐步回歸話務(wù)預(yù)測模型的建模過程,,并做了模型顯著性檢驗(yàn),。最后通過與其他回歸分析法及時(shí)間序列分析法的比較,,證明了基于逐步回歸分析的話務(wù)預(yù)測模型在曲線擬合度、運(yùn)算量等方面具有更優(yōu)的性能,。
1 逐步回歸分析法介紹
回歸分析是一種研究多個(gè)變量之間的函數(shù)關(guān)系的統(tǒng)計(jì)分析方法,,如果能找到影響預(yù)測對象的主要因素,并且取得準(zhǔn)確的數(shù)量資料,,就可以采用回歸分析法來進(jìn)行預(yù)測,。銀行信用卡中心的話務(wù)量與其業(yè)務(wù)辦理相關(guān),影響因素可以明確提煉,,并且與話務(wù)量相關(guān)的記錄數(shù)據(jù)獲取難度不大,,因此十分符合回歸分析法的要求。
回歸方法一般分為窮盡法,、逐步剔除法,、逐步加入法和逐步回歸分析法。窮盡法的工作量極大,,一般很少使用,;逐步剔除法需要把所有變量都引入回歸函數(shù),對類似海河銀行這樣大型的話務(wù)中心而言,,成本開銷太大,,難以推廣;逐步加入法雖不需將所有變量都引入函數(shù),,但沒有考慮引入新自變量后,,現(xiàn)有的自變量顯著程度是否變化。在此基礎(chǔ)上,,引入逐步回歸分析法來解決建模過程中計(jì)算量與顯著程度相沖突的問題,。
逐步回歸分析法的核心思想是考慮自變量對因變量的影響顯著程度,從大至小一一引入回歸函數(shù),。每次引入都是剩下的自變量中對因變量影響最為顯著的自變量,,因此可減少一定的計(jì)算量。另外,,引入新的自變量后,,需要對函數(shù)中現(xiàn)有的老的自變量做檢驗(yàn),查看其是否還有很高的顯著程度,。如其顯著程度很低,,則將它從回歸函數(shù)中剔除。最終得到的回歸函數(shù)既不會遺漏對因變量影響顯著的自變量,,也不會包含那些影響不大的自變量,。
2 逐步回歸模型建立
影響信用卡中心客服話務(wù)量的因素基本包括信用卡的所有業(yè)務(wù),需要從銷售,、審批,、帳務(wù),、促銷等多個(gè)方面選擇一些重要因素參與預(yù)測模型的探索。
2.1 相關(guān)數(shù)據(jù)抽取和集成
模型的建立以海河銀行信用卡中心近幾年各系統(tǒng)的數(shù)據(jù)為基礎(chǔ),,由于數(shù)據(jù)量巨大且在原系統(tǒng)內(nèi)做數(shù)據(jù)集成必然會對生產(chǎn)環(huán)境系統(tǒng)的運(yùn)行產(chǎn)生影響,,因此,增加了原系統(tǒng)明細(xì)數(shù)據(jù)層,。為了提高數(shù)據(jù)抽取的速度,保持原系統(tǒng)明細(xì)數(shù)據(jù)層的數(shù)據(jù)與原系統(tǒng)數(shù)據(jù)的一致性,,并且降低對生產(chǎn)環(huán)境運(yùn)行系統(tǒng)的影響,,抽取過程遵循以下原則:
(1)以時(shí)間字段作為唯一過濾條件,;
?。?)只抽取需要使用的部分表的部分字段。
基于以上原則,,可以有效避免因?yàn)槠渌壿嬋毕?,?dǎo)致數(shù)據(jù)重復(fù)抽取或遺漏抽取的可能性。數(shù)據(jù)抽取后,,可通過按日期分組聚合影響因素的方法,,統(tǒng)計(jì)發(fā)卡數(shù)、臨時(shí)額度調(diào)整數(shù)量,、賬單或交易分期申請數(shù)量等信息,。也可依照其他類別分組聚合影響因素,統(tǒng)計(jì)特定信息,,如審批拒絕數(shù)量,、各類短信發(fā)送數(shù)量等。
2.2 集成數(shù)據(jù)層數(shù)據(jù)清洗
從原系統(tǒng)明細(xì)數(shù)據(jù)層集成后的數(shù)據(jù)被存入集成數(shù)據(jù)層,,雖然此層存放了用于下階段數(shù)據(jù)挖掘所需的全部數(shù)據(jù),,但直接用于探索模型會出現(xiàn)很多噪音,影響模型探索和預(yù)測的準(zhǔn)確度,,因此數(shù)據(jù)清洗是不可或缺的,。
(1)錯(cuò)誤數(shù)據(jù)
話務(wù)量數(shù)據(jù)是從客戶服務(wù)系統(tǒng)和CTI系統(tǒng)關(guān)聯(lián)得到,,由于每個(gè)系統(tǒng)都存在一定的缺陷,,一旦系統(tǒng)發(fā)生故障,可能會丟失故障期間接入的通話信息,,或者正常的話務(wù)信息會統(tǒng)計(jì)出錯(cuò),,有時(shí)被翻倍統(tǒng)計(jì)。因此需要給話務(wù)量受影響較大的故障日期增加故障標(biāo)志位,。
依次比對故障日期前后幾天話務(wù)量的數(shù)據(jù)變化,,發(fā)現(xiàn)此類數(shù)據(jù)沒有任何規(guī)律和趨勢可循,,有時(shí)甚至相差很大。由于客戶服務(wù)系統(tǒng)和CTI系統(tǒng)的故障會直接影響到此次模型的因變量話務(wù)量,,如果通過其他技術(shù)手段更新故障當(dāng)天的話務(wù)量未必會對模型探索有所幫助,,甚至可能會由于估計(jì)值和實(shí)際值相差很大而影響預(yù)測模型的準(zhǔn)確性。因此在此次數(shù)據(jù)清洗中,,把存在故障標(biāo)志位的數(shù)據(jù)排除在外,,不作為模型探索的基礎(chǔ)數(shù)據(jù)。
?。?)空值處理
實(shí)際生產(chǎn)業(yè)務(wù)中可能會有很多原因?qū)е履硯讉€(gè)日期的某些話務(wù)量影響因素存在空值,。經(jīng)檢查數(shù)據(jù)中心7×24監(jiān)控的系統(tǒng)運(yùn)行狀況,在數(shù)據(jù)為空的日期,,當(dāng)晚賬單分期和交易分期的申請單跑批處理失敗,,因此會被加入第二天數(shù)據(jù)一起重新跑批。由此,,將賬單分期和交易分期的申請數(shù)量出現(xiàn)空值后第二天的數(shù)據(jù)除以2(個(gè)別日期追尋至后3天),,計(jì)算這幾天的算術(shù)平均值,并分別將其記為這幾天的賬單分期和交易分期的申請數(shù)量,。類似地如果空值前后幾天數(shù)據(jù)沒有翻倍等現(xiàn)象,,將空值前后一天或幾天的數(shù)量相加,求其算術(shù)平均值當(dāng)作空值當(dāng)天的數(shù)量,。
?。?)字段衍生
很多潛在的變量有時(shí)會對模型起到關(guān)鍵的影響[7]。某些影響因素,,其數(shù)量可能對當(dāng)天的話務(wù)量不一定產(chǎn)生直接影響,,但對于其前后幾天的話務(wù)量必定會產(chǎn)生影響。例如賬單日數(shù)量,,很少有客戶會在賬單日當(dāng)天一出賬單,,立即致電給呼叫中心,一般會推遲幾天,。
由此,,當(dāng)天的話務(wù)量不僅僅只與當(dāng)天的賬單日數(shù)量相關(guān),應(yīng)與賬單日前4天和后2天的數(shù)量都相關(guān),。在此,,采取類似移動平均的算法,將賬單日前4天,、當(dāng)天,、后2天的賬單數(shù)量相加,除以7求其算術(shù)平均值作為衍生的賬單日數(shù)量字段,。
2.3 自變量篩選
影響話務(wù)量的因素較多,,并不是所有因素對話務(wù)量都會產(chǎn)生很大影響,。有時(shí)非重要的影響因素的加入,對模型的準(zhǔn)確度提高不多,,但卻使模型復(fù)雜度急劇增加,。因此,本文使用SPSS平臺的分類回歸樹模型,,通過尋找回歸樹的最佳分支選擇影響因素作為模型自變量,。
假設(shè)話務(wù)量和各影響因素存在如式(1)函數(shù)關(guān)系,其中{y1,,y2,,y3…yn}表示話務(wù)量所有值的集合,橫排{xn1,,xn2,xn3…xnm}表示不同的話務(wù)量影響因素,,豎列{x11,,x21,x31…xn1}表示某個(gè)影響因素不同日期的值,。
先計(jì)算所有因變量話務(wù)量的平均值,,如式(2):
在所有話務(wù)量影響因素中任選一個(gè)影響因素,在此取發(fā)卡量,,將其按照發(fā)卡量排序,,取第一條發(fā)卡數(shù)值,將回歸樹劃分為左右子樹,。取其對應(yīng)的話務(wù)量,,分別計(jì)算其平方和離差。然后,,再取前2個(gè)發(fā)卡數(shù)值,,將回歸樹劃分為左右子樹,計(jì)算其平方和離差,。以此類推,,計(jì)算出所有可能的平方和離差。式(4)為計(jì)算樹的離均差平方和與左,、右子樹的離均差平方和之差S,。
S=SS-SSL-SSR=6 254 521 322(4)
在所有左右子樹劃分中,取最大的S值時(shí)的劃分為發(fā)卡量的最佳劃分,。以同樣的方法,,對所有的影響因素計(jì)算其最大的S值,從每個(gè)影響因素的最大S值中,,取最大值的那個(gè)影響因素為所有影響因素的最重要影響因素,。因?yàn)椤鞍l(fā)卡數(shù)”,、“固定額度調(diào)整通知短信數(shù)量”和“額度不足和超限提醒短信數(shù)量”這三個(gè)影響因素的重要性都達(dá)到80%以上,理應(yīng)對模型有較高的擬合度,。把它們作為預(yù)測模型建立的自變量,,將話務(wù)量作為預(yù)測模型建立的因變量。
2.4 一元回歸模型
首先建立發(fā)卡數(shù)與話務(wù)量的一元回歸模型,。在SPSS平臺中導(dǎo)入發(fā)卡數(shù)與話務(wù)量的詳細(xì)歷史數(shù)據(jù),,將話務(wù)量作為Y軸變量,發(fā)卡數(shù)作為X軸變量,,得到其散點(diǎn)圖,。從整體發(fā)展趨勢看,話務(wù)量和發(fā)卡數(shù)量確實(shí)存在一定關(guān)系,,但具體屬于哪種關(guān)系,,只憑肉眼觀察無法明確判斷。為了進(jìn)一步確定其函數(shù)關(guān)系,,使用SPSS的曲線估計(jì)功能,,選擇包括“線性”、“對數(shù)”,、“倒數(shù)”,、“二次”、“三次”,、“復(fù)合”,、“冪”、“S”,、“增長”,、“指數(shù)”10個(gè)模型加以分析。最終得到模型的曲線擬合圖如圖1所示,,模型匯總和參數(shù)估計(jì)值如表1所示,。
從各模型的R方分析可見,三次方程的曲線擬合度最高,。因此,,話務(wù)量和發(fā)卡數(shù)存在三次方程的關(guān)系,如式(5),。其中Y為話務(wù)量,,X為發(fā)卡數(shù),C0,、C1,、C2、C3為常數(shù)。
Y=C0+C1X+C2X2+C3X3(5)
同理可得固定額度調(diào)整通知短信數(shù)量與話務(wù)量關(guān)系以及額度不足和超限提醒短信數(shù)量與話務(wù)量關(guān)系都較為符合以下對數(shù)函數(shù)關(guān)系:
Y=C0+C1lnX(6)
由此,,因變量話務(wù)量分別與發(fā)卡數(shù),、固定額度調(diào)整通知短信數(shù)量、額度不足和超限提醒短信數(shù)量這三個(gè)最重要的影響因素之間建立了一元非線性回歸模型,,為之后多元逐步回歸模型的建立奠定了重要基礎(chǔ),。
2.5 模型線性化
為了方便最終模型的生成,先將比較難處理的非線性回歸問題轉(zhuǎn)換為容易處理的線性回歸問題,。
?。?)發(fā)卡數(shù)
令X=P1、X2=P2,、X3=P3,,則轉(zhuǎn)換后的方程如式(7)所示:
Y=C0+C1P1+C2P2+C3P3(7)
轉(zhuǎn)換后的方程由原來只有發(fā)卡數(shù)一個(gè)自變量變?yōu)?個(gè)自變量。為了保持對應(yīng),,用于訓(xùn)練模型,,需將原始數(shù)據(jù)也相應(yīng)地增加至3個(gè)自變量。這3個(gè)自變量分別為發(fā)卡數(shù)(原始值),、發(fā)卡數(shù)的平方值和發(fā)卡數(shù)的立方值,。
(2)固定額度調(diào)整通知短信數(shù)量
令N=lnX,,對數(shù)函數(shù)方程轉(zhuǎn)化為:
Y=C0+C1N(8)
其中新自變量N為原自變量固定額度調(diào)整通知短信數(shù)量的對數(shù)值。
?。?)額度不足和超限提醒短信數(shù)量
令X′=lnX,,則轉(zhuǎn)換后的線性函數(shù)方程為:
Y=C0+C1X′(9)
其中變量X′為原額度不足和超限提醒短信數(shù)量的對數(shù)值。
2.6 多元逐步回歸模型
雖然每個(gè)重要影響因素與話務(wù)量都存在一定的關(guān)系,,但從單個(gè)函數(shù)方程的R方得知,,其影響程度并不明顯。如果將每個(gè)重要影響因素與話務(wù)量的相關(guān)性做累加,,勢必能得到一個(gè)回歸效果更顯著的方程,,如式(10)所示。其中Y代表話務(wù)量,,C0~C5為常數(shù),,X1代表發(fā)卡數(shù),X2代表固定額度調(diào)整通知短信數(shù)量,,X3代表額度不足和超限提醒短信數(shù)量,。
Y=C0+C1X1+C2X12+C3X13+C4lnX2+C5lnX3(10)
基于式(7)~(9)所示方程,將所有重要影響因素的公式相加,,與非線性模型(式(10))相對應(yīng),,并只保留一個(gè)常數(shù)項(xiàng),生成線性的五元一次方程,,如式(11)所示,。
Y=C0+C1P1+C2P2+C3P3+C4P4+C5P5(11)
其中Y表示話務(wù)量,,P1表示發(fā)卡數(shù)(原始值),P2表示發(fā)卡數(shù)的平方值,,P3表示發(fā)卡數(shù)的立方值,,P4表示固定額度調(diào)整通知短信數(shù)量的對數(shù)值,P5表示額度不足和超限提醒短信數(shù)量的對數(shù)值,,C0~C5為常數(shù),。采用逐步回歸分析法,將各自變量依次添加進(jìn)回歸方程,,每次都對方程中各自變量進(jìn)行F顯著性檢驗(yàn),。
從試驗(yàn)結(jié)果得知,整個(gè)逐步回歸過程中,,每加入一個(gè)自變量,,其F檢驗(yàn)值都小于F0.05,因此沒有影響因素從方程中剔除,。最終模型R方變化過程如表2所示,。
由此可見,在逐步添加影響因素時(shí),,調(diào)整R方由0.780上升到0.872,,說明整個(gè)方程具有一定的擬合度。從調(diào)整R方的變化趨勢來看,,最后一個(gè)影響因素的加入其增幅只有0.001,,再增加影響因素對整個(gè)方程的擬合度影響不大。最終取得回歸模型各系數(shù)值如表3所示,。
3 實(shí)驗(yàn)分析
從模型擬合度看,,最終多元逐步回歸模型的R方為0.872,明顯高于前三種一元回歸模型(R方分別為 0.796,、0.659,、0.751)。只以“發(fā)卡數(shù)”,、“固定額度調(diào)整通知短信數(shù)量”或者“額度不足和超限提醒短信數(shù)量”一種影響因素來預(yù)測話務(wù)量走勢是不夠精確的,。此類分析法雖然快速簡單、易于實(shí)現(xiàn),,但預(yù)測誤差很大,,因而沒有實(shí)用價(jià)值。
相比于其他多元回歸分析法,,逐步回歸分析是較為折中的算法,。既不會像窮盡法那樣生成很多回歸方程,又能動態(tài)加入和剔除自變量,提高回歸方程的顯著性,,消除重復(fù)共線性,。因此應(yīng)用逐步回歸分析法建立話務(wù)量預(yù)測模型是極具現(xiàn)實(shí)意義的一項(xiàng)研究。
時(shí)間序列被定義為按照時(shí)間先后順序排列的一組定量觀測[8],,時(shí)間序列分析指對其觀察,、研究,找到其隱藏的,、不被人們所熟知的變化規(guī)律和趨勢,,從而創(chuàng)建模型,預(yù)測未來的此類數(shù)據(jù)的走勢的方法[9],。若時(shí)間序列平穩(wěn),,可以用自回歸模型AR(p)、滑動平均MA模型,、自回歸移動平均模型ARMA(p,,q)來進(jìn)行分析。ARMA模型能夠較好地描述時(shí)間序列,,但是其前提是時(shí)間序列是平穩(wěn)的,,缺點(diǎn)是預(yù)測速度慢??紤]到信用卡呼叫中心話務(wù)量可能存在循環(huán)周期性變動,,在此選擇ARIMA模型[10]。預(yù)測走勢如圖2所示,。
很明顯,,前半部分話務(wù)量總體基本很平穩(wěn),但后半部分明顯出現(xiàn)一個(gè)向上增長的整體趨勢,。這也和海河銀行信用卡中心近幾年響應(yīng)總行的“大力發(fā)展信用卡業(yè)務(wù)”相吻合。從擬合度看,,時(shí)間序列分析法模型統(tǒng)計(jì)出的R方為0.65,,而逐步回歸模型得到的R方為0.872。顯然通過逐步回歸分析預(yù)測話務(wù)量的模型擬合度更高,。
究其原因,,時(shí)間序列分析法只是挖掘了隨時(shí)間推移的話務(wù)量波動趨勢,而基于多個(gè)影響因素的逐步回歸分析法,,除了考慮海河銀行信用卡發(fā)行規(guī)模擴(kuò)大的影響因素外,,還增加了固定額度調(diào)整通知短信數(shù)量以及額度不足和超限提醒短信數(shù)量,從三個(gè)方面綜合預(yù)測未來話務(wù)量的整體走勢,。上述實(shí)驗(yàn)也證明了逐步回歸分析法的模型擬合度要高于時(shí)間序列分析法,。
4 結(jié)論
基于逐步回歸的多元非線性話務(wù)預(yù)測模型能夠依照各影響因素而變化,預(yù)測較為準(zhǔn)確,誤差水平低,。就算法復(fù)雜度而言,,基于時(shí)間序列的模型更簡單直觀、易于實(shí)現(xiàn),。如果能將其與回歸預(yù)測模型相結(jié)合,,交替使用,可進(jìn)一步提高預(yù)測的準(zhǔn)確性并降低時(shí)間復(fù)雜度,。同時(shí)逐步回歸分析法也有自身局限性,,一般適合于有明顯的增長特性和階段特征的大話務(wù)量預(yù)測,預(yù)測周期通常以月和年等為單位,。對于話務(wù)變化劇烈,、量級小、時(shí)間短的話務(wù)量預(yù)測,,可能會因誤差較大而無法使用,。此方法有待于進(jìn)一步研究。
參考文獻(xiàn)
[1] GREWAL M S,, ANDREWS A P. Kalman filtering: theory and practice using MATLAB[M]. New York: John Wiley & Sons,, 2011.
[2] HARVEY A C. Forecasting, structural time series models and the Kalman filter[M]. Cambridge: Cambridge University press,, 1990.
[3] CORTEZ P,, RIO M, ROCHA M,, et al. Multi-scale Internet traffic forecasting using neural networks and time series methods[J]. Expert Systems. 2012,,29(2):143-155.
[4] DURBIN J, KOOPMAN S J. Time series analysis by state space methods[M]. Oxford: Oxford University Press,, 2012.
[5] FENG H. Performance problems of forecasting systems[C]. In 15th East-European conference on Advances in Databases and Information Systems,, 2011:254-261.
[6] 程偉.基于季節(jié)變動模型的話務(wù)量預(yù)測[J].湖北郵電技術(shù),2000(3):24-26.
[7] STANEK D M,, MOKHTARIAN P L. Developing models of preference for home-based and center-based telecommunting: Findings and forecasts[J]. Technological Forecasting and Social Change,, 1998,57(1):53-74.
[8] KIRCHG?魧SSNER G,, WOLTERS J,, HASSLER U. Introduction to modern time series analysis[M]. Berlin:Springer, 2012.
[9] 劉童.話務(wù)量時(shí)間序列預(yù)測方法的實(shí)現(xiàn)[D].長春:吉林大學(xué),,2008.
[10] MADDEN G,, SAVAGE S J, COBLE-NEAL G. Forecasting United States-Asia international message telephone service[J]. International Journal of Forecasting,, 2002,, 18(4): 523-543.