盧盛祺1,2,3,李遠(yuǎn)剛1,2,,管連4,周赟3
?。?.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433,;2.上海財(cái)經(jīng)大學(xué) 上海市金融信息技術(shù)重點(diǎn)實(shí)驗(yàn)室,,上海 200433;3.復(fù)旦大學(xué) 軟件學(xué)院,,上海 200433,;4.國際商業(yè)機(jī)器(中國)有限公司,北京 100101)
摘要:隨著銀行服務(wù)信息化的不斷發(fā)展,銀行面臨如何從大量的服務(wù)數(shù)據(jù)中提取有價(jià)值的信息用以提升服務(wù)效率的問題,。在銀行服務(wù)管理系統(tǒng)的實(shí)際應(yīng)用中,,由于其業(yè)務(wù)具有并發(fā)性事件多、日志數(shù)量大等特點(diǎn),,選擇并行Apriori算法進(jìn)行分析,。與傳統(tǒng)的Apriori算法相比,針對(duì)銀行業(yè)務(wù)中并發(fā)性業(yè)務(wù)較多的特點(diǎn),,設(shè)計(jì)使用了并行Apriori算法,,解決了單服務(wù)器運(yùn)行效率隨日志數(shù)量明顯下降的弊端。銀行服務(wù)管理系統(tǒng)每日會(huì)產(chǎn)生大量流程的日志數(shù)據(jù),,記錄每一位參與員工的工作狀態(tài),,通過調(diào)用并行Aporiori算法,挖掘服務(wù)流程日志中的關(guān)聯(lián)規(guī)則,,找出能夠高效協(xié)作的員工組合,。實(shí)驗(yàn)結(jié)果表明,將并行Apriori算法應(yīng)用于服務(wù)流程日志的關(guān)聯(lián)規(guī)則挖掘,,使系統(tǒng)可以根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請(qǐng)求,,提高了服務(wù)效率,取得了合理的應(yīng)用效果,,提高了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能,。
關(guān)鍵詞:流程挖掘;關(guān)聯(lián)規(guī)則,;員工組合,;組織優(yōu)化;并行Apriori算法
0引言
隨著銀行同業(yè)競爭之間的壓力逐漸加劇,,將數(shù)據(jù)挖掘技術(shù)應(yīng)用于發(fā)現(xiàn)流程日志數(shù)據(jù)中的有用模式,,解決銀行在新形勢下面臨的問題,,成為大數(shù)據(jù)時(shí)代下銀行信息化應(yīng)用的研究熱點(diǎn)[1 2],。作為銀行信息化核心系統(tǒng)之一的銀行服務(wù)管理系統(tǒng),需要針對(duì)來自于銀行各種業(yè)務(wù)渠道的客戶進(jìn)行一站式的管理服務(wù),,并幫助銀行優(yōu)化客戶服務(wù)管理流程,,提高服務(wù)效率。現(xiàn)有的銀行服務(wù)管理系統(tǒng)主要提供諸如服務(wù)請(qǐng)求錄入,、服務(wù)請(qǐng)求查詢等基本的業(yè)務(wù)操作功能,,但系統(tǒng)的智能性普遍不高。此外,,銀行服務(wù)管理系統(tǒng)在長期的運(yùn)行過程中積累了大量的流程日志,,包括事件以及事件執(zhí)行者等數(shù)據(jù)[3],這些流程日志所包含的數(shù)據(jù)反映了流程的執(zhí)行過程[4]。因此,,數(shù)據(jù)挖掘技術(shù)的應(yīng)用為解決上述問題提供了新的機(jī)遇[5 6],。通過對(duì)流程日志數(shù)據(jù)的分析和重現(xiàn)業(yè)務(wù)流程模型,可以發(fā)現(xiàn)影響銀行效率的瓶頸,,并更好地利用現(xiàn)有資源提高服務(wù)質(zhì)量,,推進(jìn)了銀行的業(yè)務(wù)設(shè)計(jì)和管理的改進(jìn)[7 8]。
學(xué)術(shù)界和企業(yè)界已經(jīng)探討了如何應(yīng)用銀行流程日志的分析來提高銀行服務(wù)管理系統(tǒng)的智能[9],。例如,,基于時(shí)間序列的數(shù)據(jù)挖掘可以預(yù)測銀行客戶未來的行為[10]。還有基于支持向量機(jī)和決策樹的改進(jìn)算法,,對(duì)數(shù)據(jù)進(jìn)行分析并最終預(yù)測銀行的業(yè)務(wù)效率[1112],。但總體而言,目前的相關(guān)研究還主要集中在對(duì)銀行流程日志中所包含的客戶相關(guān)數(shù)據(jù)的分析,,而對(duì)于銀行內(nèi)部運(yùn)營效率提升方面的應(yīng)用研究還相對(duì)較少,,特別是銀行員工作為服務(wù)流程的參與者,他們之間的合作關(guān)系也是影響銀行運(yùn)營效率的主要因素[13],。
本文重點(diǎn)討論了如何找到合作效率較高的員工組合,,來提升銀行服務(wù)效率,其中針對(duì)銀行服務(wù)管理系統(tǒng)流程日志的大規(guī)模特點(diǎn),,探討了如何有效地應(yīng)用并行Apriori算法分析銀行員工與服務(wù)效率之間的關(guān)系[14],。
1銀行服務(wù)管理流程日志預(yù)處理
1.1流程日志的數(shù)據(jù)分析
銀行服務(wù)管理系統(tǒng)通常會(huì)對(duì)服務(wù)請(qǐng)求處理的流程數(shù)據(jù)加以記錄,最常見的是以日志文件的形式進(jìn)行保存,。而流程日志作為流程挖掘的輸入,,記錄了流程執(zhí)行過程中的相關(guān)數(shù)據(jù)。
在銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志中,,可以提取參與某次服務(wù)請(qǐng)求處理的所有員工,、處理的時(shí)間等數(shù)據(jù)。其中,,參與某次服務(wù)請(qǐng)求處理的所有員工可以看成是針對(duì)該次服務(wù)請(qǐng)求處理組成的臨時(shí)團(tuán)隊(duì),,而所花費(fèi)的總處理時(shí)間反映了服務(wù)的效率。對(duì)流程日志數(shù)據(jù)進(jìn)行簡單的觀察,,即可發(fā)現(xiàn)針對(duì)相同類型的服務(wù)請(qǐng)求,,參與處理的員工組合不同,所花費(fèi)的總處理時(shí)間也是不同的,。這很大程度上是因?yàn)閱T工之間的協(xié)作緊密程度影響著服務(wù)效率,。通常協(xié)作關(guān)系好的員工在一起處理服務(wù)請(qǐng)求,具有更高的服務(wù)效率,。這說明完成服務(wù)處理的員工的組合與總處理時(shí)間之間存在一定的關(guān)聯(lián)關(guān)系,。因此可以通過關(guān)聯(lián)分析找到與高服務(wù)效率相關(guān)聯(lián)的員工組合,,回答“怎樣的員工組合是高效的”,也側(cè)面回答了“哪些員工在一起工作是協(xié)作緊密的”,,從而提高了系統(tǒng)的智能性,。在此基礎(chǔ)上,針對(duì)各類服務(wù)請(qǐng)求,,生成相應(yīng)的服務(wù)分配規(guī)則,,將協(xié)作關(guān)系緊密、可以提供高服務(wù)效率的員工分配一起,,從而提高服務(wù)效率,,減少客戶的等待時(shí)間,提高客戶滿意度,。
流程日志文件本身往往不是為關(guān)聯(lián)分析所設(shè)計(jì)的,,它包含了與分析主題無關(guān)的屬性,也存在與分析主題所需數(shù)據(jù)維度不一致的情況,,因此數(shù)據(jù)預(yù)處理是整個(gè)流程日志挖掘過程的基礎(chǔ)以及保證規(guī)則有效性的前提,,從大量的數(shù)據(jù)屬性中提取與挖掘過程有關(guān)的屬性從而降低了原始數(shù)據(jù)的維數(shù)。數(shù)據(jù)預(yù)處理主要包括以下幾方面,。
?。?)忽略或者刪除與關(guān)聯(lián)分析無關(guān)的屬性。
?。?)對(duì)噪聲數(shù)據(jù),、錯(cuò)誤數(shù)據(jù)、缺失數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗處理[15],。由于系統(tǒng)的異常,、人為的誤操作等情況都可能產(chǎn)生噪聲數(shù)據(jù)、錯(cuò)誤數(shù)據(jù),、缺失數(shù)據(jù),,這些數(shù)據(jù)會(huì)影響分析的結(jié)果,因此在數(shù)據(jù)預(yù)處理過程中需要對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,,以提高數(shù)據(jù)挖掘算法的效率和準(zhǔn)確度,。其中,對(duì)缺失數(shù)據(jù)的問題,,通??梢酝ㄟ^數(shù)據(jù)補(bǔ)齊和數(shù)據(jù)預(yù)測等方法處理。對(duì)于少量錯(cuò)誤數(shù)據(jù)的問題,,通常采取刪除錯(cuò)誤記錄的方式進(jìn)行處理。
?。?)對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,。這主要包括定義衍生列,,并根據(jù)邏輯計(jì)算其值,對(duì)隱私信息進(jìn)行轉(zhuǎn)換等操作,。
1.2流程數(shù)據(jù)的預(yù)處理
(1)數(shù)據(jù)清理
針對(duì)在流程日志數(shù)據(jù)分析中發(fā)現(xiàn)的典型問題,,可以通過以下方法進(jìn)行處理:
①針對(duì)錯(cuò)誤數(shù)據(jù),、缺失數(shù)據(jù)的問題,,通過定義規(guī)則來定位錯(cuò)誤數(shù)據(jù)和缺失的數(shù)據(jù),并將其刪除,。例如“InQueueDateTime”,、“OutQueueDateTime”分別表示服務(wù)請(qǐng)求進(jìn)入員工服務(wù)隊(duì)列池的開始時(shí)間和結(jié)束時(shí)間,顯然“InQueueDateTime”晚于“OutQueueDateTime”的數(shù)據(jù)為異常數(shù)據(jù),。因此,,可以定義規(guī)則:如果記錄中的“InQueueDateTime”晚于“OutQueueDateTime”,則刪除該條記錄,。
?、卺槍?duì)需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換的問題,可以定義字段轉(zhuǎn)換規(guī)則和計(jì)算公式,,并據(jù)此產(chǎn)生衍生字段,。例如設(shè)定計(jì)算規(guī)則:“處理池停留時(shí)間(Duration)”可以由“服務(wù)請(qǐng)求進(jìn)入處理池的時(shí)間”到“服務(wù)請(qǐng)求離開處理池的時(shí)間”的間隔計(jì)算得到。對(duì)各步的處理池停留時(shí)間求和,,就可以得到衍生字段“總服務(wù)處理時(shí)間”,。
③反映服務(wù)效率的服務(wù)處理時(shí)間一般是正態(tài)分布的,,因此代表高服務(wù)效率的記錄往往很少,。針對(duì)該問題,可以僅截取代表高服務(wù)效率的記錄作為分析的數(shù)據(jù)集,,然后設(shè)定合適的服務(wù)效率分級(jí)規(guī)則,。
(2)會(huì)話識(shí)別
要識(shí)別每一條會(huì)話,一條完整的會(huì)話的界定比較復(fù)雜,,以撥打電話為例,,用戶會(huì)在不明確服務(wù)流程的情況下,撥打好幾次電話進(jìn)行嘗試,,但其中只有服務(wù)成功的會(huì)話才是有效的,,所以在識(shí)別會(huì)話的過程中有一些啟發(fā)式規(guī)則可以使用。
?、僭诙虝r(shí)間內(nèi),,一個(gè)用戶進(jìn)行多次的服務(wù)請(qǐng)求,都可以認(rèn)為是一個(gè)會(huì)話,。
?、谝粋€(gè)用戶如果發(fā)起了不同的服務(wù)請(qǐng)求,,需要被認(rèn)為是不同的會(huì)話。
?、叟c用戶確認(rèn)結(jié)束服務(wù)作為一個(gè)會(huì)話的結(jié)束,,保證會(huì)話的有效性。
在各類企業(yè)信息系統(tǒng)所產(chǎn)生的日志文件中,,XML是一種比較常見的形式,。其中,每一個(gè)XML標(biāo)簽(tag)被稱為一個(gè)元素,,對(duì)應(yīng)一個(gè)屬性,。針對(duì)銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程日志的文件形式,可以通過ETL工具對(duì)其進(jìn)行預(yù)處理,,只采集與關(guān)聯(lián)分析有關(guān)的屬性,。使用 ETL工具讀取流程日志文件和元數(shù)據(jù)配置文件,將流程數(shù)據(jù)加載到數(shù)據(jù)庫中,。流程數(shù)據(jù)表包含的主要屬性有請(qǐng)求類別(RequestType),、請(qǐng)求子類的唯一標(biāo)識(shí)碼(RequestCode)、此次服務(wù)請(qǐng)求的唯一標(biāo)識(shí)(RequestCaseUniqID),、操作類別(ActionType),、日志記錄類別(LogRecordType)、系統(tǒng)用戶賬號(hào)(LogonID),、會(huì)話號(hào)(SessionID),、會(huì)話開始時(shí)間(SessionStartDateTime)、會(huì)話結(jié)束時(shí)間(SessionEndDateTime),、進(jìn)入處理池時(shí)間(InQueueDateTime),、離開處理池時(shí)間(OutQueueDateTime)和產(chǎn)品代碼(ProdectCode)等。
1.3數(shù)值屬性離散化
并行Apriori算法是一種用以挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的關(guān)聯(lián)規(guī)則分析算法,,而服務(wù)請(qǐng)求的總時(shí)間是數(shù)值類型的,,因此需要對(duì)服務(wù)請(qǐng)求總時(shí)間進(jìn)行屬性離散化。
以處理申請(qǐng)無抵押貸款的服務(wù)請(qǐng)求為例,,用ProcessRequest_APPL-UPL代表處理客戶申請(qǐng)無抵押貸款的服務(wù)請(qǐng)求,,且該請(qǐng)求在系統(tǒng)中需要通過4個(gè)步驟完成。其基本流程是個(gè)人貸款部門業(yè)務(wù)員完成對(duì)請(qǐng)求的相關(guān)信息錄入,;客戶信息管理部門根據(jù)錄入的信息核對(duì)該客戶信息并在系統(tǒng)中給予核準(zhǔn)意見,;對(duì)于通過核準(zhǔn)步驟的請(qǐng)求,貸款部的額度組根據(jù)客戶收入和信息確定批準(zhǔn)的貸款金額,;最后,,個(gè)人貸款部門業(yè)務(wù)員發(fā)放貸款并在系統(tǒng)中更新該信息。用TCT代表完成此次服務(wù)請(qǐng)求的總耗時(shí),。包含上述員工的服務(wù)請(qǐng)求的部分流程分析數(shù)據(jù)如表1所示,。
服務(wù)總時(shí)間數(shù)據(jù)離散的過程如下:
?。?)計(jì)算針對(duì)客戶申請(qǐng)無抵押貸款類的服務(wù)請(qǐng)求(APPLUPL),,所有員工序列的總平均處理時(shí)間(AverageConsumedTime,,ACT),即ACT=sum(TCT)/ (records count),。
?。?)將各組員工序列的處理總時(shí)間(TotalConsumedTime,TCT)減去總平均處理時(shí)間(ACT)并與總平均處理時(shí)間求比值,,用TCT%表示,。
(3)確定服務(wù)請(qǐng)求處理效率的分級(jí)規(guī)則,。對(duì)服務(wù)請(qǐng)求的處理效率進(jìn)行分級(jí)時(shí),,需要分析經(jīng)過步驟(2)計(jì)算后的TCT%的分布情況,并根據(jù)數(shù)據(jù)的分布情況確定最小置信度的區(qū)間,。
依據(jù)以下原則選取合適的服務(wù)請(qǐng)求處理效率分級(jí)規(guī)則,。
①保證分級(jí)后,,包含期望出現(xiàn)在挖掘結(jié)果中的服務(wù)等級(jí)的記錄數(shù)與總記錄數(shù)的比值大于選取的最小置信度,。例如,假設(shè)定義TCT% 小于-50%為Class A,,代表具有高服務(wù)處理效率,,期望挖掘出的關(guān)聯(lián)規(guī)則是員工組合與高服務(wù)效率(Class =A)之間的關(guān)聯(lián)關(guān)系。
?、诒WC分級(jí)后,,挖掘出的結(jié)果是有意義的。如果將TCT% 小于-1%劃分為Class=A,,則挖掘出的關(guān)聯(lián)規(guī)則包含Class=A的項(xiàng)集,。因?yàn)楦鹘M員工的TCT%符合正態(tài)分布,假設(shè)現(xiàn)有的服務(wù)效率(ProductivityClass)分為5級(jí),,數(shù)據(jù)分布以及在此基礎(chǔ)上設(shè)定的服務(wù)效率分級(jí)規(guī)則如表2所示,。
(4)根據(jù)步驟(3)確定的服務(wù)效率分級(jí)規(guī)則對(duì)(ACT)進(jìn)行離散化處理,。假設(shè)根據(jù)表2的規(guī)則對(duì)數(shù)據(jù)進(jìn)行離散化處理,,處理后的結(jié)果如表3所示。
經(jīng)過上述步驟,,數(shù)值型的總服務(wù)處理時(shí)間就轉(zhuǎn)換成了布爾型的服務(wù)效率等級(jí),。
2銀行服務(wù)管理日志挖掘
針對(duì)大量的并發(fā)操作,銀行服務(wù)管理系統(tǒng)往往采用了并行的處理架構(gòu)以應(yīng)對(duì)數(shù)據(jù)增加帶來的性能瓶頸問題,。因此,,系統(tǒng)產(chǎn)生的流程日志文件也分布在多個(gè)服務(wù)器上,。如果將位于各個(gè)服務(wù)器上的流程日志文件采集集成到一個(gè)服務(wù)器上處理,則隨著數(shù)據(jù)量的不斷累積和增加,,最終導(dǎo)致處理和挖掘效率的直線下降,。與此同時(shí),Apriori挖掘算法在掃描儲(chǔ)存了大量數(shù)據(jù)的數(shù)據(jù)庫表時(shí)也會(huì)消耗大量的資源,。
基于上述問題,,本文充分利用銀行服務(wù)管理系統(tǒng)本身的并行架構(gòu),采用基于并行處理的Apriori算法[16],。假設(shè)表4是處理后的完整數(shù)據(jù)集合,,若選擇0.4作為最低支持度閾值,則可應(yīng)用并行Apriori算法挖掘員工序列與服務(wù)效率之間的關(guān)聯(lián)關(guān)系,。
?。?)生成局部頻繁集
使用典型的Apriori算法對(duì)每個(gè)流程日志文件進(jìn)行關(guān)聯(lián)分析,分別得到局部的頻繁項(xiàng)目集,。
?。?)使用并行的Apriori算法計(jì)算關(guān)聯(lián)規(guī)則
首先將所有局部頻繁項(xiàng)集進(jìn)行合并,組合成全局候選的頻繁項(xiàng)集合,。然后刪去其中不滿足最小支持度的集合,,得到全局的頻繁項(xiàng)目集合。獲得所有頻繁集的非空子集并計(jì)算子集的置信度,,得到關(guān)聯(lián)規(guī)則集,。最后,選擇與業(yè)務(wù)需求相關(guān)的關(guān)聯(lián)規(guī)則,,即(員工組合)=>(服務(wù)等級(jí))形式的規(guī)則,。
3實(shí)驗(yàn)
為了驗(yàn)證使用并行Apriori關(guān)聯(lián)規(guī)則挖掘員工組合與服務(wù)處理效率之間關(guān)聯(lián)關(guān)系的效果,這里選擇了銀行服務(wù)管理系統(tǒng)在一個(gè)月內(nèi)產(chǎn)生的流程日志文件進(jìn)行實(shí)驗(yàn),。由于不同類別的服務(wù)請(qǐng)求處理的流程和所涉及的處理員工差異較大,,因此僅提取包含處理客戶申請(qǐng)無抵押貸款的服務(wù)請(qǐng)求的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。剔除未完成的服務(wù)處理請(qǐng)求記錄,,滿足條件的數(shù)據(jù)集大約有15萬條記錄,,其中根據(jù)默認(rèn)的服務(wù)等級(jí)劃分后的數(shù)據(jù)分布如表5所示。
服務(wù)等級(jí)(Class=A)的記錄由于所占比例太小,,在尋找頻繁項(xiàng)集的過程中,,會(huì)因?yàn)椴环献钚≈С侄乳撝刀贿^濾。而如果設(shè)定較小的最小支持度閾值,,則會(huì)帶來性能的問題,,并挖掘出大量的無用規(guī)則。因此排除服務(wù)等級(jí)為D和E的記錄,并根據(jù)選取的最小支持度對(duì)服務(wù)等級(jí)重新劃分,。
在完成對(duì)數(shù)據(jù)的預(yù)處理后,,使用分布式處理的每一個(gè)處理節(jié)點(diǎn)都加載包含了對(duì)常見的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的R擴(kuò)展包arules后,調(diào)用rules包中的apriori函數(shù)對(duì)處理后的數(shù)據(jù)做關(guān)聯(lián)分析,。指定合適的最小支持度和最小置信度后,,獲得滿足條件的關(guān)聯(lián)規(guī)則的部分結(jié)果輸出如下:
1{E1=John,E2=Lisa,E3=Jenny,E4=Raju}=>{Class=D} 0.154545450.7500000 5.892857
2 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=C} 0.16363636 0.4285714 2.619048
3 {E1=John, E2=Lisa, E3=Jenny, E4=Rajesh} => {Class=B} 0.172727270.4285714 2.964286
4 {E1=John, E2=Lisa,E3=Jenny,E4=Sophia}=>{Class=A} 0.154545450.7500000 2.291667
5 {E1=David, E2=Ken, E3=Bruce,E4=Sophia}=>{Class=A} 0.145454550.8888889 2.716049
... ...
上述結(jié)果所對(duì)應(yīng)的包含服務(wù)等級(jí)A的規(guī)則如下:
1.{E1=John,E2=Lisa,E3=Jenny,E4=Sophia} => {Class=A} conf:(0.7500000)
2.{E1=David,E2=Ken,E3=Bruce,E4=Sophia} => {Class=A} conf:(0.8888889)
... ...
如果僅僅使用Apriori關(guān)聯(lián)算法,在計(jì)算支持度時(shí)需要多次掃描數(shù)據(jù)庫,,而Eclat算法對(duì)候選n項(xiàng)集進(jìn)行支持度計(jì)算時(shí)不需再次掃描數(shù)據(jù)庫,。因此通過應(yīng)用Eclat關(guān)聯(lián)規(guī)則算法對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則挖掘,,通過對(duì)比挖掘出的結(jié)果驗(yàn)證規(guī)則的有效性,,并比較它們?cè)谛阅苌系牟町悺?/p>
在加載包含了對(duì)常見的關(guān)聯(lián)規(guī)則算法實(shí)現(xiàn)的R擴(kuò)展包arules后,調(diào)用rules包中的eclat函數(shù)對(duì)處理后的相同數(shù)據(jù)做關(guān)聯(lián)分析,。指定相同的最小支持度和最小置信度后,,獲得滿足條件的關(guān)聯(lián)規(guī)則集合。
基于本實(shí)驗(yàn)的數(shù)據(jù)集,,且在相同實(shí)驗(yàn)的環(huán)境下,,加載R擴(kuò)展包arules后,通過分別調(diào)用apriori函數(shù)和eclat函數(shù)以實(shí)現(xiàn)Apriori關(guān)聯(lián)規(guī)則挖掘和Eclat關(guān)聯(lián)規(guī)則挖掘,,然后獲取兩者所消耗的時(shí)間并進(jìn)行比較,。結(jié)果表明,兩者在性能上差異很小,。其中,,采用Eclat算法進(jìn)行挖掘比采用非并行Apriori算法進(jìn)行挖掘快2 min得出結(jié)果,并行Apriori算法的時(shí)間明顯減少,,其中并行算法使用3臺(tái)Dell R530/2.83 Hz/8 GB服務(wù)器,,其他使用單臺(tái)服務(wù)器配置。修正最小支持度閾值,,得到表6所示的實(shí)驗(yàn)結(jié)果,。
因此基于目前銀行服務(wù)管理系統(tǒng)產(chǎn)生的流程數(shù)據(jù),采用并行Apriori關(guān)聯(lián)規(guī)則算法進(jìn)行挖掘,,取得了比較理想的效果,。
4結(jié)論
協(xié)作的緊密程度影響著服務(wù)處理的效率,分配協(xié)作緊密度高的員工在一起合作可以提高服務(wù)的效率,。哪些員工在一起合作具有緊密的協(xié)作關(guān)系,,能提供高效的服務(wù),蘊(yùn)藏在流程日志數(shù)據(jù)中,。本文分析了如何有效地應(yīng)用并行Apriori算法從流程日志中挖掘出服務(wù)處理員工序列與服務(wù)效率之間的關(guān)系,。將挖掘出的關(guān)系映射成對(duì)服務(wù)分配的規(guī)則,使得系統(tǒng)根據(jù)規(guī)則將協(xié)作關(guān)系緊密的員工分配在一起共同處理服務(wù)請(qǐng)求,提高了服務(wù)效率,,取得了合理的應(yīng)用效果,,實(shí)現(xiàn)了銀行服務(wù)管理系統(tǒng)中服務(wù)分配的智能化。如何應(yīng)用數(shù)據(jù)挖掘技術(shù)更深層次地去挖掘蘊(yùn)含在流程日志中的有用模式或知識(shí),,是需要進(jìn)一步思考的問題,。
參考文獻(xiàn)
[1] LNMON W H.數(shù)據(jù)倉庫(第3版)[M].王志海,,譯.北京:機(jī)械工業(yè)出版社,2005.
?。?] LAROSE D T. Discovering knowledge in data: an introduction to data mining[M].New Jersey: WileyInterscience,2005.
[3] 趙衛(wèi)東.智能化的流程管理[M].上海:復(fù)旦大學(xué)出版社,,2014.
?。?] van der AALST W M P, WEIJTERS T, MATUSTER L.Workflow mining:discovering process models from event logs[J] .IEEE Transactions on Knowledge and Data Engineering, 2004,16(9):1128 1142.
[5] BERSON A, SMITH S, THEARLING K. Building data mining applications for CRM[M]. New York: McGrawHill Companies, 2000.
?。?] ROMBEL A. CRM shifts to data mining to keep customers[J].Global Finance,2001,15(11):97 98.
?。?] WEISS G M. Data mining in telecommunications[A].The data mining and knowledge discovering handbook[M].Springer US,2005:1187 1201.
[8] GROTH R.Data mining:building competitive advantage[M].Prentice Hall,1999.
?。?] 趙衛(wèi)東,,劉海濤.流程挖掘在流程優(yōu)化中的應(yīng)用[J].計(jì)算機(jī)集成制造系統(tǒng),2014,,20(10):2633 2641.
?。?0] PARVATHY A G,VASUDEVAN B G,KUMAR A,et al.Leveraging call center logs for customer behavior prediction[A]. ADAMS N M.Advances in Intelligent Data Analysis VIII8th International Symposium on Intelligent Data Analysis[C].Lyon: SpringerVerlag,,2009,57772:143 154.
?。?1] WRITTEN I H, FRANK E.Data mining practical machine learning tools and techniques[M].Burlington:Morgan Kaufmann,,2011.
?。?2] LIN S W, SHIUE Y R,, CHEN S C,,et al.Applying enhanced data mining approaches in predicting bank performance:A case of Taiwanese commercial banks [J].Expert Systems with Applications, 2009,,36(9):11543 11551.
?。?3] AKHIL K,DIJKMAN R M,,SONG M.Optimal resource assignment in workflows for maximizing cooperation[A].Business Process Management (Proceedings of the 11th International Conference on Business Process Management)[C] .Berlin Heidelberg: SpringerVerlag,,2013:235 250.
[14] Wu Xindong,, KUMAR V.The top ten algorithms in data mining[M].USA:Chapman and Hall/CRC,,2009.
[15] Han Jiawei.Data mining:concepts and techniques[M].Burlington:Morgan Kaufmann,2011.
?。?6] YE Y, CHIANG C C. A parallel apriori algorithm for frequent itemsets mining[C]. Fourth International Conference on Software Engineering Research, Management and Applications, 2006, IEEE, 2006: 87 94.