??? 摘 要:提出統(tǒng)計分析系統(tǒng)不應該歸入普通管理信息系統(tǒng),,而應該根據(jù)用戶具體需求,,充分分析其本質(zhì),利用數(shù)據(jù)倉庫技術(shù)進行開發(fā)和實現(xiàn),,并闡述了如何利用數(shù)據(jù)倉庫技術(shù)從需求分析到最終表現(xiàn)的開發(fā)全過程,。
??? 關(guān)鍵詞:數(shù)據(jù)倉庫;統(tǒng)計分析;需求分析;工作流
?
??? 統(tǒng)計分析系統(tǒng)(Statistic Analysis System)不是歸入到普通管理信息系統(tǒng)MIS中的模塊或插件,,而是建立在MIS基礎之上,具有一定輔助決策能力的獨立系統(tǒng),。往往在傳統(tǒng)MIS中嵌入統(tǒng)計分析系統(tǒng),,會造成MIS運行的數(shù)據(jù)吞吐瓶頸,給客戶帶來MIS運行緩慢的錯覺,。尤其是當業(yè)務數(shù)據(jù)量很大的時候,,這種情況會突顯出來。為此,,使用有效的技術(shù)手段構(gòu)造獨立的統(tǒng)計分析系統(tǒng)是很有必要的,。在開發(fā)“文化稽查統(tǒng)計分析系統(tǒng)”項目的時候,采用了數(shù)據(jù)倉庫技術(shù),,構(gòu)建起運行在“文化稽查管理信息系統(tǒng)”之上的統(tǒng)計分析系統(tǒng),。本文介紹了相關(guān)的構(gòu)建過程和關(guān)鍵技術(shù)的實施。
1 需求分析
1.1 需求特點
??? 建立統(tǒng)計分析系統(tǒng)依然要經(jīng)過嚴格的需求分析階段,,只有在明確的需求指導下,,才能開發(fā)出滿足客戶真正需要的系統(tǒng)。MIS系統(tǒng)是建立在非信息化的原始手工平臺上的全新系統(tǒng),,而該系統(tǒng)則是在原有的MIS系統(tǒng)開放平臺上構(gòu)造上層系統(tǒng),,因此具兩大特點:(1)業(yè)務過程信息化。在需求分析階段不需要重新分析整個業(yè)務過程,因為這些復雜的業(yè)務流程已經(jīng)整理并實現(xiàn)在良構(gòu)的MIS中,,需關(guān)注的應該是對于領導決策層關(guān)心的業(yè)務數(shù)據(jù)及其表現(xiàn)形式上,。(2)無需采集數(shù)據(jù)。由于數(shù)據(jù)的采集過程已經(jīng)由MIS完成,,因此,,只需要去分析現(xiàn)有的數(shù)據(jù)集即可。
1.2 關(guān)鍵業(yè)務需求
??? 正因為上述需求特點,,可以將工作重心從整理業(yè)務流程上轉(zhuǎn)移到數(shù)據(jù)分析上,。通過與客戶的交流,建立起共性需求,。對于任何統(tǒng)計分析系統(tǒng),,都有對數(shù)據(jù)進行歸并和分類的過程,并且提供給決策層的數(shù)據(jù)往往是在某個層面上的匯總結(jié)果,。因此,,將“文化稽查統(tǒng)計分析系統(tǒng)”的需求歸納成:(1)建立分項統(tǒng)計功能。即對決策層面臨的“舉報”,、“稽查”,、“立案”、“處罰”等業(yè)務主題建立各自獨立的統(tǒng)計模塊,。(2)確立統(tǒng)計方式為:匯總與分類,,同時要多維度表現(xiàn)。即可以在任何統(tǒng)計分項上,,考核各統(tǒng)計指標,,建立起按照時間、地點,、任務劃分的統(tǒng)計過程,。(3)同時要采用靈活的表現(xiàn)方式。即可以以表格和圖形的方式展現(xiàn)給最終用戶,。
??? 對整個統(tǒng)計過程簡單建模如圖1所示,。這在需求上就確立了該系統(tǒng)的特點符合構(gòu)造數(shù)據(jù)倉庫的特點,即面向主題,,用于決策支持,,與時間刻度相關(guān)的系統(tǒng)。
?
?
2 數(shù)據(jù)預處理
??? 采用基于工作流(Workflow)方式的數(shù)據(jù)預處理過程,。在原有的MIS系統(tǒng)上很容易總結(jié)工作流,。例如在該系統(tǒng)中,從原有的MIS中截獲的基本過程是:舉報,、稽查,、立案和處罰,,但是這些只是基本工作過程,在它們之間還有一定的關(guān)聯(lián)關(guān)系,,這就要通過對業(yè)務過程進行分析( Business Process Analysis),,以便更好地建立數(shù)據(jù)集。
2.1 工作流分析
??? 對于整個文化稽查業(yè)務基本上劃分出上述的5個過程(Process),,在各過程之間是判斷與選擇的關(guān)聯(lián)關(guān)系,?;竟ぷ髁鞒堂枋鋈鐖D2所示,。
?
?
??? 對于一般的系統(tǒng),可以從定義過程開始進行分析,。 1, p2>, c1), ( 2, p3>, c2), ( 2, p4>, c3), ( 2, p5>, c4), ( 3, p4>, c5), ( 4, p5>, c6) }
??? 定義 1:
???
??? P是定義在業(yè)務過程上的集合,;R是定義在P上的關(guān)系對與條件判斷C的有序?qū)稀Mㄟ^給定這樣兩組集合,,可以在確立主題統(tǒng)計指標之間關(guān)系的時候進行直接關(guān)聯(lián),。
??? 這樣上述過程可以更加精確的描述:
??? P={p1: 舉報, p2: 稽查, p3: 立案, p4: 處罰, p5: 終結(jié) }
??? R={ (
??? C = {c1: 接受, c2: 待處理, c3: 現(xiàn)場裁決, c4: 正常, c5: 裁決, c6: 結(jié)案}
2.2 數(shù)據(jù)準備
??? 基于上述定義的工作流過程,可以確定需要數(shù)據(jù)的范疇,,并且建立指標集,。在數(shù)據(jù)預處理階段,將原有業(yè)務數(shù)據(jù)庫中的數(shù)據(jù)按照上述過程進行了劃分,,確立了分別反映前4個過程的4個關(guān)鍵數(shù)據(jù)表,,并且在它們之間建立了以集合C為條件的關(guān)聯(lián)關(guān)系。
??? JuBao(ID#, …)
??? JiCha(ID#, JuBaoID, LiAnID…)
??? ChuFa(ID#, JiChaID, …)
??? JieAn(ID#, ChuFaID, JiChaID)
??? 按照這4個表中的主外鍵確立過程關(guān)系,,同時根據(jù)具體情況去除一些異常數(shù)據(jù),,如圖3所示。
?
?
3 數(shù)據(jù)倉庫建模
3.1 確立主題
??? 依照工作流總結(jié)的4個基本過程,,可以定義出4個主題,,如圖4所示,按照它們在需求階段確定的內(nèi)容,,劃分數(shù)據(jù)間的粒度大小,。
?
?
??? 在粒度劃分上要遵循客戶實用性原則,即依照客戶需求將各維度(Dimension)劃分成不同的類別,,以便于用戶識別,。例如:時間維度,可以劃分成按年,、季度,、月份、周和日期的不同粒度,。地區(qū)維度,,可以劃分為市,、區(qū)(縣)、街道等,。
3.2 建立信息包
??? 確立主題之后,,在主題的作用域內(nèi)確立維度、事實(Facts),,并建立起信息包(Information Package),。
??? 例如:對于“稽查”主題,在用戶看來需要了解的信息包括,,稽查單位數(shù),、處罰數(shù)量、代立案數(shù)量等一些業(yè)務指標,,而這些正好構(gòu)成了我們要求解的事實,。同時關(guān)心在不同時間片斷,不同地區(qū),,以及考量各業(yè)務部門之間的這些指標的變化情況,,這樣就構(gòu)成了統(tǒng)計時需要的維度。依次,,建立如圖5所示的信息包,。
?
?
3.3 建立星型模型
??? 信息包的確立是建立數(shù)據(jù)集合的基礎,但是需要將這種二維表現(xiàn)模型轉(zhuǎn)換成具有多維度表現(xiàn)的星型模型,,如圖6所示,。
?
?
4 實現(xiàn)數(shù)據(jù)倉庫并開發(fā)系統(tǒng)
4.1 基本過程
??? 星型模型指導我們?nèi)グl(fā)現(xiàn)和抽取維度信息、事實數(shù)據(jù),,最終建立數(shù)據(jù)倉庫,,為統(tǒng)計分析系統(tǒng)的開發(fā)奠定基礎。由模型到物理實現(xiàn)需要經(jīng)歷如圖7所示的基本過程,。
?
?
??? 建立數(shù)據(jù)倉庫前期需要對業(yè)務數(shù)據(jù)進行凈化,,消除異常數(shù)據(jù),提煉符合要求的基礎數(shù)據(jù)集,,并在此之上依照星型模型構(gòu)建各個主題的數(shù)據(jù)立方(Data Cube),,最后將數(shù)據(jù)立方登臺到物理數(shù)據(jù)庫中,實現(xiàn)統(tǒng)計分析的進一步處理,。
??? 例如對于“稽查”主題,,我們首先尋找和構(gòu)建維度表。 一般地,,可以將維度表描述為:D = {di | i ∈N∧di ∈ R},。同時發(fā)現(xiàn)事實數(shù)據(jù)提取的業(yè)務表。在這里的事實業(yè)務表為上述4個基本表中的JiCha,。在清理完上述事實表和構(gòu)建好維度表之后,,需要利用這些表格建立數(shù)據(jù)立方,,計算出各項指標值。
??? 續(xù)上過程,,一般在構(gòu)建數(shù)據(jù)立方過程,,可以采用標準SQL完成。一般可以描述為:
??? di×dj(0< i,j ≤ Count(維度表) ∧i≠j) 即各維度的笛卡爾積,?;颍?BR>??? SELECT COUNT(*), Date, District, …
??? FROM JICHA
??? GROUP BY Date, District, …
??? 最后將此結(jié)果集記錄在專門用于統(tǒng)計分析使用的物理數(shù)據(jù)庫中。
4.2 構(gòu)建前端統(tǒng)計分析系統(tǒng)
??? 在完成數(shù)據(jù)倉庫的物理實現(xiàn)后,,可以在此基礎上開發(fā)相應的統(tǒng)計分析系統(tǒng),,并且需要利用到很多表現(xiàn)豐富的前端處理技術(shù)。在此系統(tǒng)中,,基本采用以下過程來建造這個前端,,如圖8所示,。
?
?
??? 在對統(tǒng)計結(jié)果進行展現(xiàn)的時候往往需要滿足客戶適時調(diào)整展現(xiàn)結(jié)果的需要,,這就需要采用數(shù)據(jù)鉆取(Data Drill)技術(shù),,而這個技術(shù)在很多商業(yè)化的開發(fā)工具中都作為包的形勢提供給開發(fā)人員,,因此,開發(fā)過程會相對方便和快捷,。
??? 數(shù)據(jù)倉庫技術(shù)自提出到現(xiàn)在,,具體在工程界的應用并不是十分到位,其中一個重要的原因在于客戶與開發(fā)組織在實現(xiàn)與之相關(guān)的項目時,,往往不區(qū)分傳統(tǒng)業(yè)務系統(tǒng)和數(shù)據(jù)倉庫系統(tǒng),,這樣就會在概念和技術(shù)實現(xiàn)上受到阻礙,從而不能滿足最終用戶的需要,。本文從建立統(tǒng)計分析系統(tǒng)在需求上的本質(zhì)特征,,提出兩者分離并形成層次關(guān)系,利用數(shù)據(jù)倉庫技術(shù),,從而很好地解決了上述不足,。但是在實現(xiàn)過程中發(fā)現(xiàn),對于實現(xiàn)這種統(tǒng)計分析系統(tǒng),,并非只限于采用數(shù)據(jù)倉庫技術(shù)的直接結(jié)果,,項目的實施還要受到開發(fā)成本、用戶概念接受程度,、現(xiàn)有MIS的完備程度等諸多因素影響,,因此在實際開發(fā)過程中要權(quán)衡考慮。
參考文獻
[1]? KANTARDZI M. Data mining Concepts, Model, Methods and Algorithms[M]. Tsinghua University Publisher, 2003.
[2]? HAMMERGREN T. Data Warehouse Technology[M].Ventana Communications Group, Inc., 1997.