李玉泉,武彤
?。ㄙF州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,,貴州 貴陽 550025)
摘要:如何節(jié)省在科學(xué)儀器設(shè)備管理工作中對(duì)數(shù)據(jù)分析投入的人力物力并提高管理效率是科技管理部門十分關(guān)注的問題。利用數(shù)據(jù)倉庫技術(shù)可以對(duì)現(xiàn)有的科學(xué)儀器設(shè)備數(shù)據(jù)進(jìn)行多維分析,以便有效利用分析數(shù)據(jù)輔助管理者決策,。文章?lián)朔治隽丝茖W(xué)儀器設(shè)備數(shù)據(jù)源,,提出了分析主題,通過模型設(shè)計(jì),、ETL功能以及OLAP功能的設(shè)計(jì),,實(shí)現(xiàn)了一個(gè)基于數(shù)據(jù)倉庫的科學(xué)儀器設(shè)備數(shù)據(jù)分析系統(tǒng)。系統(tǒng)的開發(fā)研究證明了數(shù)據(jù)倉庫技術(shù)在科學(xué)儀器設(shè)備管理上應(yīng)用的可行性,,并為進(jìn)一步建立基于數(shù)據(jù)倉庫的科技數(shù)據(jù)決策支持系統(tǒng)打下了基礎(chǔ)。
關(guān)鍵詞:科學(xué)儀器設(shè)備,;數(shù)據(jù)倉庫,;ETL;OLAP
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.1674-7720.2017.01.027
引用格式:李玉泉,,武彤. 基于數(shù)據(jù)倉庫的科學(xué)儀器設(shè)備數(shù)據(jù)分析系統(tǒng)[J].微型機(jī)與應(yīng)用,,2017,36(1):89-92.
0引言
科學(xué)儀器設(shè)備是科學(xué)研究、技術(shù)創(chuàng)新的基礎(chǔ)條件,,先進(jìn)的科學(xué)儀器設(shè)備體現(xiàn)了國家的科技發(fā)展水平,,高精的大型科學(xué)儀器能夠更好地幫助科學(xué)家獲得科研成果[1]。為了增強(qiáng)科技對(duì)經(jīng)濟(jì)社會(huì)發(fā)展服務(wù)支撐的能力,,促進(jìn)全社會(huì)科技資源高效配置和綜合集成,,各省都建立了大型科學(xué)儀器設(shè)備共享平臺(tái),通過共享平臺(tái)實(shí)現(xiàn)了對(duì)科學(xué)儀器設(shè)備信息進(jìn)行登記維護(hù),并可以進(jìn)行預(yù)約服務(wù)等功能,從而實(shí)現(xiàn)科學(xué)儀器設(shè)備(特別是大型儀器設(shè)備)的資源共享,集中管理[2]。隨著科學(xué)儀器設(shè)備平臺(tái)的不斷應(yīng)用,,產(chǎn)生了大量的數(shù)據(jù),,對(duì)這些數(shù)據(jù)進(jìn)行分析挖掘,將得到很多隱藏在數(shù)據(jù)后面的信息,,有效地利用這些信息,,將為管理人員提供科學(xué)決策依據(jù)。然而目前對(duì)科學(xué)儀器設(shè)備數(shù)據(jù)的統(tǒng)計(jì)分析還停留在人工分析的階段,,這樣造成了分析數(shù)據(jù)不準(zhǔn)確,,統(tǒng)計(jì)分析時(shí)間漫長,數(shù)據(jù)分析結(jié)果不能支持決策,。
而數(shù)據(jù)倉庫是一個(gè)面向主題的,、集成的、相對(duì)穩(wěn)定的,、反映歷史變化的數(shù)據(jù)集合,,可用于支持管理決策過程[3]。本文以某省的科學(xué)儀器設(shè)備共享平臺(tái)為數(shù)據(jù)源,,利用數(shù)據(jù)倉庫的相關(guān)技術(shù)建立了基于數(shù)據(jù)倉庫的科學(xué)儀器設(shè)備數(shù)據(jù)分析系統(tǒng),,該系統(tǒng)可以在數(shù)據(jù)倉庫基礎(chǔ)上進(jìn)行OLAP分析并實(shí)現(xiàn)分析結(jié)果清晰展現(xiàn),以滿足相關(guān)管理人員的決策需求,。
1數(shù)據(jù)源分析
某省現(xiàn)有的科學(xué)儀器設(shè)備共享平臺(tái)中主要包括儀器設(shè)備信息,、提供服務(wù)信息,、服務(wù)預(yù)約信息。該平臺(tái)所具有的事務(wù)統(tǒng)計(jì)功能主要是統(tǒng)計(jì)儀器設(shè)備的地理分布情況,、在不同學(xué)科的數(shù)量價(jià)值,、每年新增儀器的數(shù)量價(jià)值等信息。通過對(duì)數(shù)據(jù)源進(jìn)行分析發(fā)現(xiàn)儀器設(shè)備的使用率,、共享率以及儀器設(shè)備提供服務(wù)的信息也是管理人員在管理工作中希望掌握的重要指標(biāo)[4],。所以在原有的事務(wù)統(tǒng)計(jì)基礎(chǔ)上,提出以下數(shù)據(jù)分析需求:
1.1使用分析
儀器設(shè)備使用分析是針對(duì)平臺(tái)上登記過的儀器設(shè)備,,根據(jù)每年提供的使用機(jī)時(shí)等信息,,結(jié)合近幾年使用情況,科技部門可以針對(duì)某些熱門領(lǐng)域或某些地區(qū)的儀器設(shè)備加大補(bǔ)助,,擴(kuò)大宣傳,;而提供方可以根據(jù)儀器設(shè)備使用情況,考慮增置或減配相關(guān)設(shè)備,,增加或減少年對(duì)外使用機(jī)時(shí)等對(duì)策,。使用分析主要包括對(duì)使用率和共享率的分析。
使用率計(jì)算方法為:年機(jī)時(shí)/額定機(jī)時(shí)×100%,,額定機(jī)時(shí)一般為200×8小時(shí),,如果使用率大于100%,則記錄具體值,,而不計(jì)為100%,;共享率計(jì)算方法為:年對(duì)外機(jī)時(shí)/年機(jī)時(shí)×100%,若共享率大于100%,,則計(jì)為100%[5],。
1.2服務(wù)分析
儀器設(shè)備提供了加工、檢測(cè)等服務(wù),,而服務(wù)計(jì)費(fèi)方式各種各樣,,所以需要統(tǒng)計(jì)儀器服務(wù)計(jì)費(fèi)方式的分布情況,通過對(duì)比觀察計(jì)費(fèi)方法的合理性,。結(jié)合儀器報(bào)廢年限,、年使用情況、服務(wù)計(jì)費(fèi)等,,分析其服務(wù)成本,、計(jì)費(fèi)是否合理等信息,為儀器提供方節(jié)約成本,,為服務(wù)需求方提供合理的收費(fèi)模式,。
2模型設(shè)計(jì)
2.1概念模型設(shè)計(jì)
概念模型設(shè)計(jì)是數(shù)據(jù)倉庫模型設(shè)計(jì)的首要工作[6]。通過概念設(shè)計(jì),可以確定數(shù)據(jù)倉庫的主要主題以及相互關(guān)系,。
根據(jù)上述的需求分析,,要解決的問題有兩個(gè)。第一是關(guān)于現(xiàn)有儀器的使用情況,,儀器使用需要從儀器的基本信息,、所在地、所屬學(xué)科等方面進(jìn)行分析,;第二是關(guān)于儀器的服務(wù)情況,,由于想要看到儀器服務(wù)收費(fèi)是否合理,所以需要收集服務(wù)的類型,、收費(fèi)類型,、收費(fèi)等信息。根據(jù)這兩個(gè)問題,,可以確定該數(shù)據(jù)倉庫的主題有兩個(gè):儀器設(shè)備主題——分析儀器設(shè)備使用,,服務(wù)主題——分析服務(wù)現(xiàn)狀,。所需要的數(shù)據(jù)有儀器設(shè)備數(shù)據(jù),、服務(wù)數(shù)據(jù)。對(duì)各主題的屬性信息的描述如表1所示,。
2.2邏輯模型設(shè)計(jì)
由于該數(shù)據(jù)倉庫建立在關(guān)系型數(shù)據(jù)庫基礎(chǔ)上,,在數(shù)據(jù)倉庫中采用的邏輯模型就是關(guān)系模型,它描述了數(shù)據(jù)倉庫主題的邏輯實(shí)現(xiàn),,即每個(gè)主題所對(duì)應(yīng)的關(guān)系表的關(guān)系模式的定義,。
數(shù)據(jù)倉庫的設(shè)計(jì)是一個(gè)逐步求精的過程[7],在進(jìn)行設(shè)計(jì)時(shí),,一般是一次一個(gè)或多個(gè)主題逐步完成,,由于系統(tǒng)中只有兩個(gè)主題,所以這里直接裝載儀器和服務(wù)兩個(gè)主題,。數(shù)據(jù)粒度方面,,由于源數(shù)據(jù)中存在具體到日的時(shí)間信息,所以日期方面遵從“最小粒度”原則,,其他的數(shù)據(jù)也可以選擇最小數(shù)據(jù)粒度,。在儀器主題中,由于受關(guān)心的儀器共享率和使用率是由現(xiàn)有的“年機(jī)時(shí)”,、“年可用機(jī)時(shí)”等計(jì)算而來,,所以這些度量值可以直接在OLAP模型中添加,對(duì)于“服務(wù)”主題也是如此,。最終數(shù)據(jù)倉庫的邏輯模型如圖1所示,。
2.3物理模型設(shè)計(jì)
物理模型是邏輯模型在數(shù)據(jù)倉庫中的實(shí)現(xiàn)模式,如數(shù)據(jù)的索引策略、數(shù)據(jù)的存儲(chǔ)策略等[8],。數(shù)據(jù)倉庫的邏輯模型適合采用位圖連接索引,,在數(shù)據(jù)倉庫環(huán)境中使用這種索引改進(jìn)連接維度表和事實(shí)表的查詢性能。數(shù)據(jù)源即科學(xué)儀器共享平臺(tái)中儀器和服務(wù),,其主鍵采用的是25位字符串,,查詢效率低,所以在數(shù)據(jù)倉庫的儀器和服務(wù)表中設(shè)置代理鍵[9],,而在其他表中添加替代鍵,。其中,代理鍵是自增整數(shù),,而替代鍵是不會(huì)重復(fù)的值,,例如日期表中的替代鍵可以是字符型,值為具體的日期(中文的年和月),,這樣可以大大地提高查詢效率,。而且為了方便管理數(shù)據(jù),單位,、地理位置和學(xué)科分類等信息從儀器表中分離為單獨(dú)的表,。
3ETL設(shè)計(jì)
ETL過程,包含從各種數(shù)據(jù)源抽取數(shù)據(jù),,把數(shù)據(jù)轉(zhuǎn)換為“干凈的”,、一致的、可用的數(shù)據(jù),,然后把數(shù)據(jù)加載到數(shù)據(jù)倉庫中,。它是數(shù)據(jù)倉庫實(shí)現(xiàn)過程中最重要的一個(gè)環(huán)節(jié)[10]。本系統(tǒng)采用SQL Server和SSIS結(jié)合進(jìn)行ETL實(shí)現(xiàn),。
通過對(duì)數(shù)據(jù)源數(shù)據(jù)分析,,日期、儀器設(shè)備所在地區(qū),、學(xué)科類型等數(shù)據(jù)是固定不變的,,這些數(shù)據(jù)可以進(jìn)行全量加載,而儀器設(shè)備信息,、服務(wù)信息會(huì)隨著時(shí)間不停地更新,,所以對(duì)于這些數(shù)據(jù)設(shè)置增量加載機(jī)制,這里采用時(shí)間戳方式增量抽取數(shù)據(jù)[11],。在數(shù)據(jù)轉(zhuǎn)換過程中主要是對(duì)數(shù)據(jù)類型,、枚舉數(shù)據(jù)、字符格式等進(jìn)行轉(zhuǎn)換,,數(shù)據(jù)倉庫在裝載數(shù)據(jù)時(shí)為了避免主外鍵約束可以先把外鍵刪除,,實(shí)現(xiàn)順序裝載,。
ETL的實(shí)現(xiàn),使用編碼和SSIS工具共同完成,。采用SQL代碼實(shí)現(xiàn)枚舉數(shù)據(jù)的映射,,例如單位類型在源數(shù)據(jù)中為1,代表事業(yè)單位,,這里可以直接把“事業(yè)單位”存入其中,,建立日期表也需要用到SQL語句;SSIS可以對(duì)ETL整個(gè)過程進(jìn)行安排[12],,圖2是通過SSIS平臺(tái)設(shè)計(jì)的對(duì)儀器設(shè)備數(shù)據(jù)進(jìn)行抽取,、轉(zhuǎn)換和加載的過程,其他數(shù)據(jù)的ETL過程均類似于圖中的形式,。在SQLServerAgent中把這些SSIS作業(yè)設(shè)置為定時(shí)任務(wù)可以實(shí)現(xiàn)ETL過程周期進(jìn)行,。
4分析功能實(shí)現(xiàn)
在數(shù)據(jù)倉庫的基礎(chǔ)上,,利用SSAS可以建立對(duì)應(yīng)的OLAP模型,,本系統(tǒng)中OLAP模型與數(shù)據(jù)倉庫模型的不同主要在于OLAP模型中為了方便數(shù)據(jù)展示添加了多對(duì)計(jì)算成員,圖3是OLAP模型中儀器設(shè)備多維數(shù)據(jù)模型,,圖中帶有計(jì)算器符號(hào)的列均是計(jì)算成員,。
多維表達(dá)式(MultiDimensional Expressions,MDX)是標(biāo)準(zhǔn)的OLAP查詢語言[13],,多數(shù)OLAP Server都提供MDX支持,,如SSAS,、Hyperion Essbase等,,MDX支持多維數(shù)據(jù)定義和操作。在SSRS中配合MDX不僅能實(shí)現(xiàn)第一部分所提出的數(shù)據(jù)分析功能,,還可以生成包括各種圖形的報(bào)表,,并且可以方便地集成到ASP.NET開發(fā)的Web系統(tǒng)中。
為了分析上文提到的數(shù)據(jù)指標(biāo),,在SSRS中使用下面的MDX語句生成“查詢數(shù)據(jù)集”,,該數(shù)據(jù)集包括了儀器設(shè)備共享率和使用率在地區(qū)、學(xué)科類型,、日期的值,。
WITH MEMBER [Measures].[儀器設(shè)備共享率]
AS [Measures].[對(duì)外年機(jī)時(shí)]/[Measures].[年機(jī)時(shí)]
MEMBER [Measures].[儀器設(shè)備使用率]
AS [Measures].[年機(jī)時(shí)]/([Measures].[儀器數(shù)量]*1600)
SELECT NON EMPTY {
[Measures].[儀器設(shè)備共享率], [Measures].[儀器數(shù)量], [Measures].[儀器設(shè)備使用率], [Measures].[對(duì)外年機(jī)時(shí)], [Measures].[年機(jī)時(shí)] } ON COLUMNS,
NON EMPTY { (
?。跠imDate].[Year].[Year].ALLMEMBERS *
?。跠imGeography].[省-市縣].[CITYNAME].
ALLMEMBERS*[DimDiscipline].[大-中-小].
?。跾MALLNAME].ALLMEMBERS *[DimDepartment].
?。跶UALITY_CN].[QUALITY_CN].ALLMEMBERS*
?。跠imInstrument].[VALUERMB].[VALUERMB].
ALLMEMBERS) } ON ROWS
FROM [儀器使用情況]
圖4年新增儀器設(shè)備數(shù)量走勢(shì)根據(jù)上述MDX語句可以得到一系列的報(bào)表,圖4是年新增儀器設(shè)備數(shù)量走勢(shì),,目前獲取年新增儀器設(shè)備數(shù)量的方式是源數(shù)據(jù)平臺(tái)維護(hù)人員每年在數(shù)據(jù)庫中查詢,,而走勢(shì)圖需要統(tǒng)計(jì)人員手工繪制,費(fèi)時(shí)費(fèi)力,。圖5是2015年儀器設(shè)備使用率學(xué)科分布圖,,從圖中可以看到分析儀器是使用率最高的。圖6是儀器設(shè)備年使用率走勢(shì)圖,,從圖中可以看到近幾年儀器設(shè)備使用的情況,,其他數(shù)據(jù)的呈現(xiàn)方式相同。
由于SSRS與Web系統(tǒng)開發(fā)平臺(tái)ASP.NET良好的兼容性,,所以該系統(tǒng)使用ASP.NET開發(fā),。報(bào)表展示方面,使用ASP.NET下的ReportViewer控件和調(diào)用IReportServerCredentials接口實(shí)現(xiàn)瀏覽器中查看操作報(bào)表,,下載報(bào)表為Excel或PDF文件[14],。
5結(jié)論
本文以某省大型科學(xué)儀器設(shè)備共享平臺(tái)為基礎(chǔ),通過對(duì)平臺(tái)上的源數(shù)據(jù)進(jìn)行分析,,提出了決策分析主題,,建立了基于數(shù)據(jù)倉庫的科學(xué)儀器設(shè)備數(shù)據(jù)分析系統(tǒng),該系統(tǒng)能夠完成OLAP分析,,并能清晰地展現(xiàn)分析結(jié)果,,數(shù)據(jù)分析結(jié)果能夠有效地輔助管理者進(jìn)行科學(xué)決策。系統(tǒng)的開發(fā)研究證明了數(shù)據(jù)倉庫技術(shù)在科學(xué)儀器設(shè)備管理上應(yīng)用的可行性,,并為進(jìn)一步建立基于數(shù)據(jù)倉庫的科學(xué)數(shù)據(jù)決策分析系統(tǒng)打下了基礎(chǔ),。
參考文獻(xiàn)
[1] 孫麗.大型科學(xué)儀器設(shè)備資源配置優(yōu)化研究[D]. 北京:北京交通大學(xué),2015.[2] 肖李鵬,湯光平.國內(nèi)外大型科學(xué)儀器設(shè)備開放共享分析及對(duì)策[J].實(shí)驗(yàn)室研究與探索,2016,35(4):275-278.
?。?] 宋杰.面向多類型數(shù)據(jù)源的數(shù)據(jù)倉庫構(gòu)建及ETL關(guān)鍵技術(shù)的研究[D]. 沈陽:東北大學(xué),2008.
?。?] 徐靜,王大洲.我國大型科學(xué)儀器設(shè)備使用狀態(tài)分析及政策含義[J].工程研究跨學(xué)科視野中的工程,2010,2(3):209-216.
[5] 王麗珍,,周麗華,,陳紅梅,等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用(第2版)[M]. 北京:科學(xué)出版社,2014.
?。?] INMON W H. Building the data warehouse[M].NewYork:John Wiley & Sons,Inc,,2005.
[7] 虞健飛,朱家元,張恒喜.數(shù)據(jù)倉庫設(shè)計(jì)過程研究[J].計(jì)算機(jī)工程,2003,29(19):4-5.
?。?] 王曉鵬,武彤.生產(chǎn)質(zhì)量控制數(shù)據(jù)倉庫模型設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2015(6):181184.
?。?] 徐姝,羅軍.代理鍵技術(shù)及其在軟件復(fù)用中的應(yīng)用[J].微電子學(xué)與計(jì)算機(jī),2007,24(8):136138.
[10] ROOT R, MASON C. Pro SQL Server 2012 BI Solutions[M].Apress,2012.
?。?1] 戴浩,楊波. ETL中的數(shù)據(jù)增量抽取機(jī)制研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,,30(23):55525555.
?。?2] KNIGHT B, VEERMAN E,MOSS J M,, et al. SQL Server 2012 Integration Services高級(jí)教程(第2版)[M].王凈,,謝連朋,譯. 北京:清華大學(xué)出版社,,2014.
?。?3] 蔡艷寧,葉雪梅,汪洪橋,等.軍事訓(xùn)練考核數(shù)據(jù)倉庫模型設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程,, 2006,,32(1):276-278.
[14] TURLEY P, BRUCKNER R,,SILVA T,,et al. SQL Server 2012 Reporting Services高級(jí)教程(第2版)[M].顏炯,譯. 北京:清華大學(xué)出版社,,2014.