摘 要: 為了解決環(huán)保部門多源數(shù)據(jù)的語(yǔ)義異構(gòu)問題,,研究了各領(lǐng)域本體構(gòu)建思路與方法,結(jié)合環(huán)保領(lǐng)域的實(shí)際特點(diǎn),,提出了一種環(huán)保領(lǐng)域本體構(gòu)建方法。以建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息為例,在領(lǐng)域?qū)<規(guī)椭?,詳?xì)描述了其本體的構(gòu)建流程及其本體模型,為環(huán)保領(lǐng)域應(yīng)用研究奠定了基礎(chǔ),。
關(guān)鍵詞: 環(huán)保,;領(lǐng)域本體構(gòu)建;建設(shè)項(xiàng)目環(huán)評(píng)
0 引言
環(huán)保部門為了加強(qiáng)對(duì)環(huán)境的管理,提高辦事效率,,需要對(duì)不同應(yīng)用系統(tǒng)的各種業(yè)務(wù)數(shù)據(jù)進(jìn)行集成,。然而,不同數(shù)據(jù)源的數(shù)據(jù)在語(yǔ)義上往往存在較大的異構(gòu)性,,造成數(shù)據(jù)難以集成,。本體既能準(zhǔn)確地描述概念的含義又能描述概念之間的內(nèi)在關(guān)聯(lián),并通過(guò)邏輯推理獲取概念之間蘊(yùn)涵的關(guān)系,,具有很強(qiáng)的表達(dá)概念語(yǔ)義和獲取知識(shí)的能力,,因此逐漸應(yīng)用于各種數(shù)據(jù)集成系統(tǒng)中。
研究基于本體的數(shù)據(jù)集成首先要研究本體的構(gòu)建,,本體構(gòu)建質(zhì)量的好壞決定集成系統(tǒng)的運(yùn)行效果,。本文在研究各領(lǐng)域本體構(gòu)建的基礎(chǔ)上,通過(guò)了解環(huán)保領(lǐng)域知識(shí),,提出一種環(huán)保領(lǐng)域本體的構(gòu)建思路與方法,,并且嘗試構(gòu)建建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體,為環(huán)保領(lǐng)域本體的構(gòu)建及以后基于本體的數(shù)據(jù)集成奠定基礎(chǔ),。
1 本體理論概述
1.1 本體
本體起源于哲學(xué),,是對(duì)世界上客觀存在物的系統(tǒng)描述,后來(lái),,本體在人工智能,、知識(shí)工程、信息系統(tǒng)等諸多領(lǐng)域得到了發(fā)展和應(yīng)用,。不同領(lǐng)域的研究者對(duì)本體的定義不同,,引用比較廣泛的是STUDER R等人提出的“本體是共享概念模型的明確形式化規(guī)范說(shuō)明”[1]。
1.2 本體構(gòu)建
本體構(gòu)建是一項(xiàng)龐大的系統(tǒng)工程,,需要按照一定的構(gòu)建準(zhǔn)則,,在合理方法論的指導(dǎo)下,采用合適的本體描述語(yǔ)言和便捷的本體開發(fā)工具加以實(shí)現(xiàn)[2],。
1.2.1 領(lǐng)域本體構(gòu)建方法
領(lǐng)域本體是用于描述指定領(lǐng)域知識(shí)的一種本體,,是對(duì)領(lǐng)域?qū)嶓w概念、概念間的相互關(guān)系以及領(lǐng)域特征或規(guī)律的一種形式化的描述[3],。常見的領(lǐng)域本體構(gòu)建方法有:KACTUS法,、TOVE法、SENSUS法,、METHONTOLOGY法,、IDEF-5法、骨架法,、七步法等[4],。其中,,比較成熟的是七步法,該方法由美國(guó)斯坦福大學(xué)醫(yī)學(xué)院提出,,主要應(yīng)用于領(lǐng)域本體的構(gòu)建,,采用7個(gè)步驟來(lái)構(gòu)建本體:(1)確定本體的專業(yè)領(lǐng)域和范疇;(2)考查復(fù)用現(xiàn)有本體的可能性,;(3)列出本體中的重要術(shù)語(yǔ),;(4)定義類和類的等級(jí)體系;(5)定義類的屬性,;(6)定義類的分面,;(7)創(chuàng)建實(shí)例。
1.2.2 本體描述語(yǔ)言及開發(fā)工具
現(xiàn)有的本體描述語(yǔ)言有多種,,此次選用比較常用的OWL(Web Ontology Language)來(lái)對(duì)領(lǐng)域本體進(jìn)行描述,。本體的開發(fā)工具有OntoEdit、Protégé等,。其中protégé本體構(gòu)建工具的界面友好,,容易上手,另外具有可擴(kuò)展性,,可以根據(jù)需要添加自定義的模塊,,自定義屬性,成為大多數(shù)本體構(gòu)建的首選工具,。因此,,本文選用的本體構(gòu)建工具是protégé4.0。
1.2.3 本體構(gòu)建原則
目前沒有一個(gè)標(biāo)準(zhǔn)的本體構(gòu)造方法,,研究人員提出了不少本體創(chuàng)建的標(biāo)準(zhǔn),,最有影響的是GRUBER T R[5]提出的指導(dǎo)本體建立的5個(gè)準(zhǔn)則:清晰性、一致性,、可擴(kuò)展性,、編碼偏好程度最小、本體約定最小,。目前大家公認(rèn)在構(gòu)建領(lǐng)域本體的過(guò)程中需要領(lǐng)域?qū)<业膮⑴c,。
2 環(huán)保領(lǐng)域本體的構(gòu)建方法
目前,國(guó)內(nèi)外關(guān)于環(huán)保領(lǐng)域本體的研究較少,,可供借鑒參考的先例不多,,對(duì)于環(huán)保領(lǐng)域的本體構(gòu)建是一種嘗試。環(huán)保領(lǐng)域本體構(gòu)建是在相關(guān)項(xiàng)目的支持下,,由環(huán)保領(lǐng)域?qū)<覍?duì)本體的概念體系和邏輯結(jié)構(gòu)進(jìn)行指導(dǎo)與評(píng)價(jià),。因此,此次構(gòu)建本體,,在七步法的基礎(chǔ)上進(jìn)行改進(jìn),,不考慮對(duì)現(xiàn)有本體的復(fù)用,同時(shí)加入本體評(píng)價(jià)這一步驟,。最終,,根據(jù)此次領(lǐng)域本體構(gòu)建的實(shí)際情況,提出一種環(huán)保領(lǐng)域本體構(gòu)建方法,,如圖1所示,。
3 環(huán)保領(lǐng)域本體構(gòu)建流程
3.1 明確本體構(gòu)建目的和范疇
本體的構(gòu)建不是無(wú)的放矢,明確領(lǐng)域本體的應(yīng)用目的,,對(duì)于限定其范圍,、增強(qiáng)針對(duì)性,進(jìn)而降低構(gòu)建難度,、縮短構(gòu)建時(shí)間,,具有重要意義[6]。環(huán)保領(lǐng)域本體的構(gòu)建目的是為了實(shí)現(xiàn)語(yǔ)義檢索,,即為數(shù)據(jù)集成系統(tǒng)提供一個(gè)共享的詞匯庫(kù),,在數(shù)據(jù)集成中主要起三大作用:概念定義、查詢模型和推理基礎(chǔ),。通過(guò)本體的基礎(chǔ)推理作用,,在異構(gòu)、分布環(huán)境下的數(shù)據(jù)集成中,,可以提高數(shù)據(jù)的查全率和查準(zhǔn)率[7],。此次構(gòu)建的本體包含構(gòu)建對(duì)象范疇內(nèi)需要集成的數(shù)據(jù)涉及的概念和關(guān)系。
環(huán)保領(lǐng)域范圍非常廣泛和復(fù)雜,,為減少難度,,僅對(duì)福建省環(huán)境保護(hù)部門關(guān)于建設(shè)項(xiàng)目環(huán)評(píng)審批的基本信息數(shù)據(jù)進(jìn)行本體建模。本體模型采用的詞匯取自國(guó)家環(huán)境保護(hù)行業(yè)標(biāo)準(zhǔn)HJ/T416-2007《環(huán)境信息術(shù)語(yǔ)》,、《福建省建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)文件分級(jí)審批管理規(guī)定》,、《建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)分類管理名錄》、項(xiàng)目資料以及被大多數(shù)專業(yè)人士認(rèn)可的環(huán)保領(lǐng)域?qū)I(yè)性詞匯,。
3.2 領(lǐng)域知識(shí)的收集和獲取
確定范圍之后,,收集本體所涉及的知識(shí)并列出重要的術(shù)語(yǔ)。知識(shí)的收集和獲取是一個(gè)復(fù)雜的過(guò)程,,可以通過(guò)網(wǎng)絡(luò),、書籍、文獻(xiàn),、專家,、項(xiàng)目等渠道獲取相關(guān)知識(shí)。本次對(duì)領(lǐng)域知識(shí)的收集,,除上述渠道外,,還按照構(gòu)建業(yè)務(wù)對(duì)象模型的思路對(duì)領(lǐng)域知識(shí)進(jìn)行解讀,。業(yè)務(wù)對(duì)象模型將結(jié)構(gòu)的概念與行為的概念結(jié)合起來(lái),它探索業(yè)務(wù)領(lǐng)域知識(shí)的本質(zhì),,在建設(shè)數(shù)據(jù)架構(gòu)時(shí)起著重要的作用,,主要體現(xiàn)在數(shù)據(jù)來(lái)源分析方面,即“有什么數(shù)據(jù)”,。確定業(yè)務(wù)對(duì)象定義,、對(duì)象間關(guān)系、對(duì)象名稱和對(duì)象間關(guān)系名稱的流程,,使得能夠以一種被業(yè)務(wù)領(lǐng)域?qū)<依斫夂万?yàn)證的精確方式來(lái)表達(dá)業(yè)務(wù)領(lǐng)域知識(shí),,對(duì)提取領(lǐng)域內(nèi)的概念及關(guān)系,進(jìn)而構(gòu)建本體有極大的幫助,。業(yè)務(wù)對(duì)象模型概念及關(guān)系如圖2所示,。
3.3 列舉概念
在相關(guān)業(yè)務(wù)人員的幫助下,通過(guò)對(duì)領(lǐng)域知識(shí)的了解,,提取領(lǐng)域內(nèi)的概念和術(shù)語(yǔ),。列出一份盡量全的術(shù)語(yǔ)清單,而暫時(shí)不考慮概念間的關(guān)系,。
在確定術(shù)語(yǔ)過(guò)程中需要注意兩點(diǎn):(1)此次本體構(gòu)建的對(duì)象是建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息,,只包含建設(shè)項(xiàng)目環(huán)評(píng)審批工作進(jìn)行之前需要登記填寫的信息,并不包括審批批文等信息,;(2)建設(shè)項(xiàng)目的行業(yè)作為建設(shè)項(xiàng)目的一個(gè)特征,,經(jīng)常作為數(shù)據(jù)分類的依據(jù),同時(shí)在數(shù)據(jù)表單,、數(shù)據(jù)庫(kù)中作為一個(gè)重要的字段,、數(shù)據(jù)項(xiàng)出現(xiàn),因此列舉的概念中需包含建設(shè)項(xiàng)目的行業(yè)及其分類,。
參考相關(guān)文獻(xiàn)資料,,通過(guò)與環(huán)保部門業(yè)務(wù)人員和領(lǐng)域?qū)<业慕涣鳎瑲w納總結(jié)出78個(gè)領(lǐng)域概念,,行業(yè)及其分類詳見《建設(shè)項(xiàng)目環(huán)境影響評(píng)價(jià)分類管理名錄》,,其余包括:項(xiàng)目名稱、建設(shè)地點(diǎn),、建設(shè)內(nèi)容,、建設(shè)規(guī)模、總投資,、環(huán)保投資,、建設(shè)性質(zhì)、聯(lián)系人,、聯(lián)系電話,、通信地址,、郵政編碼、單位名稱,、法人代表,、評(píng)價(jià)經(jīng)費(fèi)、證書編號(hào),、甲級(jí)報(bào)告書評(píng)價(jià)范圍、乙級(jí)報(bào)告書評(píng)價(jià)范圍,、報(bào)告表評(píng)價(jià)范圍,、有效期、基本情況,、污染物名稱,、實(shí)際排放總量、核定排放總量,、實(shí)際排放濃度,、允許排放濃度、環(huán)境要素名稱,、保護(hù)目標(biāo),、質(zhì)量等級(jí)、涉及敏感區(qū)名稱,。
3.4 確定類和類的層次
類的層次的定義有3種方法,,即自上向下法、自下向上法和混合法[8],?;旌戏▽⒆陨舷蛳路ㄅc自下向上法相結(jié)合,先建立那些顯而易見的概念,,然后分別向上與向下進(jìn)行泛化與細(xì)化,。一般來(lái)說(shuō),混合法比較適合大部分人員,。
運(yùn)用混合法,,在領(lǐng)域?qū)<业膸椭拢?jīng)過(guò)識(shí)別,、分析和統(tǒng)計(jì),,最終確定了行業(yè)、組織機(jī)構(gòu),、建設(shè)項(xiàng)目,、環(huán)評(píng)類型、主要污染物,、區(qū)域環(huán)境現(xiàn)狀作為核心概念,。核心概念作為整個(gè)本體概念模型的頂級(jí)概念,,可以有子概念,即核心類可以有子類,,例如組織機(jī)構(gòu)分為建設(shè)單位和環(huán)評(píng)機(jī)構(gòu),。本體類層次如圖3所示。
3.5 定義類的屬性
類的屬性包括數(shù)據(jù)屬性(DataType property)和對(duì)象屬性(Object property),。數(shù)據(jù)屬性的屬性值為基本類型值,,即非領(lǐng)域中概念,對(duì)象屬性的屬性值為領(lǐng)域中概念,。本體概念間的關(guān)系主要有4類:屬性關(guān)系,、繼承關(guān)系、整體和部分關(guān)系,、類和實(shí)例關(guān)系,。上一步所定義的類的層次就是繼承關(guān)系。除上述4種常見的關(guān)系外,,還可以根據(jù)領(lǐng)域知識(shí)自定義屬性,,如建設(shè)項(xiàng)目和行業(yè)之間的具有關(guān)系,建設(shè)單位和環(huán)評(píng)機(jī)構(gòu)之間的委托關(guān)系等,。自定義關(guān)系通過(guò)對(duì)屬性的定義和約束予以實(shí)現(xiàn),,約束包括屬性的定義域、值域的約束,。對(duì)于不同的類,,在約束時(shí)將相同屬性特征的定義域設(shè)置為其父類,根據(jù)子類繼承父類的特性,,子類不用定義就會(huì)獲得這些特征,,減少了冗余。類的屬性可以有多個(gè),,并不需要對(duì)每個(gè)屬性都進(jìn)行定義,,而是要結(jié)合領(lǐng)域范圍和本體構(gòu)建目的,進(jìn)行適當(dāng)?shù)娜∩?。此次自定義36個(gè)屬性,,部分屬性如表1所示。
當(dāng)屬性特征確立之后,,借助Protégé4.0將屬性進(jìn)行編輯并存儲(chǔ),,圖4是部分對(duì)象屬性的編輯,圖5是部分?jǐn)?shù)值屬性的編輯,。
3.6 創(chuàng)建實(shí)例
支撐項(xiàng)目從福建省各級(jí)環(huán)保部門收集了許多建設(shè)項(xiàng)目環(huán)評(píng)數(shù)據(jù),,這些可以作為本體實(shí)例的重要來(lái)源。建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體實(shí)例的數(shù)量非常巨大,鑒于文章篇幅,,也為了便于實(shí)驗(yàn)測(cè)試,,只列舉少數(shù)實(shí)例。
通過(guò)領(lǐng)域?qū)<覍?duì)所建本體的審核和評(píng)價(jià),,發(fā)現(xiàn)本體概念體系及邏輯結(jié)構(gòu)的不足,,返回前面第三步進(jìn)行修改。在領(lǐng)域?qū)<业膸椭?,?jīng)過(guò)反復(fù)修改,,最終構(gòu)建一個(gè)簡(jiǎn)單的建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體模型。部分本體模型結(jié)構(gòu)在Protégé4.0中的視圖如圖6所示,。
4 結(jié)論
建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體只是環(huán)保本體的一部分,,也是基于本體的環(huán)保業(yè)務(wù)數(shù)據(jù)集成的開端與基礎(chǔ),最終目的是為了更好地實(shí)現(xiàn)環(huán)保業(yè)務(wù)數(shù)據(jù)的集成,。本文結(jié)合本體的應(yīng)用目的,,設(shè)計(jì)了一種該領(lǐng)域本體的構(gòu)建方法,,提出了基于業(yè)務(wù)對(duì)象模型分析領(lǐng)域知識(shí)的思路,,嘗試性地構(gòu)建了建設(shè)項(xiàng)目環(huán)評(píng)審批基本信息本體,為基于本體的相關(guān)應(yīng)用奠定了基礎(chǔ),,也在一定程度上促進(jìn)了環(huán)保領(lǐng)域知識(shí)管理的發(fā)展,。
鑒于作者水平所限以及對(duì)領(lǐng)域知識(shí)了解不夠,本文構(gòu)建的本體在規(guī)模,、深度上都比較簡(jiǎn)單,,本體的領(lǐng)域范圍和深度都有待擴(kuò)展。另外,,本文無(wú)論是概念,、關(guān)系的獲取,還是本體編碼都是純手工完成,,當(dāng)領(lǐng)域范圍較廣,,本體比較復(fù)雜時(shí),純手工完成費(fèi)時(shí)又費(fèi)力,,因此,,如何半自動(dòng)、自動(dòng)化地實(shí)現(xiàn)本體的構(gòu)建也有待繼續(xù)研究,。
參考文獻(xiàn)
[1] STUDER R,, RICHARD B, DIETER F. Knowledge engineering: principles and methods[J]. Data and Knowledge Engineering,,1998,,25(1-2):161-197.
[2] 蘭春秋,李櫻.音樂領(lǐng)域本體的研究與構(gòu)建[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2014(3):76-79.
[3] 李勇,,張志剛.領(lǐng)域本體構(gòu)建方法研究[J].計(jì)算機(jī)工程與科學(xué),,2008,30(5):129-131.
[4] 李恒杰,,李軍權(quán),,李明.領(lǐng)域本體建模方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,,29(2):381-384.
[5] GRUBER T R. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies 1995,,43(5/6):907-928.
[6] 劉紫玉,黃磊.高速鐵路領(lǐng)域本體構(gòu)建方法研究[J].情報(bào)學(xué)報(bào),,2009,,28(2):195-200.
[7] 李星毅,高文浩,,施化吉.基于本體的異構(gòu)數(shù)據(jù)集成方法[J].計(jì)算機(jī)工程與設(shè)計(jì),,2009,30(8):1931-1933.
[8] 甘健侯,,姜躍,,夏幼明.本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011.