摘 要: 介紹了本體Ontology的概念和理論知識,,提出一種基于本體的Web 信息檢索模型。該模型利用本體技術對 Internet 上的各類信息進行領域分類,,規(guī)范用戶信息檢索模式,,以達到快速、準確找到用戶所需信息的目的,。
關鍵詞:本體,;信息檢索;知識檢索
隨著計算機的普及與Internet的快速發(fā)展,,我們已經進入了網絡信息時代,。信息的發(fā)布與共享不再受時空的限制,當網絡規(guī)模越來越大,,信息越來越多時,,信息的查找和獲取也變得越來越困難。面對龐大的信息資源,,人們感到茫然,,要在短時間內找到符合自己要求的信息越來越困難。
如何迅速,、高效地檢索和訪問各領域的信息資源以促進信息的交流與共享已經成為一個急需解決的問題,。人們迫切需要高效、準確的信息查找工具來快速定位自己感興趣的信息和知識,,現(xiàn)有的網絡信息檢索技術很難滿足這種要求,,基于本體Ontology的Web信息檢索系統(tǒng)正逐漸成為當前研究的熱點。
1 Ontology的基本概念
1.1 Ontology的定義
Ontology最早是一個哲學上的概念,,是研究“存在”的理論,。從西方哲學史來看,Ontology 是指關于存在及其本質和規(guī)律的學說,,是對客觀存在的一個系統(tǒng)的解釋或說明,,關心的是客觀現(xiàn)實的抽象。
Ontology的目標是捕獲相關領域的知識,,提供對該領域知識的共同理解,,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這些詞語和詞語間相互關系的明確定義。Ontology最為流行的定義是Studer在1998年提出的[1-2] :Ontology是共享概念模型的明確的形式化的規(guī)范說明,。它包含4層含義:概念模型,、明確、形式化及共享,。
1.2 Ontology的組織方式
在計算機領域,,作為一種語義和知識層面上的概念模型,Ontology有其自身的結構,,可以表示為[1-4] :本體(Ontology)=概念(Concept)+屬性(Property)+公理(Axiom)+取值(Value)+命名(Nominal)
Perez等人用分類法組織了Ontology,,定義了5個基本的建模元語(Modeling Primitives),其具體的描述表達意義如下:
(1)類(Classes)或概念(Concepts):指任何事務,,例如工作描述,、功能、行為,、策略和推理過程,。從語義上講,它表示的是對象的集合,,其定義一般采用框架(Frame)結構,,包括概念的名稱、與其他概念之間的關系的集合以及用自然語言對概念的描述,。
(4)公理(Axloms):代表永真斷言,,如概念乙屬于概念甲的范圍。
(5)實例(Instances):代表元素,。從語義上講實例表示的就是對象,,是某個類在現(xiàn)實世界中的具體反映。
2 Ontology的理論研究
Ontology在理論上主要研究如何合理地表示現(xiàn)實世界中的客觀概念與抽象知識,,包括概念和概念分類,、確定概念之間的關系類型以及Ontology上的代數(shù)等。最值得一提的是Guarino等人對本體理論所作出的貢獻[3-4],,他們對概念分類做了深入細致的研究,,從一般意義上分析了概念的定義、概念的特性,、概念之間的關系以及概念的分類,,并提出了一套用于指導概念分類的可行理論?;谠摾碚?,他們又提出了Ontology驅動的建模方法,在理論上為建模提供了一個通用的模式,。
本體的本質是概念模型,,表達的是概念及概念之間的關系,。長期以來,本體應用的一個常見問題是分類結構不明確,,沒有一個統(tǒng)一的分類標準或分類理論,。不同的應用從各自的角度出發(fā),無限制地使用包含關系對概念進行各種分類,,使得概念分類的一致性和合理性難于得到控制,。按照Guarino的觀點,概念之間的差別不僅體現(xiàn)在概念的定義上,,同時也體現(xiàn)在概念的某些特性上,。從這些特性出發(fā),歸納出概念的元特性(最基本的特性),,從而用公式給出元特性嚴格的形式定義,。在此基礎上,又討論了元特性之間的關系和約束,,最終把研究結果作為概念分類的基本理論工具,并提出一套完整的概念分類體系結構[6-7],。
3 Ontology的實際應用
20世紀90年代,,知識表示、信息組織,、軟件復用等方面的諸多問題對信息科學工作者們提出了種種新的挑戰(zhàn)和課題,。特別是由于因特網的迅猛發(fā)展,如何組織,、管理和維護海量信息并為用戶提供有效的檢索服務成為一項重要而迫切的研究內容,。為適應這些要求,Ontology作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,,一經提出便引起了國外眾多科研人員的關注,,并在計算機的許多領域得到了廣泛應用,如知識工程,、數(shù)字圖書館,、軟件復用、信息檢索,、異構信息處理及語義Web等,。
3.1 Ontology在圖書信息檢索中的應用
目前,信息檢索技術[5-7]可分為3類:全文檢索(text retrieval),、數(shù)據檢索(data retrieval)和知識檢索(knowledge retrieval),。全文檢索的特點是把用戶的查詢請求和全文中的每一個詞進行比較,不考慮查詢請求與文件語義上的匹配,,這種方式雖然可以保證查全率,,卻大大地降低了查準率,。數(shù)據檢索的特點是查詢要求和信息系統(tǒng)中的數(shù)據都遵循一定的格式,具有一定的結構,,允許對特定的字段進行檢索,。數(shù)據檢索需要有標識字段的方法。檢索性能取決于所使用的標識字段方法和用戶對這種方法的理解程度,,因此具有很大的局限性,。數(shù)據檢索支持語義匹配的能力也較差。知識檢索強調的是基于知識的語義上的匹配,,因此在查準率和查全率上有更好的保證,。目前知識檢索已成為信息檢索研究的重點,特別是面向 Web 信息的知識檢索,。本文研究了基于本體的圖書資源查詢,。
本文建立了一個圖書資源的本體圖,描述了圖書有關的概念和屬性,,其中定義4類資源對象,,分別是圖書(book)、作者(author),、出版社(press)和編審(editor),。在資源對象的基礎上,還定義了4種對象屬性: 對象屬性creat描述了作者與圖書之間的寫作關系,,其定義域為作者類,,值域為圖書類;對象屬性has_auther描述了論文所具有的作者,,定義域是圖書類,,值域為作者;類對象屬性publish描述圖書與出版社之間的出版關系,,其定義域為圖書類,,值域為出版社;類對象屬性has_editor描述了圖書編審,,它們描述的是圖書中包含的編審,,其定義域為圖書類,值域為編審類,。此外,,本體中還定義了各資源對象的數(shù)據屬性,具體含義分別如表1,、表2,、表3所示。
本體的結構根據使用需要設定類和屬性,,并加上必要的約束,,在實用過程中逐漸完善,、改進,這是一個長期的工作,。根據前面研究的本體知識,,本文提出了如圖1所示的書信息資源的本體獲取模型。
該模型有圖書信息源選擇,、概念抽取和關系學習階段,,并從原始獲取和后天學習兩個層面完成圖書信息資源本體的構建。
該圖書信息檢索從傳統(tǒng)的關鍵字層面提高到知識或語義層面上,。語義萬維網具有良好的概念層次和對邏輯推理的支持,,現(xiàn)已被廣泛應用于知識表達、知識共享及重用,,其中建立圖書資源本體的目標是捕獲相關領域的知識,,提供對該領域知識的共同理解,確定該領域內共同認可的詞匯,,并從不同層次的形式化模式[8-9]上給出這些詞匯術語和詞匯之間相互關系的明確定義,從而提高了圖書檢索的效率和準確性,,為用戶節(jié)省更多的時間。
參考文獻
[1] 劉升平,蘭煜峰,譯.OWL Web本體語言概述推薦標準(中文版)W3CHINA.ORG開發(fā)翻譯計劃(OTP)[EB/OL].[2004-07-3].http://zh.transwiki.org/cn/owloverview.htm.
[2] 劉昕鵬.Ontology理論研究和應用建模——Ontology研究綜述,、w3c Ontology研究組文檔以及Jena編程應用總結[EB/OL].http://bbs.xml.org.cn/viewfile.asp?ID=265.
[3] 李善平,尹奇,胡玉杰,等.本體論研究綜述[J].計算機研究與發(fā)展,2004,41(7):1041-1052.
[4] 鄧志鴻,唐世渭,張銘,等.Ontology研究綜述[J].北京大學學報(自然科學版),2002,6(5):34-36.
[5] VELARDI P, MISSIKOFF M, BASILI R. Identification of relevant terms to support the construction of domain ontologies[R]. Proc.of ACL-01 workshop on Human language Technologies, 2001.
[6] 高茂庭,王正歐. Ontology及其應用[J].計算機應用,2003(S2):35-37.
[7] 汪鵬.Ontology知識表示的藝術[J].計算機教育,2004,3(7):45-47.
[8] 杜小勇,李曼,王珊.本體學習研究綜述[J].軟件學報,2006,6(9):1837-1847.
[9] SMITH M K, WELTY C,MCGUINNESS D L. OWL Web ontology language guide recommendation[EB/OL]. http://www.w3.org/TR/2004/REC-owl-guide-20040210/.