摘 要: 為方便信息管理,,在已有標(biāo)準(zhǔn)電子文檔基礎(chǔ)上,運用信息檢索原理及信息檢索實現(xiàn)技術(shù),,研究以關(guān)鍵字查詢方法為重點的標(biāo)準(zhǔn)平臺索引服務(wù),,建立起一個標(biāo)準(zhǔn)共享平臺。標(biāo)準(zhǔn)共享平臺運行結(jié)果表明,,信息檢索技術(shù)能方便地運用于文檔的管理中,。
關(guān)鍵詞: 標(biāo)準(zhǔn)共享平臺,;信息檢索;關(guān)鍵字
對石油的開采,、運輸?shù)裙こ淘O(shè)計過程中需要用到大量文檔信息(國外標(biāo)準(zhǔn),、國家標(biāo)準(zhǔn)、企業(yè)標(biāo)準(zhǔn)等),。為方便標(biāo)準(zhǔn)的管理和使用,,實現(xiàn)技術(shù)有形化及知識共享和積累,將標(biāo)準(zhǔn)的管理與信息檢索技術(shù)相結(jié)合,,建立了與數(shù)字圖書館[1]類似的能通過關(guān)鍵詞查詢或任何經(jīng)過定義的方式獲得所需信息的系統(tǒng),。通過該系統(tǒng),用戶可以隨時隨地,、方便而快捷地查找并獲得統(tǒng)一,、準(zhǔn)確的標(biāo)準(zhǔn)信息。
本文以中國石油公司的標(biāo)準(zhǔn)電子詞典開發(fā)項目為背景,,整個項目是通過已有的標(biāo)準(zhǔn)電子文檔建立一個標(biāo)準(zhǔn)共享平臺[1-2],。討論以關(guān)鍵字查詢?yōu)橹攸c的信息檢索技術(shù)的基本思想。
1 信息檢索技術(shù)
信息檢索技術(shù)的基本原理[3]是通過對大量的,、分散無序的文獻(xiàn)信息進(jìn)行搜集,、加工、組織,、存儲,,建立檢索系統(tǒng),并通過一定的方法和手段使存儲與檢索這兩個過程所采用的特征標(biāo)識達(dá)到一致,,以便有效地獲得和利用信息源,。其核心思想是用戶信息需求與文獻(xiàn)信息集合的比較和選擇,是兩者匹配的過程,。
信息檢索的一般過程是檢索系統(tǒng)將文檔集合中的文獻(xiàn)對象進(jìn)行標(biāo)引,,用戶將需要查找的信息(即信息需求)表達(dá)成查詢,以信息提問的方式提交給檢索系統(tǒng),,則檢索系統(tǒng)運用預(yù)先設(shè)定的匹配算法[4]進(jìn)行計算,,檢索出查找對象,并最終輸出滿足用戶需要的結(jié)果,。信息檢索主要過程如圖1所示,。
2 信息檢索技術(shù)的實現(xiàn)
2.1 標(biāo)準(zhǔn)平臺提供的檢索功能
對用戶的信息需求,標(biāo)準(zhǔn)共享平臺提供分類目錄查詢和輸入關(guān)鍵字查詢兩種方式,。輸入關(guān)鍵字查詢需要用戶輸入所需查詢信息的標(biāo)題或標(biāo)準(zhǔn)編號中的字,、詞或者發(fā)行部門等信息,計算機(jī)通過事先設(shè)置的算法返回用戶查找的信息,。
2.2 關(guān)鍵字檢索技術(shù)
由于標(biāo)準(zhǔn)平臺的開發(fā)面向已有的電子文檔,,因此平臺的關(guān)鍵字檢索設(shè)計主要在于解決關(guān)鍵字索引及如何查詢索引問題,。
按照輸入關(guān)鍵字查詢要求,將標(biāo)準(zhǔn)名稱及對應(yīng)的標(biāo)準(zhǔn)編號與標(biāo)準(zhǔn)內(nèi)容通過序號建立一一對應(yīng)關(guān)系[5],,可將每篇文檔的標(biāo)題看成是全文信息,。利用倒排索引[6-7]思想,一方面將所有標(biāo)準(zhǔn)名稱及編號中的每個字按照其首字母先后順序建立一個索引,,稱為詞表,,它包含一個記錄表項,記錄表項記錄了出現(xiàn)這個字的標(biāo)題所在地址信息及其編號情況,。另一方面將出現(xiàn)的各個詞項的文檔標(biāo)題或編號構(gòu)成一個文件,,即記錄文件。例如,,表1展示了部分標(biāo)準(zhǔn)信息,,針對這些標(biāo)準(zhǔn)中的詞條建立倒排索引,部分內(nèi)容如表2所示,。
在查找索引詞表問題上,,由于詞表是按其首字母順序進(jìn)行位置排序,當(dāng)輸入一個字時,,利用二分法[3]找到其首字母所屬段詞表,,然后再對此段詞表進(jìn)行順序搜索,直到查找到此字在詞表中的位置,,同時找到此字的記錄表項,,根據(jù)記錄表項中所記錄的標(biāo)準(zhǔn)名稱所在位置及序號找到相應(yīng)的文檔標(biāo)題。當(dāng)輸入不止一個字時通過AND操作,,找到同時包含輸入字的文檔標(biāo)題,,通過之前與全文信息建立的對應(yīng)關(guān)系即可找到文檔信息。
3 信息檢索技術(shù)在系統(tǒng)中的實現(xiàn)
在搜索框內(nèi)輸入關(guān)鍵字,,便可顯示含有關(guān)鍵字的標(biāo)準(zhǔn)或文檔信息,,如果沒有符合的標(biāo)準(zhǔn),系統(tǒng)則輸入“無此項信息”,。圖2為輸入關(guān)鍵字“腐蝕”后的檢索示意圖,。
從對標(biāo)準(zhǔn)電子詞典的測試情況發(fā)現(xiàn),運用倒排檢索及二分法對詞表進(jìn)行查詢的方式所建立的標(biāo)準(zhǔn)共享平臺有非常高的正確率,,滿足用戶要求,。
標(biāo)準(zhǔn)電子詞典的成功開發(fā),是將信息檢索技術(shù)與企業(yè)文檔管理相結(jié)合思想應(yīng)用到實際工作中的一個例子,,它使得用戶通過登錄系統(tǒng)輸入關(guān)鍵字便可以對所需標(biāo)準(zhǔn)進(jìn)行搜索等操作,。將工作人員從繁重的、重復(fù)的手工勞動中解放出來,提高了管理部門的管理水平,。
參考文獻(xiàn)
[1] 黃如花,王梅,,黃曉斌,,等.數(shù)字圖書館原理與技術(shù)[M].湖北:武漢大學(xué)出版社,2005.
[2] 席生長,,胡宏濤.信息檢索技術(shù)在中石油勘探與生產(chǎn)分公司門戶內(nèi)的應(yīng)用研究[J].福建電腦,,2008(1):102-103.
[3] SHAFFER C A,張銘,,劉曉丹,,等.數(shù)據(jù)結(jié)構(gòu)與算法分析(C++版)[M].北京:電子工業(yè)出版社,2002.
[4] 聞玉彪,,賈時銀,,鄧世坤,等.一種改進(jìn)的最大匹配中文分詞算法[J].計算機(jī)技術(shù)與發(fā)展,,2011,,10(21):92-98.
[5] 王斌.從信息檢索到搜索引擎[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2009(4):38-43.
[6] 劉興宇.基于倒排索引的全文檢索技術(shù)研究[D].武漢:華中科技大學(xué),,2004.
[7] 王澤胤.全文信息檢索的快速索引文件結(jié)構(gòu)及系統(tǒng)的設(shè)計與實現(xiàn)[D].吉林:吉林大學(xué),,2009.