史珂,,徐建良
(中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,,山東 青島 266100)
摘要:在研究敘詞表分類的基礎(chǔ)上,,調(diào)研了國家海洋局第一海洋研究所海洋科技信息數(shù)據(jù)。根據(jù)這些電子資源的存儲方式與存儲結(jié)構(gòu),,對其進行數(shù)據(jù)的轉(zhuǎn)儲,,設(shè)計了標(biāo)準(zhǔn)的XML文件,以便數(shù)據(jù)資源的二次使用與共享,。
關(guān)鍵詞:敘詞表,;海洋信息;數(shù)據(jù)轉(zhuǎn)儲
0引言
在對現(xiàn)有的海洋科技信息數(shù)據(jù)的研究中發(fā)現(xiàn),,其存儲方式大多數(shù)以是Word文件或Excel文件的形式分散在科學(xué)家和各個研究部門手中,。由于各個科研機構(gòu)的管理方式和科研工作者的編寫習(xí)慣不一致,導(dǎo)致異構(gòu)數(shù)據(jù)源在不同文件中的組織結(jié)構(gòu),、語義層次不同,,從而使整個海洋科技信息的數(shù)據(jù)出現(xiàn)雜亂、重復(fù),、語義不一致等現(xiàn)象,,這就造成了海洋科技信息的數(shù)據(jù)資源沒有辦法滿足海洋科研工作者的科研成果的共享與二次使用,同時也不能滿足與國際科研機構(gòu)的數(shù)據(jù)交換[1],。這種情況對我國海洋科學(xué)考察領(lǐng)域的發(fā)展產(chǎn)生了嚴重的阻礙,。
把這些碎片化的異構(gòu)數(shù)據(jù)源進行整合從而達到規(guī)范化是目前各個機構(gòu)和科研工作者的首要任務(wù)。通過對海洋科技信息數(shù)據(jù)格式和內(nèi)容的研究,,本文設(shè)計了一種規(guī)范,、標(biāo)準(zhǔn)的XML文件,把海洋科技信息數(shù)據(jù)資源轉(zhuǎn)儲到該自定義的XML文件,,使海洋相關(guān)數(shù)據(jù)得到最大化的共享和利用,,同時也為我國即將開展的數(shù)字海洋計劃提供了一定的數(shù)據(jù)資源。
1海洋科技信息數(shù)據(jù)格式
按照Soergel的理論把敘詞表分為兩類,,分別為基于術(shù)語的敘詞表(termbased thesaurus )和基于概念的敘詞表(conceptbased thesaurus )[1],。其中,前者是一種集合,,該集合結(jié)構(gòu)清晰,,因為這種類型的敘詞表只包含一種實體類型,這種實體就是術(shù)語,,而術(shù)語與術(shù)語之間存在的關(guān)系分有3種,,分別為層級關(guān)系,、相關(guān)關(guān)系、等同關(guān)系[2],。而另外一種敘詞表,,即基于概念的敘詞表,則由兩種實體類型組成,,其中一種是概念,,另外一種是術(shù)語。概念是一個簡單的結(jié)構(gòu)單一的思想單元[3],,概念的基本信息包括優(yōu)選術(shù)語、非優(yōu)選術(shù)語,、范圍附注等,,概念之間同樣也存在層級關(guān)系、相關(guān)關(guān)系,。結(jié)合海洋科技信息數(shù)據(jù)源的存儲結(jié)構(gòu)和存儲類型,,可以把這些數(shù)據(jù)資源簡單分為兩類:
(1)把以Word文檔作為存儲結(jié)構(gòu)的敘詞看作基于概念的敘詞表,,不僅有術(shù)語,、關(guān)鍵詞,還有概念,,概念用來對關(guān)鍵詞進行進一步解釋,。
(2)把以Excel文檔作為存儲結(jié)構(gòu)的敘詞看作基于術(shù)語的敘詞表,,不僅有術(shù)語關(guān)鍵詞,,還有詞間的層級關(guān)系。
其關(guān)系結(jié)構(gòu)如圖1所示,。
2Word和Excel模板規(guī)范
海洋科技信息文檔的格式和組織架構(gòu)雖然相對比較固定,,但仍然存在語義與結(jié)構(gòu)的不一致現(xiàn)象,直接從這樣的Word和Excel文檔中提取關(guān)鍵信息,,容易導(dǎo)致數(shù)據(jù)的混亂,,同時也對提取的算法要求頗高,這就需要先通過Word的語義模型和Excel的行列關(guān)系規(guī)范文檔的結(jié)構(gòu),。
通過域的設(shè)定,,可以把字體、位置,、顏色等顯示樣式規(guī)范化[4],。域中的數(shù)據(jù)都是可變的,如果以后用戶自主創(chuàng)建Word文檔,,只需更改域中的文字信息即可,,不需要再對樣式,、排版進行編輯,其中敘詞用加粗字體表示,,對應(yīng)概念用普通字體表示,,敘詞與概念之間用空格銜接,如圖2所示,。對于這種建立模版方法,,在插入每一個域時,都需要輸入相應(yīng)的提示文本,,作為該域的語義信息,。
而對于Excel文檔,一般情況下總共4列,,同一行上后一個列屬于前一個列的子類,,最后一列對應(yīng)敘詞,除此之外的每一列都對應(yīng)一個分類,,如果以樹狀結(jié)構(gòu)列出表中的層次關(guān)系的話,,即每個葉子節(jié)點為敘詞,每個非葉子節(jié)點都為分類,,且分類中也可包含其他分類,,如圖3所示。
3Word和Excel信息抽取
Microsoft Office 2010提供了通過將自定義XML Schema架構(gòu)插入工作薄,,導(dǎo)出符合結(jié)構(gòu)需求的XML文件的功能,。該功能是在Office文檔和XML結(jié)構(gòu)之間創(chuàng)建了一個映射,進行Office文檔中數(shù)據(jù)的分離,。
3.1自定義XML Schema
XML Schema文件的主要定義可擴展標(biāo)記語言的合法構(gòu)建結(jié)構(gòu),,它可以定義出現(xiàn)在文檔中的元素、元素的層次結(jié)構(gòu),、子元素的次序,、子元素的數(shù)目、元素是否為空,、文檔中的屬性,、元素和屬性的數(shù)據(jù)類型、元素和屬性的默認值以及固定值等[5],。本文自定義的XML Schema文件結(jié)構(gòu)如下,。
<?xml version="1.0"?>
<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">
<xsd:element name="dump-file">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="username" type="xsd:string"/>
<xsd:element name="security" type="xsd:string"/>
<xsd:element name="category" type="xsd:string"/>
<xsd:element name="page">
<xsd:complexType>
<xsd:sequence>
<xsd:element name="category" type="xsd:string"/>
<xsd:element name="title" type="xsd:string"/> <xsd:element name="text" type="xsd:string" />
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:sequence>
</xsd:complexType>
</xsd:element>
</xsd:schema>
3.2Word到標(biāo)準(zhǔn)XML文檔
使用了上文通過域定義的語義模版后的Word文檔如圖4所示。使用XML Schema中定義的元素對Word文檔的關(guān)鍵字進行手動映射,,這樣就把與邏輯相關(guān)的一些標(biāo)記插入到了Word文檔中,,以便根據(jù)實際需要通過標(biāo)識符來方便地對文檔進行處理。具體實現(xiàn)方式如下,。
?。?)在菜單中選擇“開發(fā)工具架構(gòu)”,,在彈出的窗口中選擇“添加架構(gòu)”,將XML Schema文件附加到Word文檔,。
?。?)在添加架構(gòu)完成后,就可以利用該Schema文件中的元素批注Word文檔,。Word文檔右側(cè)的“XML結(jié)構(gòu)”窗格可將附加架構(gòu)中的自定義元素映射到文檔關(guān)鍵字,。
完成Schema文檔中的元素與Word文檔關(guān)鍵字的映射后,需要對剛創(chuàng)建的文檔進行保存,,其保存格式為XML文件,,保存后的XML文檔結(jié)構(gòu)效果如下。
<?xml version="1.0" encoding="gb2312" standalone="yes"?>
<dump-file>
<username>王一</username>
<security>公開</security>
<category>大洋調(diào)查</category>
<page>
<category/>
<title>站位</title>
<text>若在某一海域中需要進行相應(yīng)的調(diào)查目的的采樣,,則用站位號來表示這一區(qū)域,。 </text>
</page>
<page>
<category/>
<title>采樣點</title>
<text>在某一站位進行采樣時,可能需要在不同區(qū)域進行多次取樣(儀器入水后在多個區(qū)域采樣),,對于每個采樣的區(qū)域稱為一個采樣點。一個站位可能零到多個采樣點,。</text>
</page>
<page>
<category/>
<title>入水經(jīng)緯度</title>
<text>進行采樣作業(yè)時,,儀器入水時的經(jīng)緯度為入水經(jīng)緯度。一個站位只有一個入水經(jīng)緯度,。</text>
</page>
</dumpfile>
3.3Excel到標(biāo)準(zhǔn)XML文檔
把XML Schema文件添加到Excel文檔中的具體步驟如下,。
(1)在菜單中選擇“開發(fā)工具源”,,在彈出的右側(cè)窗口中選擇“XML映射”,,將XML Schema文件附加到Excel文檔。
?。?)使用“XML源”將Excel文檔單元格映射到XML架構(gòu)元素,。
Excel會自動創(chuàng)建一個XML映射對象,通過鼠標(biāo)拖曳XML映射元素到相應(yīng)關(guān)鍵詞上,,實現(xiàn)它們之間的映射,,這樣就可以將單元格中的數(shù)據(jù)反映到XML架構(gòu)的元素上,其顯示效果如圖5所示,。
完成Schema文檔中的元素與Excel文檔關(guān)鍵字的映射后,,Microsoft Excel導(dǎo)出的標(biāo)準(zhǔn)XML文件格式如下?;谶@種通用結(jié)構(gòu),,可以方便有效地完成海洋數(shù)據(jù)向各個應(yīng)用或者數(shù)據(jù)庫的轉(zhuǎn)儲工作。
<?xml version="1.0" encoding="UTF-8" standalone="yes"?>
<dump-file>
<username>王二</username>
<security>公開</security>
<category>地球科學(xué)服務(wù)</category>
<page>
<category>數(shù)據(jù)分析和可視化</category>
<title>校準(zhǔn)/檢驗</title>
<text/>
</page>
<page>
<category>數(shù)據(jù)分析和可視化</category>
<title>地理信息系統(tǒng)</title>
<text>移動地理信息系統(tǒng)</text>
</page>
<page>
<category>數(shù)據(jù)分析和可視化</category>
<title>地理信息系統(tǒng)</title>
<text>桌面地理信息系統(tǒng)</text>
</page>
<page>
<category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
<title>數(shù)據(jù)互操作</title>
<text/>
</page>
<page>
<category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
<title>數(shù)據(jù)互操作</title>
<text>數(shù)據(jù)格式化</text>
</page>
<page>
<category>數(shù)據(jù)管理/數(shù)據(jù)處理</category>
<title>數(shù)據(jù)挖掘</title>
<text/>
</page>
</dump-file>
4結(jié)論
本文研究的資料直接來源于國家海洋局第一海洋研究所,,能客觀真實地反映該領(lǐng)域的知識結(jié)構(gòu)框架,,概念更專指,,能有效克服“嵌入迷失問題”(詞表過大導(dǎo)致用戶迷失了方向)和“藝術(shù)博物館現(xiàn)象”(用戶花了很多時間卻沒有找到任何有用信息)[6]。本文通過使用Microsoft Office 2010自帶的映射功能完成標(biāo)準(zhǔn)XML文件的生成,,為數(shù)據(jù)的管理和二次利用提供了有效的途徑,。
參考文獻
[1] 傅強. 中國大洋研究成果數(shù)據(jù)庫平臺系統(tǒng)建設(shè)[D]. 青島:國家海洋局第一海洋研究所, 2007.
?。?] BANERJEE S, PEDERSEN T. Extended gloss overlaps as a measure of semantic relatedness[C]. International Joint Conference on Artificial Intelligence, IJCAI, 2003: 805810.
?。?] BUDANITSKY A, HIRST G. Evaluating wordnetbased measures of lexical semantic relatedness[J]. Computational Linguistics, 2006, 32(1): 1347.
[4] Chen Zeqiang, Chen Nengcheng. Use of service middleware based on ECHO with CSW for discovery and registry of MODIS data[J].地球空間信息科學(xué)學(xué)報(英文版), 2010, 13(3):191200.
?。?] LEE D, CHU W W. Comparative analysis of six XML schema languages[J]. ACM Sigmod Record, 2000, 29(3):7687.
?。?] AITCHISON J, CLARKE S D. The thesaurus: a historical viewpoint, with a look to the future[J]. Cataloging & classification quarterly, 2004, 37(34): 521.