摘 要: 海洋領(lǐng)域中許多有價(jià)值的數(shù)據(jù)被不同的術(shù)語所描述,這些術(shù)語出現(xiàn)命名不規(guī)范,、格式不統(tǒng)一,、同義詞和一詞多義等問題,給術(shù)語的管理,、使用與查詢帶來困難,。對(duì)已創(chuàng)建的基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行相應(yīng)的管理與可視化研究工作,利用HTML5.0,、JavaScript,、C#為開發(fā)語言,對(duì)海洋敘詞表進(jìn)行系統(tǒng)開發(fā)管理,,并實(shí)現(xiàn)術(shù)語詞間關(guān)系的可視化,。
關(guān)鍵詞: 海洋敘詞表;HTML5.0,;JavaScript,;C#;管理,;可視化
0 引言
敘詞表是以受控的,、動(dòng)態(tài)的、規(guī)范化的敘詞為基本成分的詞典,,主要用來標(biāo)引,、存儲(chǔ)和檢索文獻(xiàn),并以參照系統(tǒng)來顯示詞間關(guān)系,。
術(shù)語管理[1]是為了某個(gè)特定目的而對(duì)術(shù)語資源進(jìn)行管理的活動(dòng),。2001年,維基百科[2]的出現(xiàn)給數(shù)據(jù)管理工作帶來了福音,,到2013年維基百科已經(jīng)有2 500多萬詞條內(nèi)容,,包含了大多數(shù)用戶可以用到的術(shù)語信息。
紙質(zhì)版的敘詞表語義關(guān)系顯示和術(shù)語標(biāo)注不能夠很好地幫助用戶理解與查詢,。電子版的敘詞表雖然比紙質(zhì)版查詢更加方便,,但是電子版敘詞表的線性排列方式使術(shù)語的相關(guān)信息因按字序排列而分散在敘詞表中,給用戶使用帶來困難。
概念圖(Concept Map)[3]是一種用節(jié)點(diǎn)代表概念,,連線代表概念之間關(guān)系的圖示法,。它的設(shè)計(jì)思想是先呈現(xiàn)出一幅由最籠統(tǒng)概念組成的圖畫,然后對(duì)這些籠統(tǒng)的概念進(jìn)行擴(kuò)展,,逐漸展現(xiàn)其細(xì)節(jié)和具體的方面,,最后呈現(xiàn)出一幅詳細(xì)的概念網(wǎng)絡(luò)圖。
本文主要是對(duì)基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行管理與可視化的研究工作,,規(guī)范術(shù)語名稱,,統(tǒng)一術(shù)語使用,去除同義詞和一詞多義,,進(jìn)行相關(guān)的維護(hù)工作等,,并借鑒概念圖的設(shè)計(jì)思想和樹形結(jié)構(gòu)的特點(diǎn),以圖形化的方式分別展現(xiàn)海洋敘詞表中術(shù)語的3種詞間關(guān)系,。
1 研究現(xiàn)狀
1985年美國(guó)普林斯頓大學(xué)認(rèn)知科學(xué)實(shí)驗(yàn)室建立的WordNet(詞匯網(wǎng)絡(luò))提供了用戶對(duì)英語術(shù)語的查詢與篩選窗口,。世界貿(mào)易組織的WTOTERM、微軟的語言門戶等構(gòu)建了大型術(shù)語庫,,為相關(guān)的研究和語言服務(wù)等工作提供了資源,。
國(guó)外已經(jīng)開發(fā)出了一些可視化工具。例如:為了用于本體的可視化,,Protégé提供了TGVizTab插件[4],;為了以圖形方式來顯示大腦信息(思維導(dǎo)圖),TheBrain公司開發(fā)了PersonalBrain[5]工具,;還有挪威Ontopia軟件公司開發(fā)的面相主題圖的套裝軟件OKS Samplers[6]等,。
在國(guó)內(nèi),從1986年起,,中國(guó)農(nóng)科院科技文獻(xiàn)信息中心和中國(guó)人民大學(xué)信息中心開始著手利用微機(jī)輔助來進(jìn)行編表工作,,并建立了敘詞庫管理系統(tǒng),取得了初步的成果[7],。另外,,中國(guó)物理學(xué)文獻(xiàn)數(shù)據(jù)庫詞表管理系統(tǒng)的創(chuàng)建與維護(hù)[8]也為術(shù)語管理工作提供了借鑒窗口,。
敘詞表可視化方面的研究還比較少,,基本上都是使用國(guó)外開發(fā)的可視化工具進(jìn)行研究工作。例如,,通過PersonalBrai工具,,王子熙、馬蕾等人對(duì)《漢語主題詞表》中的部分詞進(jìn)行了可視化研究工作[9],;通過Ontopia系列軟件,,朱良兵、紀(jì)希禹等人對(duì)《管理科學(xué)主題詞表》中的部分?jǐn)⒃~進(jìn)行了可視化研究工作[10]等。
綜上可見,,國(guó)內(nèi)外還缺少對(duì)海洋敘詞表的管理維護(hù)及可視化的相關(guān)研究工作,。
2 海洋敘詞表數(shù)據(jù)庫存儲(chǔ)結(jié)構(gòu)的分析
本文主要是對(duì)已創(chuàng)建的海洋敘詞表進(jìn)行管理維護(hù)與可視化研究,以下簡(jiǎn)單介紹一下已創(chuàng)建的海洋敘詞表,。
該海洋敘詞表的創(chuàng)建主要是以維基百科的轉(zhuǎn)儲(chǔ)數(shù)據(jù)xml文件,、維基百科數(shù)據(jù)庫E-R圖和各類參考資料為依據(jù)。通過對(duì)每個(gè)xml文件的分析,,并依據(jù)數(shù)據(jù)格式和各類資料設(shè)計(jì)出自己的數(shù)據(jù)庫,,根據(jù)需求編寫xml信息提取程序,對(duì)xml文件中的術(shù)語及詞間關(guān)系進(jìn)行提取存儲(chǔ),,設(shè)計(jì)了圖1所示的數(shù)據(jù)庫E-R圖,。
3 系統(tǒng)設(shè)計(jì)架構(gòu)與流程
海洋敘詞表管理與可視化系統(tǒng)前臺(tái)使用ExtJS框架,后臺(tái)使用.NET框架,。
系統(tǒng)采用B/S架構(gòu),,通過HTML5.0、CSS和Canvas等來展現(xiàn)豐富多彩的客戶端,,瀏覽器通過Ajax請(qǐng)求訪問服務(wù)器端數(shù)據(jù),,Web Service處理發(fā)送來的請(qǐng)求,對(duì)數(shù)據(jù)進(jìn)行提取并進(jìn)行處理,,通過JSON格式數(shù)據(jù)反饋給瀏覽器,。
Web Service服務(wù)層主要是通過Web API提供數(shù)據(jù)與界面進(jìn)行交互。
系統(tǒng)主要架構(gòu)如圖2所示,。
4 敘詞表的管理及可視化系統(tǒng)實(shí)現(xiàn)
4.1 敘詞表的管理
敘詞表管理系統(tǒng)的主界面如圖3所示,。
“添加”操作一般針對(duì)單個(gè)術(shù)語,主要存儲(chǔ)術(shù)語名稱與術(shù)語的詞間關(guān)系,,當(dāng)添加新術(shù)語較多時(shí),,一般使用“導(dǎo)入”操作,導(dǎo)入操作只需將新術(shù)語信息按照類似數(shù)據(jù)庫中存儲(chǔ)的格式整理成Word文檔,,然后逐個(gè)提取文檔中的術(shù)語信息,,先存儲(chǔ)術(shù)語名稱,后存儲(chǔ)術(shù)語的詞間關(guān)系,。
經(jīng)常使用的是“查詢”和“修改”操作,,工作人員使用術(shù)語過程中,將查詢結(jié)果模糊不清的術(shù)語根據(jù)本領(lǐng)域術(shù)語使用情況進(jìn)行刪減和修改,,通過刪除術(shù)語之間詞間關(guān)系的連接存儲(chǔ)來消除同義詞問題,,但并未對(duì)術(shù)語的信息進(jìn)行刪除。在使用術(shù)語過程中形成術(shù)語規(guī)范用法,,明確術(shù)語意義,,消除一詞多義問題,。
4.2 敘詞表的可視化
可視化[11]的場(chǎng)景展現(xiàn)主要是通過點(diǎn)擊可視化按鈕彈出新的網(wǎng)頁來加載呈現(xiàn)。
?。?)等級(jí)關(guān)系的構(gòu)建思想與實(shí)現(xiàn)
頁面跳轉(zhuǎn)過來,,默認(rèn)展現(xiàn)的是術(shù)語等級(jí)關(guān)系的可視化,利用樹形結(jié)構(gòu)來體現(xiàn)術(shù)語之間的層次關(guān)系,。等級(jí)關(guān)系的核心主要是樹形結(jié)構(gòu)的構(gòu)造,,服務(wù)端先根據(jù)Ajax請(qǐng)求獲取相關(guān)數(shù)據(jù),然后建立服務(wù)器端的樹形結(jié)構(gòu),,再將樹形列表信息根據(jù)需求傳給前臺(tái)進(jìn)行操作,。前臺(tái)網(wǎng)頁HTML主要通過<ul>和<li>標(biāo)簽元素來達(dá)到層層等級(jí)的展現(xiàn),最終在場(chǎng)景中顯示以參數(shù)術(shù)語為中心的等級(jí)關(guān)系,,如圖4所示,。
詞間關(guān)系的跳轉(zhuǎn)是通過點(diǎn)擊場(chǎng)景最上端3個(gè)菜單來實(shí)現(xiàn)的。
?。?)等同關(guān)系的構(gòu)建思想與實(shí)現(xiàn)
等同關(guān)系主要是通過節(jié)點(diǎn)與連線來實(shí)現(xiàn)的,,主要展現(xiàn)指定術(shù)語的所有同義詞。根據(jù)實(shí)際工作需求對(duì)術(shù)語的同義詞進(jìn)行刪減,,確保經(jīng)常使用的術(shù)語得到呈現(xiàn),,使查看更加清晰、明確,。
等同關(guān)系的實(shí)現(xiàn)也是通過相同的流程來實(shí)現(xiàn)的,。根據(jù)傳遞的參數(shù)術(shù)語從數(shù)據(jù)庫中查找術(shù)語的同義詞,將其傳遞到前臺(tái),,前臺(tái)函數(shù)構(gòu)建客戶端關(guān)系圖,。經(jīng)過相關(guān)函數(shù)處理,在場(chǎng)景中展現(xiàn)圖5所示的效果,。
?。?)相關(guān)關(guān)系的構(gòu)建思想與實(shí)現(xiàn)
相關(guān)關(guān)系也是通過節(jié)點(diǎn)與連線來實(shí)現(xiàn)的,主要體現(xiàn)了術(shù)語之間的關(guān)聯(lián)關(guān)系,。為了用戶查看方便,,第一層展開以不超過8個(gè)術(shù)語為限環(huán)繞中心術(shù)語周圍,剩余的術(shù)語通過“下一幅關(guān)系圖”按鈕展現(xiàn),。剩余各展開層的術(shù)語以不超過3個(gè)為限進(jìn)行展現(xiàn),,并以3層為例對(duì)圖形進(jìn)行了繪制加載。
從服務(wù)端獲取相關(guān)關(guān)系術(shù)語,,前臺(tái)進(jìn)行圖形繪制展現(xiàn),。先繪制中心術(shù)語,,然后對(duì)環(huán)繞中心術(shù)語周圍的8個(gè)術(shù)語進(jìn)行繪制,,并添加術(shù)語節(jié)點(diǎn)的展開事件。相關(guān)關(guān)系術(shù)語第一層展現(xiàn)效果如圖6所示。
3層相關(guān)關(guān)系術(shù)語效果如圖7所示,。
5 研究意義
海洋敘詞表的有效管理能夠使術(shù)語得到規(guī)范化,、合理化存儲(chǔ),滿足用戶需求,,并使術(shù)語及相關(guān)信息的檢索更加迅速,、準(zhǔn)確,利于共享標(biāo)準(zhǔn)化的術(shù)語資源,。
海洋敘詞表的可視化[12]能夠協(xié)助相關(guān)人員查看術(shù)語間的詞間關(guān)系,,并能夠更清楚地理解特定部門領(lǐng)域中的工作流程與關(guān)聯(lián)術(shù)語信息,提供用戶友好的視覺效果,,方便用戶以交互的方式管理和開發(fā)術(shù)語,。
6 結(jié)論
本文主要是針對(duì)已完成的基于維基百科分類體系構(gòu)建的海洋敘詞表進(jìn)行管理與可視化研究。根據(jù)實(shí)際需求,,逐漸建立起一套適合特定部門使用的術(shù)語管理系統(tǒng),,并對(duì)術(shù)語詞間關(guān)系進(jìn)行了可視化展現(xiàn)。該系統(tǒng)能夠滿足基本的需求工作,,方便了用戶對(duì)術(shù)語的管理,、查詢、維護(hù)等相關(guān)工作,。
但本系統(tǒng)還有較大的提升空間,,例如,術(shù)語管理方面,,對(duì)同義詞和一詞多義術(shù)語的消除是根據(jù)日常使用術(shù)語過程中發(fā)現(xiàn)問題才進(jìn)行修改的,,過程比較漫長(zhǎng),需要經(jīng)過很長(zhǎng)時(shí)間才能逐漸對(duì)術(shù)語進(jìn)行規(guī)范管理,??梢暬矫妫徽宫F(xiàn)了以查詢術(shù)語為中心4層的等級(jí)關(guān)系和3層的相關(guān)關(guān)系,,工作人員有時(shí)未能查看所有有用術(shù)語,。
可進(jìn)一步進(jìn)行優(yōu)化的方面:根據(jù)不同層次的工作人員、術(shù)語種類,、使用頻率和使用目的對(duì)術(shù)語進(jìn)行分類管理,,方便不同人員使用;借鑒本體添加術(shù)語間相關(guān)關(guān)系的實(shí)體活動(dòng),,使詞間關(guān)系更加清晰,、完善。
參考文獻(xiàn)
[1] 王華樹.淺議實(shí)踐中的術(shù)語管理[J].中國(guó)科技術(shù)語,,2013(2):11-14.
[2] 趙飛,,周濤,,張良,等.維基百科研究綜述[J].電子科技大學(xué)學(xué)報(bào),,2010,,39(3):322.
[3] 袁維新.概念圖:一種促進(jìn)知識(shí)建構(gòu)的學(xué)習(xí)策略[J].學(xué)科教育,2004(2):39-44.
[4] Protégé. Stanford center for biomedical informatics research [EB/OL]. [2011-02-15].http://protege.stanford.edu/.
[5] TheBrain. PersonalBrain[EB/OL].[2011-02-15](2015-03-01).http://www.theBrain.com/.
[6] Ontopia. OKS Samplers[EB/OL]. [2011-02-15](2015-03-01). http://www.ontopia.net/.
[7] 方陸明,,王彩華.利用微機(jī)輔助編制農(nóng)業(yè)敘詞表和建立敘詞庫管理系統(tǒng)的芻議[J].情報(bào)科學(xué),,1990,11(4):35-39.
[8] 周寧麗,,朱獻(xiàn)有,,崔淑蘭,等.中國(guó)物理學(xué)文獻(xiàn)數(shù)據(jù)庫詞表管理系統(tǒng)及其應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),,1996(1):24-26.
[9] 王子熙,,馬蕾.《漢語主題詞表》詞間關(guān)系的可視化[J].現(xiàn)代圖書情報(bào)技術(shù),2006(2):26-29.
[10] 朱良兵,,紀(jì)希禹.基于Topic Maps的敘詞表再工程[J].現(xiàn)代圖書情報(bào)技術(shù),,2006(9):81-84.
[11] 劉俊.敘詞表詞間關(guān)系可視化方法及實(shí)現(xiàn)的比較研究[D].南京:南京農(nóng)業(yè)大學(xué),2008.
[12] 干珍珍,,肖桂榮.武夷山生態(tài)監(jiān)測(cè)數(shù)據(jù)動(dòng)態(tài)圖表可視化研究[J].微型機(jī)與應(yīng)用,,2014,33(2):84-87.