摘 要: 介紹了數(shù)字圖書館的定義和產(chǎn)生背景﹑數(shù)字圖書館的模塊組成與系統(tǒng)功能結(jié)構(gòu)以及數(shù)字圖書館建設(shè)中使用的主要技術(shù),提出數(shù)字圖書館建設(shè)過程中面臨的問題并進行綜合分析,。
關(guān)鍵詞: 數(shù)字圖書館,;信息數(shù)字化;信息檢索,;數(shù)據(jù)挖掘
1 數(shù)字圖書館的概念
數(shù)字圖書館(Digital Library)是虛擬的圖書館,,是在互聯(lián)網(wǎng)環(huán)境的支持下產(chǎn)生的資源共享庫。只要是合法的已授權(quán)用戶,,就可以通過網(wǎng)絡(luò)在任何地點,、任何時間,最大程度的獲取知識所需要的資源[1],?!皵?shù)字圖書館”是用數(shù)字技術(shù)處理和存儲各種圖文并茂文獻的圖書館,它是一種多媒體制作的分布式信息系統(tǒng),,把各種不同載體,、不同地理位置的信息資源用數(shù)字技術(shù)存貯,以便跨越區(qū)域面向?qū)ο蟮木W(wǎng)絡(luò)查詢和傳播的一個大型信息系統(tǒng),。
數(shù)字圖書館就是將傳統(tǒng)圖書館中的館藏資料進行數(shù)字化后儲存到計算機的存儲設(shè)備中,,再通過網(wǎng)絡(luò)傳遞的手段,讓人們可以通過各種終端查詢,、瀏覽所需要的知識資源[1],,終端設(shè)備包括計算機,手機,,平板電視等,。
與傳統(tǒng)圖書館相比,,數(shù)字圖書館的優(yōu)點是顯而意見的。
(1)海量的數(shù)字化信息存儲在無數(shù)個磁盤存儲器中,,占用的物理空間相對很小,。
(2)數(shù)字圖書館可以存儲多種類型的數(shù)字化資源,如語音,、樂曲,、圖像,、視頻,、資料等。
(3)所有的珍貴資料都可以經(jīng)數(shù)字化處理后,,將原件保存在更適宜的環(huán)境中,,而數(shù)字化的資料由于實現(xiàn)原件的復(fù)制,并不影響一般意義上的查閱,。
(4)利用數(shù)字化圖書館的用戶可以在任何地方,、以任何身份只通過網(wǎng)絡(luò)進入圖書館瀏覽、查詢,、下載及打印有用的信息,。
2 產(chǎn)生背景
信息時代,人們獲取信息的又一重要手段便是互聯(lián)網(wǎng),,而傳統(tǒng)圖書館中的文獻資料若要更加充分快捷地被獲取和查閱,,就必須要依托網(wǎng)絡(luò)來實現(xiàn)資源共享,所以,,網(wǎng)絡(luò)數(shù)字圖書館應(yīng)運而生,,它的出現(xiàn)極大地提高了圖書館資源的利用效率。
我國自20世紀90年代末開始興起數(shù)字圖書館建設(shè),,雖然起步較晚,,但經(jīng)過不斷的學習和研究,我國的數(shù)字化圖書館工程在資源建設(shè),、服務(wù)渠道和服務(wù)手段等方面已逐漸走在世界前列,。隨著國家數(shù)字圖書館建設(shè)的全面展開,數(shù)字圖書館已經(jīng)成為國民進行資源檢索,、閱覽的重要渠道,。
“十二五”期間,實施數(shù)字圖書館推廣工程,,搭建以國家圖書館為核心,,以省、市,、縣各級圖書館為節(jié)點的虛擬網(wǎng),,幫助各級圖書館建立數(shù)字圖書館服務(wù)網(wǎng)絡(luò),,從而全面提升各級圖書館的服務(wù)能力和服務(wù)水平,在此基礎(chǔ)上形成覆蓋全國的數(shù)字圖書館服務(wù)體系,,使數(shù)字圖書館真正成為社會公眾身邊便捷,、高效、不可或缺的信息獲取平臺,。
3 數(shù)字圖書館的基本功能模塊
數(shù)字圖書館是一個硬件和軟件集成的系統(tǒng)平臺[2],。通過數(shù)字化處理技術(shù),把各種文獻載體數(shù)字化,,并將它們有組織地存儲在網(wǎng)絡(luò)服務(wù)器上,,再通過Web訪問技術(shù)為用戶提供服務(wù)。從應(yīng)用的角度來講,,數(shù)字圖書館由如下模塊組成:為終端用戶提供友好交互界面的應(yīng)用程序模塊,、對多種資源進行數(shù)字化轉(zhuǎn)換的功能模塊、提供信息檢索的程序模塊,、對后臺數(shù)據(jù)庫資源進行有效管理和維護的模塊和支持信息可靠傳輸?shù)木W(wǎng)絡(luò)架構(gòu)模塊,。
3.1 數(shù)字資源的收集
數(shù)字圖書館的資源收集包括多種渠道。采購中外文數(shù)據(jù)庫,;對自身館藏資源的數(shù)字化及原創(chuàng)音頻,、視頻資源的積累;利用網(wǎng)絡(luò)爬蟲對網(wǎng)頁中有價值的信息進行獲??;與其他各級數(shù)字圖書館進行資源交換或資源共建。
3.2 數(shù)據(jù)庫資源管理
數(shù)字圖書館的數(shù)字資源存儲于后臺數(shù)據(jù)庫,,這些龐大的信息量必須進行有效的有組織的分類存儲,。分類的方法可按學科分類,適用于規(guī)模較小且擁有眾多特色資源的數(shù)字圖書館,;也可按資源本身的出版或存在形式進行分類,,如中國國家數(shù)字圖書館將資源分為:圖書、期刊,、報紙,、論文、音視頻等,。
3.3 信息檢索
信息檢索包含Web信息發(fā)布,、全文檢索、異構(gòu)資源同意檢索,、關(guān)聯(lián)檢索,、數(shù)字參考咨詢、全文傳送與信息推廣,。使系統(tǒng)不僅能統(tǒng)一檢索圖書館常用的國內(nèi),、國外商用數(shù)據(jù)庫外,,還提供對外部數(shù)據(jù)資源,對網(wǎng)絡(luò)資源進行統(tǒng)一檢索功能,,方便用戶獲得全面的信息資源,。
4 數(shù)字圖書館的建設(shè)
建立數(shù)字圖書館,需要從以下幾個方面著手:網(wǎng)絡(luò)環(huán)境的建設(shè),、數(shù)字圖書館硬件設(shè)備的建設(shè),、數(shù)字圖書館軟件系統(tǒng)平臺的建設(shè)、數(shù)據(jù)庫資源的建設(shè),、圖書館自動化系統(tǒng)的建設(shè)和標準與法規(guī)的制定和實施,。
4.1 運行環(huán)境建設(shè)
現(xiàn)代數(shù)字圖書館本質(zhì)上是基于網(wǎng)絡(luò)環(huán)境下的海量數(shù)據(jù)庫及其應(yīng)用。一般的數(shù)字圖書館是在如Linux,、Unix或Windows Server環(huán)境下運行的,,客戶端都是基于Windows操作環(huán)境的,。數(shù)字化資料的傳輸由各種Internet接入技術(shù)建立的互聯(lián)網(wǎng)絡(luò)來實現(xiàn),。如:ADSL(非對稱數(shù)字用戶線路)、光纖接入,、無線接入等,。另外,基于移動互聯(lián)網(wǎng)的服務(wù),,開創(chuàng)了圖書館的移動互聯(lián)時代,;數(shù)字電視服務(wù),也成為理想的傳輸環(huán)境,。
4.2 硬件設(shè)備建設(shè)
數(shù)字圖書館大多數(shù)采用客戶端/服務(wù)器的模式,。客戶端瀏覽器,、Web服務(wù)器和數(shù)據(jù)庫服務(wù)器構(gòu)成信息傳遞的核心結(jié)構(gòu),。數(shù)字圖書館硬件設(shè)備主要包括數(shù)字圖書館專用服務(wù)器和存儲設(shè)備。數(shù)字圖書館專用服務(wù)器用來存放和運行數(shù)字圖書館軟件系統(tǒng)平臺,。對服務(wù)器性能的要求由于受讀者數(shù)量,、網(wǎng)絡(luò)情況等因素的影響,會有很大差異,。如果能將數(shù)字圖書館軟件系統(tǒng)的Web系統(tǒng),、數(shù)據(jù)庫系統(tǒng)和原版數(shù)據(jù)系統(tǒng)分開存放于不同的服務(wù)器,則既增加了系統(tǒng)的安全性,,又增加了其易擴充性,,而且擴充成本還比較低。
4.3 軟件系統(tǒng)平臺建設(shè)
根據(jù)數(shù)字圖書館的架構(gòu)設(shè)計方案,,開展軟件系統(tǒng)平臺的建設(shè),。數(shù)字圖書館是一個功能強大的在線聯(lián)機查詢報系統(tǒng),,在進行軟件開發(fā)的過程中對軟件質(zhì)量屬性的要求是嚴格的。首先是性能,,即系統(tǒng)的響應(yīng)能力,,要求系統(tǒng)對即便是復(fù)雜的查詢也可以很快地返回結(jié)果;其次,,是安全性,,系統(tǒng)安全性是指只允許合法的用戶才能訪問圖書館系統(tǒng),拒絕非授權(quán)用戶的任何服務(wù)請求,。除此之外,,系統(tǒng)的可靠性、可用性和互操作性也是在軟件系統(tǒng)平臺建設(shè)過程中必須考慮的問題,。
4.4 數(shù)據(jù)庫資源建設(shè)
數(shù)據(jù)庫資源建設(shè)是數(shù)字圖書館建設(shè)的核心工作,,主要采用數(shù)字化處理技術(shù)。不管是通過何種手段獲得的數(shù)據(jù)庫資源,,都應(yīng)該進行有效的整合和檢測之后才可入庫,,更應(yīng)該避免數(shù)據(jù)資源的重復(fù)引入。如何選擇性價比最高的數(shù)據(jù)庫資源對于數(shù)字圖書館建設(shè)的成敗至關(guān)重要,。
4.5 自動化系統(tǒng)的建設(shè)
圖書館自動化系統(tǒng)是數(shù)字圖書館的一個重要組成部分,。圖書館自動化系統(tǒng)由計算機硬件系統(tǒng)、軟件系統(tǒng),、數(shù)據(jù)庫和相應(yīng)的人員組成,。
(1)硬件系統(tǒng)包括計算機主機、外部設(shè)備,、通信設(shè)備和其他設(shè)備等,。
(2)軟件系統(tǒng)包括系統(tǒng)軟件和應(yīng)用軟件。系統(tǒng)軟件要和硬件系統(tǒng)配套,,以適應(yīng)圖書館工作的需要,,例如要有很強的數(shù)據(jù)處理能力,包括多種文字的處理能力等,。
(3)數(shù)據(jù)庫用以存儲和組織圖書館工作需要的各種數(shù)據(jù),,如采購數(shù)據(jù)、編目數(shù)據(jù),、流通數(shù)據(jù),、連續(xù)出版物數(shù)據(jù)以及各種管理、統(tǒng)計數(shù)據(jù)等,。它們是建立圖書館自動化系統(tǒng)的處理對象和基礎(chǔ),。
(4)人員包括系統(tǒng)人員、軟件人員、硬件人員和操作人員等,,一般都應(yīng)掌握有關(guān)計算機的理論知識和技能,,并并熟悉有關(guān)的圖書館業(yè)務(wù)工作。
4.6 標準規(guī)范體系建設(shè)
數(shù)字圖書館系統(tǒng)的資源來源廣泛,,主要有外購數(shù)據(jù)庫,、各館自建特色資源、網(wǎng)絡(luò)資源的采集等多個方面,,并且格式和類型也是多種多樣,,為了對各類資源進行統(tǒng)一的加工、組織和管理,,必須在數(shù)字資源建設(shè)的過程中建立一整套標準規(guī)范體系,。
我國數(shù)字圖書館標準與規(guī)范建設(shè)(CDLS)項目于2002年10月啟動,由中國科技信息研究所,、中國科 學院文獻情報中心和國家圖書館聯(lián)合發(fā)起,,研究和制定了包括數(shù)字資源加工、元數(shù)據(jù),、唯一標識符等數(shù)字圖書館有關(guān)標準規(guī)范,。國家數(shù)字圖書館工程在建設(shè)過程中,根據(jù)需要,,先后制定了二十余項數(shù)字圖書館相關(guān)標準規(guī)范,,內(nèi)容涵蓋數(shù)字資源的組織,、加工,、描述、服務(wù),、保存等多個環(huán)節(jié),,為接下來各省市級數(shù)字圖書館的資源建設(shè)提供了一定的依據(jù),也為未來的資源整合,、跨庫檢索提供了基本保障,。
5 數(shù)字圖書館的主要技術(shù)
數(shù)字圖書館涉及的技術(shù)領(lǐng)域十分廣泛[3]。除了作為支撐技術(shù)的計算機技術(shù)和網(wǎng)絡(luò)技術(shù)外,,還涉及數(shù)字化技術(shù),、信息存儲技術(shù)、數(shù)據(jù)庫管理技術(shù),、信息壓縮與傳送技術(shù),、分類索引及檢索技術(shù)等。
5.1 數(shù)字化技術(shù)
信息數(shù)字化技術(shù)是指利用計算機和相關(guān)輸入輸出設(shè)備將大量的文獻資源轉(zhuǎn)換為數(shù)字形式并進行存儲的技術(shù),。文獻資源包括書刊,、古籍、圖像等館藏資源。使用的設(shè)備包括掃描儀,、掃描筆,,將文字材料掃描后存儲為圖形或文字,其中文字要通過OCR識別系統(tǒng)進行識別和校對,。
5.2 信息存儲技術(shù)
近年來,,隨著存儲技術(shù)的發(fā)展,硬件容量不斷擴大同時,,軟件潛力的充分發(fā)揮,,使存儲的能力也越來越大。NAS(網(wǎng)絡(luò)連接存儲)和SAN(存儲區(qū)域網(wǎng)絡(luò))作為兩種主流技術(shù),,從根本上改變了已有的存儲結(jié)構(gòu)和管理方式,,為大量數(shù)據(jù)傳輸造成的網(wǎng)絡(luò)擁塞,實現(xiàn)數(shù)據(jù)集中管理,,提供了有效的解決方法,。對數(shù)字圖書館而言,最重要的是擁有穩(wěn)定,、可擴展,、性能比最好的方案,而存儲領(lǐng)域任何新技術(shù)的發(fā)展,,其最終目的也都是為了簡化用戶的從存儲資源的利用和管理,。
5.3 超大規(guī)模數(shù)據(jù)庫技術(shù)
數(shù)字圖書館的數(shù)字資源體系結(jié)構(gòu)完備,資源總量豐富,,數(shù)量龐大,。如此海量的數(shù)字資源,需要采用超大規(guī)模數(shù)據(jù)技術(shù),,才能保證對大用戶量的支持和并行的查詢操作,。Oracle數(shù)據(jù)庫管理系統(tǒng)的超大規(guī)模數(shù)據(jù)庫技術(shù)可以滿足這一需要,所涉及的技術(shù)還有數(shù)據(jù)分區(qū)技術(shù),、并行處理技術(shù),、數(shù)據(jù)安全及資源計劃管理等。
5.4 信息傳輸與通信技術(shù)
實現(xiàn)數(shù)字圖書館的資源共享必須以網(wǎng)絡(luò)暢通為前提,,網(wǎng)絡(luò)通信技術(shù)的種類包括互聯(lián)網(wǎng),、移動通信網(wǎng)、廣播電視網(wǎng)等,,服務(wù)終端涵蓋計算機,、數(shù)字電視、手機,、手持閱讀器,、觸摸屏等多種新媒體終端。近年來,網(wǎng)絡(luò)技術(shù)的發(fā)展和網(wǎng)絡(luò)設(shè)備的不斷改進,,大大提升了網(wǎng)絡(luò)的傳輸速率,,使用戶在訪問數(shù)字圖書館過程中,不管是瀏覽圖片信息還是觀看視頻資源,,都能獲得很好的體驗,。
5.5 數(shù)據(jù)挖掘技術(shù)[4]
數(shù)據(jù)挖掘就是從大量的、不完全的,、有噪聲的,、模糊的、隨機的數(shù)據(jù)中,,提取隱含在其中的,、人們事先不知道的、但又是潛在有用的信息和知識的過程,。數(shù)據(jù)挖掘技術(shù)可以從歷史數(shù)據(jù)中計算出規(guī)律,,預(yù)測趨勢。這一技術(shù)應(yīng)用在數(shù)字圖書館中,,實現(xiàn)了系統(tǒng)動態(tài)跟蹤用戶需求,,為用戶的個性化服務(wù)提供依據(jù)。
5.6 數(shù)據(jù)倉庫技術(shù)[4]
數(shù)據(jù)倉庫通常是一個面向主題的,、集成的,、不可更新的、相對穩(wěn)定的,、反映歷史變化的數(shù)據(jù)集合,,用于支持經(jīng)營管理中的決策制定過程。數(shù)據(jù)倉庫可以實現(xiàn)將數(shù)字圖書館中的海量但類型卻多種多樣的數(shù)據(jù)進行有效集成和重組,,為數(shù)字圖書館系統(tǒng)實現(xiàn)有效的知識獲取做好準備,。
6 主要問題
6.1 資源浪費問題
與傳統(tǒng)圖書館相比的巨大優(yōu)勢,讓人們建設(shè)數(shù)字圖書館的心情極為迫切,。各級省、市,、縣以及許多高校紛紛開啟了建設(shè)數(shù)字圖書館的進程,。然而各自為政的建設(shè)方式,必然導致硬件資源的重復(fù)建設(shè),;此外,,傳統(tǒng)館藏資源的重復(fù),也將造成圖書資源數(shù)字化和錄入的重復(fù),。這更加違背了建設(shè)數(shù)字圖書館的初衷,。因此,在數(shù)字圖書館建設(shè)之前的統(tǒng)一的規(guī)劃和建設(shè)過程中的及時協(xié)調(diào),可以有效避免大量的財力,、人力,、物力資源浪費在低水平的重復(fù)建設(shè)上。
6.2 信息版權(quán)問題
目前數(shù)字圖書館的資源庫主要的信息來源是將圖書進行數(shù)字化后得到的[5],。但是將作品進行數(shù)字化處理涉及到侵犯著作權(quán)人的復(fù)制權(quán),。因為,對數(shù)字化作品的復(fù)制,、下載,、盜版等更加容易。國家版權(quán)局國權(quán)(1999)45號文《關(guān)于制作數(shù)字化制品的著作權(quán)規(guī)定》第2條明確規(guī)定“將已有作品制成數(shù)字化作品,,不論已有作品以何種形式表現(xiàn)和固定,,都屬于《中華人民共和國著作權(quán)法》所稱的復(fù)制行為”。因此,,在數(shù)字圖書館的館藏信息資源建設(shè)過程中,,要特別注意圖書資源的版權(quán)保護問題。對于還處在著作權(quán)保護期限內(nèi)的圖書作品,,要與作者協(xié)商在先,,在取得許可之后方能進行數(shù)字化轉(zhuǎn)換。
6.3 建設(shè)資金問題
數(shù)字圖書館建設(shè)中包括:運行環(huán)境架設(shè),,硬件設(shè)備組建,,軟件系統(tǒng)開發(fā)以及館藏資源建設(shè),可見,,數(shù)字圖書館建設(shè)是一個復(fù)雜和長期的工程,,這也意味著,它需要龐大的資金支持,。并且這筆不小的資金投入在很長一段時間內(nèi)無法獲得收益,。而且,數(shù)字圖書館建設(shè)并投入使用以后,,還需要專業(yè)人員對系統(tǒng)進行日常管理和定期維護,。目前,省,、市級數(shù)字圖書館以及各高校的數(shù)字圖書主要依靠地區(qū)政府的專項撥款,。所以,有限的資金來源和持續(xù)的資金投入是數(shù)字圖書館建設(shè)面臨的又一難題,。
數(shù)字圖書館是圖書館在信息網(wǎng)絡(luò)時代的必然選擇與必由之路,,更是一個國家信息基礎(chǔ)設(shè)施建設(shè)的重 要方面,它在提供給人們豐富的知識資源和強大的服務(wù)機制的同時,,也在逐漸改變著人們獲取知識的習慣,,相信日趨完善的數(shù)字圖書館將會成為人類文化與科技的進步的重要基石,。
參考文獻
[1] 鄭巧英,楊宗英.數(shù)字圖書館的發(fā)展和研究[J].計算機工程,,2000(1),,731-736.
[2] 李冠強.數(shù)字圖書館研究[M].北京:北京圖書館出版社,2002:20-21.
[3] 邵銳.數(shù)字圖書館建設(shè)的關(guān)鍵技術(shù)[J].科技情報開發(fā)與經(jīng)濟,,2006,,16(6):36-37.
[4] 陳燕.數(shù)據(jù)挖掘技術(shù)與應(yīng)用[M].北京:清華大學出版社,2011.
[5] 邵永初.數(shù)字圖書館中的著作權(quán)問題[J].江西教育學院學報,,2011,,32(5):14-15.