基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法-AET-電子技術(shù)應(yīng)用

基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法

2015年微型機(jī)與應(yīng)用第7期

黃進(jìn)，何中市，李英豪

（重慶大學(xué) 計(jì)算機(jī)學(xué)院，重慶 400044）

摘要： 提出了一種基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法，該方法采用層次Dirichlet過程（HDP）進(jìn)行特征提取。首先將查詢接口中原本高維稀疏的文本表示為主題特征，該過程能自動(dòng)確定特征數(shù)。然后將文本看成多項(xiàng)式模型，采用Dirichlet過程混合模型聚類。該模型無需人工事先指定聚類個(gè)數(shù)，由Dirichlet過程根據(jù)數(shù)據(jù)自動(dòng)計(jì)算得到，特別適用于Deep Web數(shù)據(jù)源數(shù)量大、變化快的特點(diǎn)。在通用數(shù)據(jù)集TEL-8上進(jìn)行驗(yàn)證實(shí)驗(yàn)，并與其他聚類方法在F-measure和熵值兩個(gè)指標(biāo)上進(jìn)行對(duì)比，均取得較好的結(jié)果。

關(guān)鍵詞： DeepWeb 數(shù)據(jù)集成特征提取 dirichlet過程混合模型

Abstract：

Key words :

　　摘要：提出了一種基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法，該方法采用層次Dirichlet過程（HDP）進(jìn)行特征提取。首先將查詢接口中原本高維稀疏的文本表示為主題特征，該過程能自動(dòng)確定特征數(shù)。然后將文本看成多項(xiàng)式模型，采用Dirichlet過程混合模型聚類。該模型無需人工事先指定聚類個(gè)數(shù)，由Dirichlet過程根據(jù)數(shù)據(jù)自動(dòng)計(jì)算得到，特別適用于Deep Web數(shù)據(jù)源數(shù)量大、變化快的特點(diǎn)。在通用數(shù)據(jù)集TEL-8上進(jìn)行驗(yàn)證實(shí)驗(yàn)，并與其他聚類方法在F-measure和熵值兩個(gè)指標(biāo)上進(jìn)行對(duì)比，均取得較好的結(jié)果。

　　關(guān)鍵詞： Deep Web；數(shù)據(jù)集成；特征提取；dirichlet過程；混合模型

0 引言

　　萬維網(wǎng)中不能被傳統(tǒng)搜索引擎通過靜態(tài)鏈接索引到的內(nèi)容稱為Deep Web。要獲取這部分內(nèi)容只能通過表單提交查詢的方式獲得[1-2]。Deep Web數(shù)據(jù)源的分類是指把所有發(fā)現(xiàn)的數(shù)據(jù)源按照領(lǐng)域進(jìn)行劃分，是Deep Web數(shù)據(jù)源集成的關(guān)鍵步驟之一[3]。目前Deep Web數(shù)據(jù)源分類，多數(shù)研究采用的是有監(jiān)督的分類方法。而一個(gè)標(biāo)注好的數(shù)據(jù)集，需要大量的人工知識(shí)，并且隨著萬維網(wǎng)的快速發(fā)展，訓(xùn)練集要考慮更新與擴(kuò)展。這些對(duì)于自動(dòng)化的數(shù)據(jù)集成都是很大的阻礙。在最新的Deep Web研究進(jìn)展與綜述中[4]，也明確指出結(jié)合機(jī)器學(xué)習(xí)，數(shù)據(jù)挖掘等領(lǐng)域的無監(jiān)督的研究方法是今后的研究重點(diǎn)。

　　目前也有一部分研究人員關(guān)注聚類方法的研究。B.He[5]提出了MDhac方法，將表單屬性看做分類數(shù)據(jù)（categorical data），采用基于模型的聚類，用卡方檢驗(yàn)來作為距離函數(shù)，進(jìn)行聚類。L.Barbosa[6]等人提出了基于表單內(nèi)容和表單頁面上下文的K-Means聚類方法。Zhao Pengpeng[7]等人提出基于圖模型的聚類方法，算出數(shù)據(jù)源兩兩間的權(quán)值并連接成有權(quán)圖，然后進(jìn)行劃分聚類。Xu Guangyue[8]等人提出了先聚類后分類的方法。先用LDA模型進(jìn)行主題劃分，用主題數(shù)代表聚類數(shù)目，將達(dá)到聚類精度的數(shù)據(jù)作為訓(xùn)練集，訓(xùn)練出分類模型，對(duì)前一步中聚類效果不好的數(shù)據(jù)進(jìn)行后分類。

　　通過對(duì)國內(nèi)外相關(guān)文獻(xiàn)的閱讀與研究，在了解目前的主要方法后發(fā)現(xiàn)，目前在Deep Web數(shù)據(jù)源特征提取和聚類數(shù)目的自動(dòng)化確定方面還未有研究工作。正如前面提到的這些方法，都需要事先設(shè)定聚類個(gè)數(shù)或者特征個(gè)數(shù)。而在實(shí)際應(yīng)用中聚類數(shù)目往往并不能事先知道，并會(huì)隨著數(shù)據(jù)的增多而不斷變化。

　　Dirichlet過程[9]（Dirichlet Process）則是一種具有代表性的非參數(shù)貝葉斯模型，基于Dirichlet過程的方法可以自動(dòng)地學(xué)習(xí)特征數(shù)目和聚類個(gè)數(shù)。結(jié)合Deep Web數(shù)據(jù)源分類問題自身的需求與Dirichlet過程的特點(diǎn)，提出了基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法。

1 聚類策略及相關(guān)步驟

　　Deep Web數(shù)據(jù)源聚類分為表單特征抽取、特征提取、聚類和結(jié)果評(píng)估四個(gè)主要步驟，如圖1所示。

　　1.1 表單特征抽取

　　從形式上來說，Deep Web查詢接口均以表單的形式出現(xiàn)在頁面中，因此利用表單的特征作為Deep Web分類的判斷依據(jù)是一種合理的解決方式。這也是目前多數(shù)研究人員采用的Pre-query[10]方式。觀察互聯(lián)網(wǎng)上的各種表單，一個(gè)查詢接口中包含了豐富的語義信息，其主要的表現(xiàn)形式為文本信息[11]。以下為一個(gè)圖書查詢接口表單信息。

　　<from>

　　</domain>

　　</attr>

　　</domain>

　　</attr>

　　</domain>

　　</attr>

　　</domain>

　　</attr>

　　</attrgroup>

　　</form>

　　從以上代碼可以看到，每個(gè)控件的name屬性包含了該接口所屬領(lǐng)域的絕大多數(shù)關(guān)鍵字，比如在圖書領(lǐng)域，“ISBN”、“Title”、“Author”等詞都能很好地表達(dá)其所屬的類別。對(duì)通用實(shí)驗(yàn)數(shù)據(jù)集TEL-8進(jìn)行統(tǒng)計(jì)分析后發(fā)現(xiàn)，在數(shù)據(jù)集中共472個(gè)查詢接口，含有name屬性的接口共463個(gè)，覆蓋率達(dá)到98.1%。每個(gè)類別的情況如表1所示。

　　提取出name屬性的值作為查詢接口的表示文本，則可以將Deep Web數(shù)據(jù)源聚類問題轉(zhuǎn)化為文本聚類問題進(jìn)行研究。這些抽取出來的文本中含有噪聲，對(duì)其進(jìn)行去停用詞和詞干提取（波特詞干器Porter Stemmer），可以提高聚類的效率和效果。

　　1.2 特征提取

　　概率主題模型假設(shè)文檔由服從某種概率分布的主題組成，而每個(gè)主題則由服從某種概率分布的單詞組成。Deep Web數(shù)據(jù)源也符合這種假設(shè)。Deep Web數(shù)據(jù)源由一些潛在的主題構(gòu)成，比如“書籍”、“音樂”、“車輛”、“機(jī)票”等，這些潛在的主題又分別由主題內(nèi)的詞構(gòu)成。每個(gè)詞按照一定的概率屬于某個(gè)主題內(nèi)，比如“輪胎”、“引擎”等詞就會(huì)以較高的概率屬于“車輛”這一主題。

　　將查詢接口進(jìn)行特征抽取并處理為文本后，若直接應(yīng)用向量空間模型將文本表示為向量，將造成特征向量高維稀疏的問題，影響聚類的效率與效果。考慮到以上對(duì)應(yīng)關(guān)系，本文采用層次Dirichlet過程（HDP）進(jìn)行特征提取。

　　與LDA模型一樣，HDP也屬于概率主題模型的范疇。不同的是LDA是參數(shù)貝葉斯模型，主題數(shù)目需要事先設(shè)定；而HDP屬于非參數(shù)貝葉斯模型，不需要事先設(shè)定主題數(shù)目。主題數(shù)目將作為參數(shù)之一由模型根據(jù)具體的數(shù)據(jù)學(xué)習(xí)得到。

　　HDP模型[12]如圖2所示。其中H為基分布，γ和α0為集中度參數(shù)。首先，以基分布H和集中度參數(shù)γ構(gòu)成Dirichlet過程，產(chǎn)生全局分布G0。這就使得各個(gè)文檔的主題可以共享。然后，再以G0為基分布，以α0為集中度參數(shù)，分別為文檔集中的每一個(gè)文檔構(gòu)造Dirichlet過程。這個(gè)過程產(chǎn)生的Gj將作為θji的分布，然后從中抽取хji作為文檔中每個(gè)特征的類別。本文采用HDP模型可以將查詢接口抽取出來的文本表示為主題特征，為下一步的聚類做好準(zhǔn)備。

　　整個(gè)生成過程如式（1）~式（4）：

　　1.3 聚類模型

　　特征提取后，采用Dirichlet過程混合模型進(jìn)行聚類。用X={x1，x2，…，xn}表示Deep Web數(shù)據(jù)源，N表示數(shù)據(jù)源中包含的樣本個(gè)數(shù)，xi={xi1，xi2，…，xin}表示第i個(gè)數(shù)據(jù)源，xij表示第i個(gè)數(shù)據(jù)源的第j個(gè)特征值。基于模型的聚類思想認(rèn)為，X由K個(gè)模型混合而成，每個(gè)模型的混合系數(shù)由πk表示，即πk表示每個(gè)模型占的比重，并滿足πk≥0，k={1，2，…，K}，且 OL5%NOWMH5R[6DJR%U%[5]C.png 。有限混合模型和無限混合模型的區(qū)別在于，K是否事先已知。有限混合模型的K需要事先指定并且固定不變，而無限混合模型則把K作為模型參數(shù)，根據(jù)數(shù)據(jù)學(xué)習(xí)得到。本文建立Dirichlet過程混合模型如式（5）所示：

　　其中， 8F`VMO0A7@$U5]C}NNJC7$N.png 取多項(xiàng)式分布，則該模型中的未知參數(shù)θ={π1，π2，…，πk；θ1，θ2，…，θK；K}，其服從Dirichlet過程DP（α，G0）。最后采用Gibbs采樣對(duì)模型中未知參數(shù)θ進(jìn)行求解，找出K值及其對(duì)應(yīng)的混合系數(shù)πk，以及各個(gè)多項(xiàng)式分布中的未知參數(shù)θi，達(dá)到聚類目的。

2 實(shí)驗(yàn)結(jié)果與分析

　　2.1 實(shí)驗(yàn)設(shè)置

　　實(shí)驗(yàn)中使用了Deep Web數(shù)據(jù)源分類的通用數(shù)據(jù)集TEL-8進(jìn)行試驗(yàn)。實(shí)驗(yàn)數(shù)據(jù)集總共包含472個(gè)Deep Web數(shù)據(jù)源查詢接口，取其中含有name屬性的查詢接口，共463個(gè)。在進(jìn)行表單特征抽取和數(shù)據(jù)預(yù)處理后，去除含有單詞數(shù)少于3個(gè)的簡(jiǎn)單接口（共34個(gè)），最終得到429個(gè)查詢接口，覆蓋了機(jī)票、汽車、書籍、租車、酒店、工作、電影和音樂共8個(gè)領(lǐng)域。

　　本文采用在文本聚類領(lǐng)域常用的F-measure和熵值兩種指標(biāo)來評(píng)價(jià)本文聚類方法的效果。同時(shí)與同樣使用TEL-8數(shù)據(jù)集的其他三種聚類方法進(jìn)行比較，分別是B.He提出的MDhac方法、Zhao Pengpeng等人提出的FGC方法以及Xu Guangyue等人提出的基于LDA的先聚類后分類的方法，為下文方便對(duì)比，將該方法簡(jiǎn)稱XU。

　　2.2 結(jié)果及分析

　　2.2.1 特征提取

　　建立HDP模型進(jìn)行特征提取，經(jīng)過100次Gibbs采樣，估計(jì)出特征數(shù)，并將查詢接口中的name屬性詞表示為對(duì)應(yīng)的特征，達(dá)到降維的目的。特征數(shù)目隨迭代次數(shù)變化的過程如圖3所示。從圖中可見，特征數(shù)目穩(wěn)定在15左右，在迭代30次左右時(shí)達(dá)到穩(wěn)定。經(jīng)過特征提取后，特征值（接口中出現(xiàn)的不重復(fù)單詞數(shù)）由原本的847降到15。

　　2.2.2 聚類結(jié)果比較

　　聚類結(jié)果得到9個(gè)Cluster，分別與8個(gè)領(lǐng)域的對(duì)應(yīng)關(guān)系如表2所示。理想的聚類情況應(yīng)該得到8個(gè)Cluster，但是由于本文聚類方法并沒有事先指定聚類數(shù)目，所以存在較小的誤差。認(rèn)真觀察第九個(gè)Cluster可以發(fā)現(xiàn)，在其中的接口數(shù)很少，只占總接口數(shù)的2%，明顯少于前8個(gè)Cluster。考慮到本文方法的完全無監(jiān)督的特性，認(rèn)為該誤差在可以接受的范圍內(nèi)。

　　對(duì)上面的聚類結(jié)果應(yīng)用F-measure和熵值（Entropy）兩種指標(biāo)進(jìn)行檢驗(yàn)，并與其他使用相同數(shù)據(jù)集的方法進(jìn)行比較，比較結(jié)果如表3、表4所示（注：由于MDhac方法的原文中并沒有提供F-measure值，故表3中用“\”表示，同理對(duì)XU的Entropy值也用“\”表示）。

　　實(shí)驗(yàn)結(jié)果顯示，本文方法在F-measure上取得的聚類均值優(yōu)于FGC和XU兩種方法，原因在于本文實(shí)驗(yàn)結(jié)果在8個(gè)領(lǐng)域上的F-measure值較為平均，沒有小于0.8的情況。而在熵值這一評(píng)價(jià)指標(biāo)上，F(xiàn)GC方法效果最佳。本文方法在電影、汽車和書籍三個(gè)領(lǐng)域上的熵值最優(yōu)，但是由于在音樂和酒店兩個(gè)領(lǐng)域的熵值過大，而使得平均值不理想。結(jié)合表2分析可以看到，原本屬于酒店領(lǐng)域的接口比較容易被錯(cuò)誤分到機(jī)票領(lǐng)域，而音樂和電影領(lǐng)域也存在類似情況。同時(shí)，分析第九個(gè)Cluster可以看到，這個(gè)導(dǎo)致誤差的小聚類中，主要是來自音樂和電影類的接口，其原因主要在于酒店和機(jī)票領(lǐng)域，以及電影和音樂領(lǐng)域本來就存在一定的相似性。考慮其接口屬性，以酒店領(lǐng)域和機(jī)票領(lǐng)域?yàn)槔鼈兓旧隙紩?huì)包含日期、地點(diǎn)、價(jià)格等關(guān)鍵詞，在提取主題特征時(shí)容易將其視為同一特征。

3 結(jié)束語

　　Deep Web數(shù)據(jù)源分類是大規(guī)模Deep Web數(shù)據(jù)源集成的關(guān)鍵問題之一。結(jié)合Deep Web數(shù)據(jù)源分類問題自身的需求與Dirichlet過程的特點(diǎn)，本文提出了一種基于Dirichlet過程的Deep Web數(shù)據(jù)源聚類方法。實(shí)驗(yàn)表明，本文提出的方法可以有效實(shí)現(xiàn)Deep Web數(shù)據(jù)源聚類，并使整個(gè)聚類過程不需要人工干預(yù)，但是在聚類效果上，比如如何有效區(qū)分比較相似的領(lǐng)域，使得聚類結(jié)果更精確，還需要進(jìn)一步探究。

參考文獻(xiàn)

　　[1] BERGMAN M K. The deep web： surfacing hidden value[J]. The Journal of Electronic Publishing，2001，7（1）：8912-8914.

　　[2] 王成良，桑銀邦.Deep Web集成系統(tǒng)中同類主題數(shù)據(jù)源選擇方法[J].計(jì)算機(jī)應(yīng)用研究，2011，28（9）：3364-3367.

　　[3] EL-GAMIL B R， WINIWARTER W， BO?譕IC B， et al. Deep web integrated systems： current achievements and open issues[C]. Proceedings of the 13th International Conference on Information Integration and Web-based Applications and Services. ACM， 2011：447-450.

　　[4] NAYAK R， SENELLART P， SUCHANEK F M， et al. Discovering interesting information with advances in Web technology[J]. ACM SIGKDD Explorations Newsletter， 2013， 14（2）： 63-81.

　　[5] HE B， TAO T， CHANG K C C. Organizing structured web sources by query schemas： a clustering approach[C]. Proceedings of the Thirteenth ACM International Conference on Information and Knowledge Management，ACM，2004：22-31.

　　[6] BARBOSA L， FREIRE J， SILVA A. Organizing hidden-web databases by clustering visible web documents[C]. IEEE 23rd International Conference on Data Engineering. IEEE， 2007： 326-335.

　　[7] Zhao Pengpeng， Huang Li， Fang Wei， et al. Organizing structured deep web by clustering query interfaces link graph[M]. Berlin： Springer， 2008：683-690.

　　[8] Xu Guangyue， Zheng Weimin， Wu Haiping， et al. Combining topic models and string kernel for deep web categorization[C]. Fuzzy Systems and Knowledge Discovery （FSKD）， 2010 Seventh International Conference on. IEEE， 2010：2791-2795.

　　[9] ISHWARAN H， JAMES L F. Gibbs sampling methods for stick-breaking priors [J]. Journal of the American Statistical Association， 2001，96（453）：161-173.

　　[10] MORAES M C， HEUSER C A， MOREIRA V P， et al. Prequery discovery of domain-specific query forms： a survey[J]. Knowledge and Data Engineering， IEEE Transactions on， 2013，25（8）：1830-1848.

　　[11] 祝官文，王念濱，王紅濱.基于主題和表單屬性的深層網(wǎng)絡(luò)數(shù)據(jù)源分類方法[J].電子學(xué)報(bào)，2013，41（2）：260-266.

　　[12] TEH Y W， JORDAN M I， BEAL M J， et al. Hierarchical dirichlet processes [J]. Journal of the American Statistical Association， 2006，101（476）：1566-1581.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容