文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.191257
中文引用格式: 肖晗,毛雪松,,朱澤德. 基于HybridDL模型的文本相似度檢測方法[J].電子技術(shù)應(yīng)用,,2020,46(6):28-31,,35.
英文引用格式: Xiao Han,,Mao Xuesong,Zhu Zede. Text similarity detection method based on HybridDL model[J]. Application of Electronic Technique,,2020,,46(6):28-31,35.
0 引言
在當(dāng)下這個(gè)信息時(shí)代,互聯(lián)網(wǎng)已經(jīng)成為人們生活中不可或缺的一部分,,在機(jī)器計(jì)算能力大幅度提高的同時(shí),,獲得的數(shù)據(jù)也呈爆炸式增長。文本數(shù)據(jù)作為數(shù)據(jù)中的重要組成部分,,量大且關(guān)鍵,。因此,從大量的文本數(shù)據(jù)中高效地提取出滿足人們需要的信息成為了當(dāng)下的熱門話題,。在自然語言處理領(lǐng)域,,通過計(jì)算機(jī)處理文本數(shù)據(jù)時(shí),由于語言的多樣性,,相同的詞語在不同的句子或者語境中表達(dá)出來的意思可能會存在差異,,導(dǎo)致計(jì)算機(jī)無法直接并準(zhǔn)確地獲取文本特征[1]。所以,,如何從語料中學(xué)習(xí)到好的文本表示,,如何提升文本表示模型的性能,,對于后續(xù)自然語言處理的相關(guān)研究,如機(jī)器翻譯,、文本分類[2],、情感分析[3]、問答系統(tǒng),、文本檢索等,,具有十分深遠(yuǎn)的意義。
建立文本表示模型包括對詞,、主題,、語句、文檔等各個(gè)級別任務(wù)進(jìn)行建模,。對于詞級別的文本表示模型,,通常使用被稱作詞向量的數(shù)學(xué)表示方法來處理。詞向量顧名思義是一種通過向量來表示句子中詞語的方法,,向量中的每一維都在實(shí)數(shù)范圍內(nèi)進(jìn)行取值操作[4],。
詞向量最早由BENGIO Y、DUCHARME R,、VINCENT P等人提出[5],,其傳統(tǒng)做法是One-hot表示方法,即將不同詞用相對應(yīng)的維度很高的向量來表示,,其中,,向量的維度對應(yīng)字典大小,在各個(gè)詞的向量中只存在一個(gè)位置為1,,其余位置為0,。該表示模型十分簡潔,便于理解,,但是由于數(shù)據(jù)稀疏會造成維數(shù)災(zāi)難,,并且該模型沒有考慮詞與詞之間的關(guān)聯(lián)性,準(zhǔn)確度不高,。
近年來,,被稱作詞的分布式表示的向量表示得到了較為廣泛的應(yīng)用,理論思路是通過訓(xùn)練,,將句子中的各詞語映射到N維向量空間中,。該方法在One-hot的基礎(chǔ)上,聯(lián)系了前后文的語義信息,,使語義相近詞語所映射得到的詞向量比較接近,,而One-hot法得到的是毫無關(guān)聯(lián)的詞向量。即可以通過詞與詞在空間中的距離計(jì)算詞與詞在語義上的相關(guān)性,,距離越小則語義越相關(guān),,距離越大則越無關(guān),。2013年,MIKOLOV T等人提出利用神經(jīng)網(wǎng)絡(luò)模型來訓(xùn)練分布式詞向量[6],,所得到的模型被稱作Word2Vec,,該模型可以通過前后文的詞匯預(yù)測中心詞或者通過中心詞來預(yù)測前后文的詞匯。它相當(dāng)于一個(gè)里程碑,,現(xiàn)在也被廣泛使用,。Doc2Vec是Word2Vec的擴(kuò)展,于2014年由MIKOLOV T等人提出[7],,同樣用于學(xué)習(xí)文檔表示,。該模型在構(gòu)建的過程中,在獲取上下文單詞信息的同時(shí),,增加了一個(gè)段落標(biāo)記,,能夠更精確地表示原始文本。但是在實(shí)際應(yīng)用中Doc2Vec需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能有較好的效果,,當(dāng)數(shù)據(jù)量不足時(shí),,提取信息不充分,結(jié)果產(chǎn)生的偶然性較大,。
主題模型由于可以發(fā)掘深層次的語義信息,,因此在構(gòu)建文本表示模型時(shí)也可以達(dá)到較好的效果。2003年BLEI D M,、JORDAN M I等人提出了潛在狄利克雷分布[8],首次將狄利克雷先驗(yàn)分布加入到文檔,、主題,、詞的多項(xiàng)式分布中,效果顯著,。LDA是一種從大量文檔中發(fā)現(xiàn)潛在主題的概率主題模型,,它從文本的統(tǒng)計(jì)學(xué)特性入手,將文本語料庫映射到各個(gè)主題空間中,,從而發(fā)掘文本中各主題與詞語之間的對應(yīng)關(guān)系,,得到文本的主題分布[9]。它通常被認(rèn)為是一種通過對不同主題中的單詞進(jìn)行分組的特征約簡方法,,因此可以將文檔映射到更低的維度空間,。但LDA沒有考慮詞語的前后文關(guān)聯(lián),構(gòu)建出的文本向量比較稀疏,,在表示原始文本的信息方面效果一般,。
本文嘗試將LDA和Doc2Vec進(jìn)行融合。LDA從每個(gè)文檔到所有主題的全局關(guān)系建模,,而Doc2Vec則通過從目標(biāo)單詞的上下文中學(xué)習(xí)來捕獲這些關(guān)系,。發(fā)揮這兩種模型各自的優(yōu)點(diǎn),,從而產(chǎn)生比傳統(tǒng)模型更高的準(zhǔn)確率判斷。
論文詳細(xì)內(nèi)容請下載http://forexkbc.com/resource/share/2000002836
作者信息:
肖 晗1,,毛雪松1,,朱澤德2
(1.武漢科技大學(xué) 信息科學(xué)與工程學(xué)院,湖北 武漢430081,;
2.中科院合肥技術(shù)創(chuàng)新工程院,,安徽 合肥230031)