一種面向科技項(xiàng)目文本的相似度度量方法 | |
所屬分類:技術(shù)論文 | |
上傳者:aetmagazine | |
文檔大小:503 K | |
標(biāo)簽: 文本相似度 TF-IDF 文本聚類 | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹:現(xiàn)有的文本相似度度量方法主要采用TF-IDF方法,,把文本建模為詞頻向量,但未考慮文本的結(jié)構(gòu)特征?,F(xiàn)將文本的結(jié)構(gòu)特征和TF-IDF方法進(jìn)行融合,,提出了一種面向科技項(xiàng)目文本的相似度度量方法。該方法首先對文本進(jìn)行預(yù)處理,,其次根據(jù)文本的結(jié)構(gòu)特征提取模塊文本,,然后使用TF-IDF方法提取每個模塊文本的TOP-N關(guān)鍵詞, 作為模塊文本的特征向量表示,,最后使用余弦聚類計算文本的相似度,。實(shí)驗(yàn)結(jié)果表明,在電力行業(yè)的科技項(xiàng)目文檔數(shù)據(jù)集上,,所提方法優(yōu)于TF-IDF方法,。 | |
現(xiàn)在下載 | |
VIP會員,AET專家下載不扣分,;重復(fù)下載不扣分,,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2