一種結(jié)合TF-IDF和Simhash的科技項目文本相似性度量方法 | |
所屬分類:技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>3591 K | |
標(biāo)簽: 科技項目文本 文本相似度 TF-IDF | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:為了提高科技項目文本相似性度量的準(zhǔn)確性和性能,,將TF-IDF和Simhash相結(jié)合,,提出了一種新的科技項目文本相似性度量方法。首先,,該方法對科技項目文本進(jìn)行預(yù)處理得到詞項集合,,再使用TF-IDF計算詞項集合中每個詞項的權(quán)重值,并選取具有較高權(quán)重值的重要詞項,;其次,,使用Simhash把重要詞項映射為固定長度的二進(jìn)制串,并求和得到文本的Simhash簽名,;最后,,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結(jié)果表明,,所提方法在查準(zhǔn)率,、召回率和F度量值方面優(yōu)于傳統(tǒng)的Simhash算法和TF-IDF方法。 | |
現(xiàn)在下載 | |
VIP會員,,AET專家下載不扣分,;重復(fù)下載不扣分,本人上傳資源不扣分,。 |
Copyright ? 2005-2024 華北計算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號-2