一種結(jié)合TF-IDF和Simhash的科技項目文本相似性度量方法
所屬分類:技術(shù)論文
上傳者:zhoubin333
文檔大?。?span>3591 K
標(biāo)簽: 科技項目文本 文本相似度 TF-IDF
所需積分:0分積分不夠怎么辦?
文檔介紹:為了提高科技項目文本相似性度量的準(zhǔn)確性和性能,,將TF-IDF和Simhash相結(jié)合,,提出了一種新的科技項目文本相似性度量方法。首先,,該方法對科技項目文本進(jìn)行預(yù)處理得到詞項集合,,再使用TF-IDF計算詞項集合中每個詞項的權(quán)重值,并選取具有較高權(quán)重值的重要詞項,;其次,,使用Simhash把重要詞項映射為固定長度的二進(jìn)制串,并求和得到文本的Simhash簽名,;最后,,使用漢明距離計算兩個Simhash簽名間的相似性。實驗結(jié)果表明,,所提方法在查準(zhǔn)率,、召回率和F度量值方面優(yōu)于傳統(tǒng)的Simhash算法和TF-IDF方法。
現(xiàn)在下載
VIP會員,,AET專家下載不扣分,;重復(fù)下載不扣分,本人上傳資源不扣分,。