一種基于指令流水線的數(shù)據(jù)匹配算法
所屬分類(lèi):技術(shù)論文
上傳者:wwei
文檔大?。?span>3345 K
標(biāo)簽: 正則表達(dá)式匹配 指令流水 高性能數(shù)據(jù)匹配
所需積分:0分積分不夠怎么辦,?
文檔介紹:基于正則表達(dá)式的數(shù)據(jù)匹配技術(shù)在基礎(chǔ)數(shù)據(jù)治理和清洗方面有著重要的應(yīng)用價(jià)值。然而,在高性能計(jì)算領(lǐng)域的數(shù)據(jù)處理過(guò)程中因算法匹配吞吐率低,,無(wú)法滿(mǎn)足大數(shù)據(jù)處理環(huán)境下對(duì)算法的高性能要求,,造成其應(yīng)用范圍受限,。針對(duì)此現(xiàn)象,,提出一種基于指令流水線的數(shù)據(jù)匹配算法,稱(chēng)之為γFA:利用Intel架構(gòu)內(nèi)置的向量指令流水式讀入若干字符段,,通過(guò)大寬度向量比較函數(shù)進(jìn)行字符段與非信任字符集的流水比值處理并轉(zhuǎn)換成整型向量,,通過(guò)位置定位函數(shù)累加定位出所有整型向量的首個(gè)非信任字符位置,計(jì)算出可略過(guò)的總字符數(shù),,減少正則表達(dá)式匹配引擎因處理非信任字符集導(dǎo)致訪問(wèn)低速內(nèi)存而帶來(lái)巨大的時(shí)間開(kāi)銷(xiāo),,實(shí)現(xiàn)正則表達(dá)式匹配算法的性能提升。實(shí)驗(yàn)結(jié)果表明,γFA算法的吞吐率是原始DFA算法的15.88~53.06倍,,相比于ßFA算法,吞吐率提升了35.12%~63.26%,,取得較好的性能加速效果,。此外,通過(guò)對(duì)γFA算法進(jìn)行優(yōu)化后,,性能可接近100 Gb/s,,為原始DFA匹配算法性能的15.88~64.94倍,相比于γFA算法性能提升了2.15%~43.09%,。
現(xiàn)在下載
VIP會(huì)員,,AET專(zhuān)家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分,。