《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動(dòng)態(tài) > 一名博士生決定去淘寶掃“垃圾”

一名博士生決定去淘寶掃“垃圾”

2021-02-01
來源:雷鋒網(wǎng)
關(guān)鍵詞: AI 黑灰產(chǎn)群

  畢業(yè)于香港中文大學(xué)的博士生,你怎么也不會(huì)想到他會(huì)去掃”垃圾“吧,。

  不過,,此垃圾非彼垃圾,。而是網(wǎng)絡(luò)垃圾,。

  相信各位童鞋對(duì)此也并不陌生,。

  每個(gè)打工人上班摸魚的時(shí)候肯定都見過一些奇奇怪怪的文字——如”胃,?“,、”叩--裙“、”9え“,、”發(fā)嘌“,。

  圖片

  你以為這是追求個(gè)性,其實(shí)是黑灰產(chǎn)為了規(guī)避系統(tǒng)排查,,以便發(fā)送成千上萬條”垃圾信息“,。

  而清除這些垃圾就是這位博士生的工作。

  1

  博士生在淘寶掃”垃圾“

  故事的主人公名叫劉翔宇,,是一名來自阿里的安全工程師,,他的日常工作就是掃”垃圾“

  圖片

  那么,這些垃圾是哪里來的呢,?

  類似于現(xiàn)實(shí)生活中的”海王“,,他們廣撒網(wǎng),幾乎日日有不同花樣,,讓你甩都甩不掉,。

  網(wǎng)絡(luò)垃圾也同樣如此,他們每天都會(huì)騷擾平臺(tái)商家,,每天試圖向商家群發(fā)上百萬條垃圾信息,。

  據(jù)劉翔宇介紹,黑灰產(chǎn)通常掌控上千個(gè)賬號(hào),,并編寫程序,,利用機(jī)器海量給商家群發(fā)信息,,有一些刷單、欺詐信息等違法內(nèi)容,,更多的是營銷,、店鋪代運(yùn)營等各種招攬生意的廣告,像極了那些上門搗亂的人,。

  黑灰產(chǎn)團(tuán)伙通常會(huì)在很短的時(shí)間內(nèi)把大量的垃圾消息海量群發(fā)給商家,。他們嗡嗡不停,少則一天群發(fā)幾萬條信息,,多則一天上百萬條,,最瘋狂時(shí),一分鐘就能群發(fā)上萬條信息,。

  旺旺上線”戳一戳“的新功能后,有的黑灰產(chǎn)試圖編寫程序,,同時(shí)”戳一戳“上萬人,。被”亂戳“的主要是新商家,這樣的騷擾可能會(huì)讓初入淘寶大門的商家不勝其擾,。

  那么,,如何才能清理掉這些網(wǎng)路垃圾呢?

  這位博士生想到的辦法是利用 AI 來對(duì)抗,。

  2

  AI 上線,,一個(gè)頂倆

  所謂 AI 對(duì)抗就是根據(jù)算法進(jìn)行分層識(shí)別,在發(fā)現(xiàn)黑灰產(chǎn)群發(fā)的垃圾信息后,,系統(tǒng)可在一秒內(nèi)撤回信息,,實(shí)現(xiàn)凈化商家運(yùn)營環(huán)境的效果。

  當(dāng)然,,”垃圾清理人“面對(duì)的不是散兵游勇,,而是黑灰產(chǎn)的團(tuán)伙作戰(zhàn)。

  ”他們應(yīng)該是專業(yè)團(tuán)伙,,按照攻擊時(shí)間,,可以看出他們每天也有固定的上下班時(shí)間,不少人應(yīng)該是學(xué)計(jì)算機(jī)相關(guān)專業(yè)出身的,,甚至是像我們一樣做過安全防控的人,,這些人對(duì)安全防控非常了解,會(huì)用智能化手段對(duì)抗,,比如他們會(huì)發(fā)測(cè)試信息,,對(duì)我們的攔截做試探再做調(diào)整?!?/p>

  劉翔宇這樣介紹道,。

  更讓人頭疼的是,這些黑灰產(chǎn)并沒有規(guī)律可言,不知道他們什么時(shí)候忽然發(fā)動(dòng)攻擊,,每周少則幾次,,多則十幾次。

  尤其是”雙11“大促期間,,黑灰產(chǎn)非常瘋狂,,發(fā)出的垃圾信息量比平時(shí)多幾十倍。

  甚至,,黑灰產(chǎn)還會(huì)想辦法通過”變異“試圖突破安全防線,。

  所謂的”變異對(duì)抗“,就是黑灰產(chǎn)會(huì)試圖改變發(fā)送的垃圾消息內(nèi)容,,讓系統(tǒng)無法快速識(shí)別,。黑灰產(chǎn)故意把一些關(guān)鍵,用音近,、形近或語義相近的字詞代替,。在黑灰產(chǎn)黑話中,qq 群變成了”叩--裙“,,私人微信寫成”私入崴伈“,,發(fā)票可能成為”發(fā)嘌“。

  所以,,這就是大家有時(shí)候在上網(wǎng)沖浪的時(shí)候總會(huì)看到一些奇怪的字符的原因,。

  黑灰產(chǎn)在進(jìn)化,AI 能力也需要升級(jí),。

  于是,,針對(duì)黑灰產(chǎn)的”作案方式“,這名博士生和他的團(tuán)隊(duì)研究出一套新的解決辦法,。

  即利用神經(jīng)機(jī)器翻譯和多模態(tài)詞嵌入技術(shù),,增強(qiáng)垃圾文本內(nèi)容風(fēng)險(xiǎn)識(shí)別系統(tǒng)的性能。

  具體有什么作用呢,?

  首先,,來看下神經(jīng)機(jī)器翻譯技術(shù)。

  這項(xiàng)技術(shù)主要解決的問題是基于主動(dòng)生成的對(duì)抗平行語料,,利用神經(jīng)機(jī)器翻譯技術(shù),,構(gòu)建對(duì)抗糾錯(cuò)模型,可消除黑灰產(chǎn)發(fā)出的內(nèi)容對(duì)抗擾動(dòng),。

  也就是說,,這項(xiàng)技術(shù)可以實(shí)現(xiàn)對(duì)黑灰產(chǎn)的攔截。

  再來看下多模態(tài)詞嵌入技術(shù),。

  這項(xiàng)技術(shù)的主要功能是可以利用多模態(tài)詞嵌入技術(shù)提取垃圾文本的語義,、語音,、字形特征,并通過多模態(tài)融合機(jī)制有效地增強(qiáng)系統(tǒng)針對(duì)基于義近,、音近,、形近等文本變異的魯棒性,可進(jìn)一步提供系統(tǒng)識(shí)別準(zhǔn)確率,。

  也就是說,,這個(gè)技術(shù)的加入進(jìn)一步增強(qiáng)了 AI 識(shí)別錯(cuò)誤的能力。

  現(xiàn)在,,這位博士生打造的算法已能夠自行理解某個(gè)字和與它音形義近似的字的關(guān)聯(lián),,識(shí)別準(zhǔn)確率高于 98%,可有效新增識(shí)別變異違規(guī)文本內(nèi)容 50% 以上,。

  此外,,他還開發(fā)了”變異垃圾語言“翻譯功能,系統(tǒng)可以將”變異信息“翻譯回正常語句,。

  這波操作真的是讓人直呼 666,。

  值得注意的是,每天這位博士需要處理的賬號(hào)在上萬個(gè)以上,,處罰方式包括扣分,、禁言,、封號(hào)等,。

  當(dāng)然,如果商家依舊不堪其擾,,還是得去尋找警察蜀黎的幫助,,交給警察蜀黎處理。

  最后,,雷鋒網(wǎng)還是要提醒大家一句:千萬別因?yàn)橛X得投訴和舉報(bào)沒有用,,就放棄了維護(hù)自己的權(quán)益。

  在沒有良心的黑灰產(chǎn)面前,,如果你放棄追責(zé),,那就真的沒有人在乎你的權(quán)益了。

 

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。