維基百科可能是我們認(rèn)為比較客觀真實(shí)的材料了,,但它包羅萬象卻又會(huì)引起一些小問題,,例如很多句子或說法提供不了引用出處,。那么機(jī)器學(xué)習(xí)在預(yù)測引用,,并給出引用原因方面就顯得非常重要,,它會(huì)讓這一自由的百科全書更加完美無瑕。
讓維基百科保持高質(zhì)量的一個(gè)關(guān)鍵機(jī)制就是內(nèi)聯(lián)引用的使用,。通過引用,,讀者和編輯者可以確定一篇文章中的信息準(zhǔn)確反映了其來源。正如維基百科的可驗(yàn)證性原則所要求的,,「受到質(zhì)疑的材料,,或者很可能受到質(zhì)疑的材料,以及所有的引文,,都要具有可靠的,、已發(fā)布的來源」,沒有來源的材料應(yīng)該被刪除,,或者使用「需要引用」的標(biāo)記來提出質(zhì)疑,。
然而,決定哪些句子需要引用可能不是一項(xiàng)簡單的任務(wù),。一方面,,編輯者被強(qiáng)烈要求避免為很明顯的或者常識(shí)性的信息添加引用——例如「天空是藍(lán)色的」。另一方面,,有時(shí)候天空并不一定是藍(lán)色的——所以或許我們還是需要一個(gè)引用,?
將這個(gè)問題擴(kuò)大到整個(gè)百科全書的規(guī)模可能會(huì)變得難以應(yīng)付,。維基百科編輯者的專業(yè)知識(shí)很有價(jià)值,,但他們的時(shí)間卻是有限的,那么他們的引用工作應(yīng)該集中在哪些類型的事實(shí),、文章和主題上呢,?此外,最近的統(tǒng)計(jì)表明,,相當(dāng)一部分比例的文章只有很少的參考文獻(xiàn),,英文維基百科中四分之一的文章根本就沒有任何參考文獻(xiàn)。這意味著,,有大約 35 萬篇文章包含一個(gè)或多個(gè)需要添加引用的標(biāo)記,,而且我們可能遺漏了更多。
我們最近設(shè)計(jì)了一個(gè)框架,,幫助編輯者在維基百科中識(shí)別哪些句子需要引用,,并且確定需要引用的優(yōu)先順序。通過針對英語,、意大利語和法語維基百科的編輯者們開展的一項(xiàng)大型研究,,我們首先確定了維基百科文章中單個(gè)句子需要引用的共同原因。然后我們使用這項(xiàng)研究的結(jié)果來訓(xùn)練一個(gè)機(jī)器學(xué)習(xí)模型分類器,,它能夠預(yù)測英語維基百科中任何一個(gè)給定的句子是否需要一個(gè)引用,,以及為何需要引用。這個(gè)模型將在 3 個(gè)月內(nèi)部署到其他語言的版本中,。
通過識(shí)別維基百科獲取信息的位置,,我們能開發(fā)系統(tǒng),以支持志愿者驅(qū)動(dòng)的驗(yàn)證和事實(shí)檢查,,從而有可能提升維基百科的長期可靠性,,抵御信息偏差、信息質(zhì)量的差距以及虛假宣傳,。
我們?yōu)楹我茫?/p>
為了教會(huì)機(jī)器如何識(shí)別不經(jīng)驗(yàn)證的陳述,,我們首先要將句子需要引用的原因進(jìn)行系統(tǒng)的分類。
我們首先檢查了與英語,、意大利語和法語維基百科中與可驗(yàn)證性相關(guān)的政策和指南,,并嘗試特征化這些政策中的標(biāo)準(zhǔn),即是否添加引用的標(biāo)準(zhǔn)。為了驗(yàn)證和豐富實(shí)踐的集合,,我們要求來自于這三個(gè)語言社區(qū)的 36 名維基百科編輯者參與試點(diǎn)實(shí)驗(yàn),。我們使用 WikiLabels 收集了編輯者們對維基百科文章中句子的反饋:編輯者要決定一個(gè)句子是否需要引用,并且以自由形式的文本給出他們的理由,。
我們的方法,,以及最終關(guān)于是否需要添加引用的理由可以在項(xiàng)目網(wǎng)頁中看到:
地址:https://meta.wikimedia.org/wiki/Research_talk:Identification_of_Unsourced_Statements/Labeling_Pilot
添加引用的理由
不添加引用的理由
教機(jī)器學(xué)習(xí)引用
接下來,我們訓(xùn)練機(jī)器學(xué)習(xí)模型來發(fā)現(xiàn)需要引用的句子,,并提供對應(yīng)的理由,。
我們首先訓(xùn)練一個(gè)模型,從整個(gè)編輯者社區(qū)中學(xué)習(xí)如何識(shí)別需要引用的句子,。我們創(chuàng)建了一個(gè)英語維基百科的「精選文章」數(shù)據(jù)集,,這是一個(gè)高質(zhì)量的文章選集,每一篇都引用了很多文章,。精選文章中包含內(nèi)聯(lián)引用的句子被標(biāo)記為正例,,沒有內(nèi)聯(lián)引用的句子被標(biāo)記為負(fù)例。使用這些數(shù)據(jù),,我們基于句子中的詞序列訓(xùn)練了一個(gè) RNN 分類模型,,它能夠預(yù)測一個(gè)句子為正例(需要引用)還是負(fù)例(不需要引用)。最終模型對正例的分類準(zhǔn)確率高達(dá) 90%,。
解釋算法預(yù)測
那么為什么模型具有高達(dá) 90% 的準(zhǔn)確率呢,?在決定句子是否需要引用的時(shí)候,算法是什么樣子的呢,?
為了解釋這些結(jié)果,,我們對需要引用的句子進(jìn)行了采樣,并且將模型考慮最多的單詞進(jìn)行了高亮標(biāo)注,。例如,,在陳述「opinion」的例子中,模型將最高的權(quán)重給了「claimed,,宣稱」一詞,。在「statistics,統(tǒng)計(jì)」這項(xiàng)引用原因中,,對模型最重要的單詞是分析數(shù)值時(shí)最常用的動(dòng)詞,。在「scientific,科學(xué)」引用原因的例子中,,模型將更多的注意力給了領(lǐng)域?qū)S玫膯卧~,,例如「quantum,量子」,。
模型認(rèn)為需要引用的句子樣本,,關(guān)鍵單詞高亮標(biāo)注,。
預(yù)測句子引用的原因
更進(jìn)一步,我們希望模型提供引用原因的完整解釋,。我們首先使用 Amazon Mechanical Turk 設(shè)計(jì)了一個(gè)眾包實(shí)驗(yàn),,用來收集引用的理由,并將其作為標(biāo)注,。我們從精選文章中隨機(jī)抽取了 4000 個(gè)句子,,讓眾包工作人員使用我們在之前的研究中識(shí)別出的八個(gè)原因進(jìn)行標(biāo)注。我們發(fā)現(xiàn),,當(dāng)句子與科學(xué)或歷史事實(shí)相關(guān),或者是直接,、間接引語時(shí),,我們需要提供引用。
我們修改了在之前的研究中所用的神經(jīng)網(wǎng)絡(luò),,以便能夠?qū)o源的句子分類為 8 個(gè)引用原因類別中的一個(gè),。我們使用眾包標(biāo)記的數(shù)據(jù)集重新訓(xùn)練了這個(gè)網(wǎng)絡(luò),發(fā)現(xiàn)它在預(yù)測引用原因的時(shí)候達(dá)到了合理的準(zhǔn)確率(精度 0.62),,尤其是對于具有大量訓(xùn)練數(shù)據(jù)的類別,。
后續(xù)步驟:預(yù)測跨語言和主題的「引用需要」
這個(gè)項(xiàng)目的下一個(gè)階段將會(huì)涉及到修改我們的模型,以讓它們能夠?yàn)榫S基百科上的任何一種可用的語言進(jìn)行訓(xùn)練,。我們將會(huì)使用這些跨語言模型來量化維基百科不同版本中未經(jīng)驗(yàn)證的內(nèi)容的比例,,并將引文的覆蓋范圍映射到不同的文章主題,以幫助編輯者識(shí)別那些非常需要添加高質(zhì)量引用的地方,。
我們計(jì)劃盡快提供這些新模型的源代碼,。同時(shí),您可以查看我們的研究論文「Citation Needed: A Taxonomy and Algorithmic Assessment of Wikipedia's Verifiability」,,這篇論文最近被 The Web Conference 2019 接收,,它的補(bǔ)充材料詳細(xì)分析了引用政策以及我們用于模型訓(xùn)練的所有數(shù)據(jù)。