開放的一天，吳恩達、谷歌、Facebook紛紛開源數(shù)據(jù)集-AET-電子技術(shù)應(yīng)用

開放的一天，吳恩達、谷歌、Facebook紛紛開源數(shù)據(jù)集

日期： 2019-01-24

關(guān)鍵詞： 計算機視覺自然語言處理 CV

從計算機視覺到自然語言處理，這幾天很多研究者都提出了新的數(shù)據(jù)集以期解決新的問題。吳恩達幾個小時前開源的「胸片」數(shù)據(jù)集希望借助 CV 輔助疾病診斷；Facebook 幾天前開源的「BISON」希望借助 CV 與 NLP 學習文字與圖像的內(nèi)在聯(lián)系；而幾個小時前谷歌更是開源了大型「自然問答」數(shù)據(jù)集，他們希望借助 NLP 學習人們谷歌問題并搜索答案的過程。

在這篇文章中，我們將介紹這幾天開源的三種數(shù)據(jù)集，它們與已有的通用數(shù)據(jù)集都不太一樣，且更關(guān)注精細化的任務(wù)。例如在谷歌開源的 QA 數(shù)據(jù)集中，它里面都是真實的搜索問題，答案也都是從維基百科查找的。這種大型的真實數(shù)據(jù)集更適合訓練一個不那么「低智商」的 QA 對話系統(tǒng)，也更符合成年人實際會問的一些問題。

其它如吳恩達等研究者開放的胸部影像數(shù)據(jù)集和 Facebook 開源的新型圖像描述數(shù)據(jù)集都很有特點，也許以后年年體檢的「胸片」就能使用 DL 輔助診斷了，也許文本內(nèi)容和圖像內(nèi)容以后就能相互轉(zhuǎn)換了。

谷歌提出自然問答數(shù)據(jù)集 Natural Questions（NQ）

開放性的問答任務(wù)一直是衡量自然語言理解的好標準，QA 系統(tǒng)一般能閱讀網(wǎng)頁并返回正確的答案。然而目前并沒有比較大的自然問答數(shù)據(jù)集，因為高質(zhì)量的自然問答數(shù)據(jù)集需要大量實際問題以及尋找正確答案的人力成本。為了解決這一問題，谷歌近日開放了一個大規(guī)模數(shù)據(jù)集 Natural Questions（NQ），它可以用來訓練并評估開放性問答系統(tǒng)，并且再現(xiàn)了人類尋找問題答案的端到端過程。

NQ 數(shù)據(jù)集非常大，包含 30 萬條自然發(fā)生的問題，以及對應(yīng)的回答標注，其中每一條回答都是由人工從維基百科頁面找到的。此外，這個自然問答數(shù)據(jù)集還包括 1.6 萬個特殊樣本，其中每一個樣本的答案都由 5 個不同的標注者標注，因此這種多樣性的回答更適合評估 QA 系統(tǒng)的效果。

因為回答 NQ 中的自然性問題比回答「小問題」有更高的要求，模型需要對提問有更深的理解，因此這樣的模型會更復雜，也會更貼近真實問答場景。所以谷歌在發(fā)布這個數(shù)據(jù)集的同時，還提出了一項挑戰(zhàn)賽，它希望挑戰(zhàn)賽能激勵研究者基于這個數(shù)據(jù)集做出更好的問答系統(tǒng)——更能理解自然語言的問答系統(tǒng)。

NQ 數(shù)據(jù)集的論文中展示了標注的過程與結(jié)果。簡而言之，谷歌的標注過程可以分為以下幾個步驟：向標注者呈現(xiàn)問題和維基百科頁面；標注者返回一個長回答與短回答。其中長回答（I）可以為維基百科頁面上的 HTML 邊界框，一般可以是一段話或一張表，它包含回答這些問題的答案。當然，如果沒有合適的答案或者答案太分散，標注者也可以返回 I=NULL。短回答（s）可以是 I 中的一個或一組實體，它們可回答問題。如下展示了數(shù)據(jù)集的樣本示例：

微信圖片_20190124200505.jpg

圖 1：數(shù)據(jù)集中的樣本標注。

論文：Natural Questions: a Benchmark for Question Answering Research

微信圖片_20190124200531.jpg

論文地址：https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

摘要：我們提出了 Natural Questions（NQ）語料庫，它是一種新型問答數(shù)據(jù)集。問題都是提交到谷歌搜索引擎的匿名搜索請求。標注者會收到一條問題以及對應(yīng)的維基百科頁面，該維基百科頁面通過問題的谷歌搜索結(jié)果（Top 5）確定。標注者會標注一個長回答（通常是段落）和一個短回答，其中如果頁面有明確答案，短回答是單個或多個實體，如果沒有答案，短回答和長回答標注為 NULL。

目前數(shù)據(jù)集包含 307373 對訓練樣本，它們有單個標注；7830 對開發(fā)或驗證樣本，它們有 5 種標注；還有 7842 對測試樣本，它們也有 5 種標注。我們還提出了驗證數(shù)據(jù)質(zhì)量的實驗，并分析了 302 個樣本的 25 種標注，從而充分了解標注任務(wù)中的人工差異。為了評估問答系統(tǒng)，我們提出了魯棒性的度量方法，并表示這些指標有非常高的人類上邊界；我們同樣使用相關(guān)文獻中的競爭性方法建立了基線結(jié)果。

吳恩達提出胸部放射影像數(shù)據(jù)集 CheXpert

胸部放射影像是全球最常見的影像檢查，對很多威脅終身的疾病的篩查、診斷和治療至關(guān)重要。在本文中，作者介紹了一種用于解釋胸部放射影像的大型數(shù)據(jù)集——CheXpert (Chest eXpert)。該數(shù)據(jù)集包含來自 65,240 個病人的 224,316 張胸部放射影像，這些影像中標注了 14 種常見的胸部放射影像觀察結(jié)果。作者設(shè)計了一個標注工具（labeler），它能夠從放射報告文本中提取觀察結(jié)果并使用不確定性標簽捕捉報告中存在的不確定性。

微信圖片_20190124200550.jpg

圖 1：CheXpert 任務(wù)旨在根據(jù)多視角胸部放射影像預測不同觀察結(jié)果的概率。

CheXpert 任務(wù)要根據(jù)多視角胸部放射影像（見圖 1）來預測 14 種不同觀察結(jié)果的概率。作者尤其關(guān)注數(shù)據(jù)集中的不確定性標簽，并研究了結(jié)合這些不確定性標簽來訓練模型的不同方法。然后在包含 200 項標記的驗證集上評估了這些不確定性方法的性能，這些標注真值由 3 位放射科醫(yī)生一致確定，他們用放射影像注釋了該驗證集。作者根據(jù)病理的臨床意義和在數(shù)據(jù)集中的流行程度，在 5 個選定的觀察結(jié)果上評估其方法，發(fā)現(xiàn)不同的不確定性方法能夠用于不同的觀察結(jié)果。

微信圖片_20190124200610.jpg

表 1：CheXpert 數(shù)據(jù)集包含 14 個標記的觀察結(jié)果。作者報告了訓練集中包含這些觀察結(jié)果的研究數(shù)量。

論文：CheXpert: A Large Chest Radiograph Dataset with Uncertainty Labels and Expert Comparison

微信圖片_20190124200632.jpg

論文地址：https://arxiv.org/abs/1901.07031v1

摘要：大型的標記數(shù)據(jù)集使得深度學習方法在諸多醫(yī)療影像任務(wù)上獲得了專家級的表現(xiàn)。我們要展示的 CheXpert 是一個大型數(shù)據(jù)集，它包含來自 65,240 個病人的 224,316 張胸部放射影像。我們設(shè)計了一個標注工具（labeler）來自動檢測影像報告中的 14 種觀察結(jié)果，并捕捉影像解釋中固有的不確定性。我們研究了使用不確定性標簽訓練卷積神經(jīng)網(wǎng)絡(luò)的不同方法，該網(wǎng)絡(luò)在給定可用正面和側(cè)面放射影像的情況下輸出這些觀察結(jié)果的概率。在一個包含 200 項胸部放射影像研究的驗證集上，我們發(fā)現(xiàn)不同的不確定性方法可以用于不同的病理，這些研究由 3 位經(jīng)過認證的放射科醫(yī)生手工注釋。然后，我們在包含 500 項胸部放射影像研究（這些研究由 5 位經(jīng)過認證的放射科醫(yī)生一致注釋）的測試集上評估我們的最佳模型，并將模型的表現(xiàn)與另外 3 位放射科醫(yī)生檢測 5 種選定病理的表現(xiàn)進行比較。對于心臟肥大、水腫和胸腔積液三種疾病，ROC 和 PR 模型曲線位于所有 3 個放射科醫(yī)師操作點之上。我們將該數(shù)據(jù)集作為評估胸部放射影像解釋模型性能的標準基準公開發(fā)布。

該數(shù)據(jù)集可從以下地址免費獲取：

https://stanfordmlgroup.github.io/competitions/chexpert

Facebook 提出新型視覺定位數(shù)據(jù)集 BISON

微信圖片_20190124200650.jpg

為系統(tǒng)提供關(guān)聯(lián)語言內(nèi)容和視覺內(nèi)容的能力是計算機視覺領(lǐng)域的一大成就。圖像描述生成和檢索等任務(wù)旨在測試這種能力，但是復雜的評估指標也同時帶來了一些其它能力和偏差。Facebook 近日發(fā)表論文，介紹了一種替代性視覺定位系統(tǒng)評估任務(wù) Binary Image SelectiON (BISON) ：給出圖像描述，讓系統(tǒng)從一對語義相似的圖像中選擇與圖像描述最匹配的圖。系統(tǒng)在 BISON 任務(wù)上的準確率不僅可解釋，還能夠衡量系統(tǒng)關(guān)聯(lián)圖像描述中精細文本內(nèi)容與圖像中視覺內(nèi)容的能力。Facebook 研究者收集了 BISON 數(shù)據(jù)集，它補充了 COCO Captions 數(shù)據(jù)集。研究者還使用 BISON 數(shù)據(jù)集對圖像描述生成和基于描述的圖像檢索系統(tǒng)進行輔助評估。圖像描述生成的度量指標表明視覺定位系統(tǒng)已經(jīng)優(yōu)于人類，但 BISON 表明這些系統(tǒng)與人類表現(xiàn)還有距離。

微信圖片_20190124200711.jpg

圖 2：COCO-BISON 數(shù)據(jù)集收集過程圖示：研究者使用 COCO captions 數(shù)據(jù)集進行 BISON 數(shù)據(jù)集收集工作。首先利用描述相似度尋找相似圖像，然后標注者選擇對圖像對中其中一個圖像的描述，最后研究者讓多個標注者分別基于描述選擇正確的圖像，從而驗證標注的準確性。

該研究由美國南加州大學博士 Hexiang Hu 和 Facebook 研究者合作完成。目前已開源了驗證數(shù)據(jù)和評估代碼。

驗證數(shù)據(jù)：https://raw.githubusercontent.com/facebookresearch/binary-image-selection/master/annotations/bison_annotations.cocoval2014.json

評估代碼：https://github.com/facebookresearch/binary-image-selection

論文地址：https://arxiv.org/abs/1901.06595

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

開放的一天，吳恩達、谷歌、Facebook紛紛開源數(shù)據(jù)集

日期： 2019-01-24

相關(guān)內(nèi)容