阿里達(dá)摩院斬獲NLP領(lǐng)域6大榜單冠軍，AI機(jī)器語(yǔ)言甚至超越人類？-AET-電子技術(shù)應(yīng)用

阿里達(dá)摩院斬獲NLP領(lǐng)域6大榜單冠軍，AI機(jī)器語(yǔ)言甚至超越人類？

日期： 2020-08-27

來(lái)源：與非網(wǎng)

關(guān)鍵詞： 阿里巴巴達(dá)摩院 NLP AI技術(shù)

與非網(wǎng) 8 月 27 日訊，昨日，阿里達(dá)摩院語(yǔ)言技術(shù)實(shí)驗(yàn)室取得一系列突破，斬獲自然語(yǔ)言處理（NLP）領(lǐng)域 6 大權(quán)威技術(shù)榜單冠軍。

據(jù)介紹，參與競(jìng)賽的 6 項(xiàng)自研 AI 技術(shù)均采用模仿人類的學(xué)習(xí)模式，全方位提升了機(jī)器的語(yǔ)言理解能力，部分能力甚至已超越人類。目前，這些技術(shù)均已大規(guī)模應(yīng)用于閱讀理解、機(jī)器翻譯、人機(jī)交互等場(chǎng)景。

據(jù)悉，過(guò)去幾年，AI 在圖像識(shí)別、語(yǔ)音識(shí)別等方面已逐步超越人類水平，但在復(fù)雜文本語(yǔ)義的理解上，AI 與人類尚有差距，其主要原因就是傳統(tǒng) AI 學(xué)習(xí)文本知識(shí)效率較低。

為此，業(yè)界提出了一種模仿人類的學(xué)習(xí)思路，即先讓 AI 在大規(guī)模的網(wǎng)頁(yè)和書籍文字中進(jìn)行訓(xùn)練，學(xué)習(xí)基本的詞法、語(yǔ)法和語(yǔ)義知識(shí)，然后再在固定領(lǐng)域內(nèi)的文本上進(jìn)行訓(xùn)練，學(xué)習(xí)領(lǐng)域?qū)Ｓ兄R(shí)。

這一思想就是預(yù)訓(xùn)練語(yǔ)言模型的核心創(chuàng)新。自 Google 提出模仿人類注意力機(jī)制的 BERT 模型以來(lái)，預(yù)訓(xùn)練語(yǔ)言模型已成為 NLP 領(lǐng)域的熱點(diǎn)研究方向。

達(dá)摩院早在 2018 年就開(kāi)始布局通用的預(yù)訓(xùn)練語(yǔ)言模型，并逐漸將該思路拓展到了多語(yǔ)言、多模態(tài)、結(jié)構(gòu)化和篇章文本理解和文本生成領(lǐng)域，如今已建立一套系統(tǒng)化的深度語(yǔ)言模型體系，其自研通用語(yǔ)言模型 StructBERT、多語(yǔ)言模型 VECO、多模態(tài)語(yǔ)言模型 StructVBERT、生成式語(yǔ)言模型 PALM 等 6 大自研模型分別刷新了世界紀(jì)錄。

其中，StructBERT 能讓機(jī)器更好地掌握人類語(yǔ)法，使機(jī)器在面對(duì)語(yǔ)序錯(cuò)亂或不符合語(yǔ)法習(xí)慣的詞句時(shí)，仍能準(zhǔn)確理解并給出正確的表達(dá)和回應(yīng)，大大提高機(jī)器對(duì)詞語(yǔ)、句子以及語(yǔ)言整體的理解力。該模型以平均分 90.6 分在自然語(yǔ)言處理領(lǐng)域權(quán)威數(shù)據(jù)集 GLUE Benchmark 中位居第一，顯著超越人類水平（87.1 分）。

達(dá)摩院語(yǔ)言技術(shù)實(shí)驗(yàn)室團(tuán)隊(duì)表示：“實(shí)驗(yàn)室的目標(biāo)是讓 AI 掌握人類知識(shí)的基礎(chǔ)技術(shù)，預(yù)訓(xùn)練語(yǔ)言模型的誕生使得 AI 像人一樣學(xué)習(xí)新知識(shí)成為可能，未來(lái)達(dá)摩院會(huì)全面對(duì)外開(kāi)放這些技術(shù)，讓特定領(lǐng)域的 AI 變得更加智能。”

過(guò)去兩年，阿里獲得了 30 多項(xiàng) NLP 領(lǐng)域頂級(jí)賽事世界冠軍，有 100 多篇相關(guān)頂會(huì)論文；阿里自然語(yǔ)言技術(shù)已在金融、新零售、通訊、互聯(lián)網(wǎng)、醫(yī)療、電力、客服等領(lǐng)域服務(wù)超十億用戶和數(shù)萬(wàn)企業(yè)客戶。

疫情發(fā)生后，達(dá)摩院算法專家顧斐博士立即奔赴浙江省疾控中心，第一時(shí)間針對(duì)新型冠狀病毒基因進(jìn)行特征分析，并推出多個(gè)算法模型。在序列比對(duì)過(guò)程中，達(dá)摩院對(duì)算法增加了分布式設(shè)計(jì)，有效提升比對(duì)效率；在病毒序列拼接階段使用分布式設(shè)計(jì)的 deBruijn 圖算法，變異病毒也能精準(zhǔn)檢測(cè)。

另有報(bào)道，近日，為支持防汛，阿里巴巴達(dá)摩院 1 周內(nèi)緊急升級(jí)遙感 AI 技術(shù)，開(kāi)發(fā)出應(yīng)用于防汛的水體識(shí)別算法，支持水利部相關(guān)監(jiān)測(cè)與分析工作。在重點(diǎn)超警戒水位地區(qū)，處理影像數(shù)量比平時(shí)提升 5 倍，影像分析速度提升百倍。

過(guò)去，一條主干流的人工識(shí)別需要長(zhǎng)達(dá)數(shù)月，不利于快速評(píng)估災(zāi)情。通過(guò)達(dá)摩院遙感 AI 分析，可以將時(shí)長(zhǎng)縮短到小時(shí)級(jí)，支持專家迅速判斷災(zāi)害程度、劃定安全范圍并組織有序撤離。據(jù)悉，7 月以來(lái)，達(dá)摩院遙感 AI 已協(xié)助相關(guān)部門完成 262 個(gè)臨河房屋識(shí)別任務(wù)、149 個(gè)水體識(shí)別任務(wù)。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

阿里達(dá)摩院斬獲NLP領(lǐng)域6大榜單冠軍，AI機(jī)器語(yǔ)言甚至超越人類？

日期： 2020-08-27

來(lái)源：與非網(wǎng)

相關(guān)內(nèi)容