與非網(wǎng) 8 月 27 日訊,,昨日,阿里達(dá)摩院語言技術(shù)實(shí)驗室取得一系列突破,斬獲自然語言處理(NLP)領(lǐng)域 6 大權(quán)威技術(shù)榜單冠軍,。
據(jù)介紹,參與競賽的 6 項自研 AI 技術(shù)均采用模仿人類的學(xué)習(xí)模式,,全方位提升了機(jī)器的語言理解能力,,部分能力甚至已超越人類。目前,,這些技術(shù)均已大規(guī)模應(yīng)用于閱讀理解,、機(jī)器翻譯、人機(jī)交互等場景,。
據(jù)悉,,過去幾年,AI 在圖像識別,、語音識別等方面已逐步超越人類水平,,但在復(fù)雜文本語義的理解上,AI 與人類尚有差距,,其主要原因就是傳統(tǒng) AI 學(xué)習(xí)文本知識效率較低,。
為此,業(yè)界提出了一種模仿人類的學(xué)習(xí)思路,,即先讓 AI 在大規(guī)模的網(wǎng)頁和書籍文字中進(jìn)行訓(xùn)練,,學(xué)習(xí)基本的詞法、語法和語義知識,,然后再在固定領(lǐng)域內(nèi)的文本上進(jìn)行訓(xùn)練,,學(xué)習(xí)領(lǐng)域?qū)S兄R。
這一思想就是預(yù)訓(xùn)練語言模型的核心創(chuàng)新,。自 Google 提出模仿人類注意力機(jī)制的 BERT 模型以來,,預(yù)訓(xùn)練語言模型已成為 NLP 領(lǐng)域的熱點(diǎn)研究方向。
達(dá)摩院早在 2018 年就開始布局通用的預(yù)訓(xùn)練語言模型,,并逐漸將該思路拓展到了多語言,、多模態(tài)、結(jié)構(gòu)化和篇章文本理解和文本生成領(lǐng)域,,如今已建立一套系統(tǒng)化的深度語言模型體系,,其自研通用語言模型 StructBERT、多語言模型 VECO,、多模態(tài)語言模型 StructVBERT,、生成式語言模型 PALM 等 6 大自研模型分別刷新了世界紀(jì)錄。
其中,,StructBERT 能讓機(jī)器更好地掌握人類語法,,使機(jī)器在面對語序錯亂或不符合語法習(xí)慣的詞句時,,仍能準(zhǔn)確理解并給出正確的表達(dá)和回應(yīng),大大提高機(jī)器對詞語,、句子以及語言整體的理解力,。該模型以平均分 90.6 分在自然語言處理領(lǐng)域權(quán)威數(shù)據(jù)集 GLUE Benchmark 中位居第一,顯著超越人類水平(87.1 分),。
達(dá)摩院語言技術(shù)實(shí)驗室團(tuán)隊表示:“實(shí)驗室的目標(biāo)是讓 AI 掌握人類知識的基礎(chǔ)技術(shù),,預(yù)訓(xùn)練語言模型的誕生使得 AI 像人一樣學(xué)習(xí)新知識成為可能,未來達(dá)摩院會全面對外開放這些技術(shù),,讓特定領(lǐng)域的 AI 變得更加智能,。”
過去兩年,,阿里獲得了 30 多項 NLP 領(lǐng)域頂級賽事世界冠軍,,有 100 多篇相關(guān)頂會論文;阿里自然語言技術(shù)已在金融,、新零售,、通訊、互聯(lián)網(wǎng),、醫(yī)療,、電力、客服等領(lǐng)域服務(wù)超十億用戶和數(shù)萬企業(yè)客戶,。
疫情發(fā)生后,,達(dá)摩院算法專家顧斐博士立即奔赴浙江省疾控中心,第一時間針對新型冠狀病毒基因進(jìn)行特征分析,,并推出多個算法模型,。在序列比對過程中,達(dá)摩院對算法增加了分布式設(shè)計,,有效提升比對效率,;在病毒序列拼接階段使用分布式設(shè)計的 deBruijn 圖算法,變異病毒也能精準(zhǔn)檢測,。
另有報道,,近日,為支持防汛,,阿里巴巴達(dá)摩院 1 周內(nèi)緊急升級遙感 AI 技術(shù),,開發(fā)出應(yīng)用于防汛的水體識別算法,支持水利部相關(guān)監(jiān)測與分析工作,。在重點(diǎn)超警戒水位地區(qū),,處理影像數(shù)量比平時提升 5 倍,影像分析速度提升百倍,。
過去,,一條主干流的人工識別需要長達(dá)數(shù)月,,不利于快速評估災(zāi)情。通過達(dá)摩院遙感 AI 分析,,可以將時長縮短到小時級,,支持專家迅速判斷災(zāi)害程度、劃定安全范圍并組織有序撤離,。據(jù)悉,7 月以來,,達(dá)摩院遙感 AI 已協(xié)助相關(guān)部門完成 262 個臨河房屋識別任務(wù),、149 個水體識別任務(wù)。