CoNLL 是自然語言處理領(lǐng)域的頂級會議,每年由 SIGNLL 組織舉辦。CoNLL 2018 大會將于 10 月 31 日-11 月 1 日在比利時布魯塞爾舉行,,地點與 EMNLP 2018 一樣(EMNLP 2018 將于 10 月 31 日-11 月 4 日舉行),。
昨日,CoNLL 公布了最佳論文,,由來自西班牙巴斯克大學 IXA NLP 組的 Mikel Artetxe 等人獲得。該論文展示了詞嵌入模型能夠捕獲不同層面的信息(如語義/句法和相似度/相關(guān)度),為如何編碼不同的語言信息提供了新的視角,,該研究還研究了內(nèi)外部評估之間的關(guān)系。
近年來,,詞嵌入成為自然語言處理的核心主題,。業(yè)內(nèi)提出了多種無監(jiān)督方法來高效地訓練單詞的密集型向量表征,且成功地應用到語法解析,、主題建模,、文檔分類等多類任務。
機器之心Synced詞嵌入小程序
雖然從理論角度理解這些模型是更加活躍的研究路線,,但這些研究背后的基本思路都是為類似的單詞分配類似的向量表征,。由此,大部分詞嵌入模型依賴來自大型單語語料庫的共現(xiàn)統(tǒng)計信息(co-occurrence statistics),,并遵循分布假設(shè),,也就是相似單詞傾向于出現(xiàn)在相似語境中。
然而,,上述論點沒有定義「相似單詞」的含義,,且詞嵌入模型實際中應該捕捉哪種關(guān)系也不完全清楚。因此一些研究者在真正相似度(如 car - automobile)與關(guān)聯(lián)度(如 car - road)之間進行區(qū)分,。從另一個角度來說,,詞語相似度可聚焦在語義(如 sing-chant)或者句法(如 sing-singing)上。我們把這兩個方面作為相似度的兩個坐標軸,,且每一個坐標軸的兩端為兩種性質(zhì):語義/句法軸和相似度/關(guān)聯(lián)度軸,。
本論文提出了一種新方法來調(diào)整給定的任意嵌入向量集,使其在這些坐標軸中靠近特定端點,。該方法受一階和二階共現(xiàn)研究的啟發(fā),,可推廣為詞嵌入向量線性變換的連續(xù)參數(shù),我們稱之為相似度階(similarity order),。雖然業(yè)內(nèi)提出了多種學習特定詞嵌入的方法,,但之前的研究明確地改變了訓練目標,,且總是依賴知識庫這樣的外部資源。而本論文提出的方法可用做任意預訓練詞嵌入模型的后處理,,不需要任何額外資源,。同樣,該研究表明,,標準的詞嵌入模型能夠編碼不同的語言信息,,但能夠直接應用的信息有限。此外,,該研究也分析了該方法與內(nèi)部評估和下游任務的關(guān)系,。該論文主要貢獻如下:
1. 提出了一個具備自由參數(shù)的線性變換,能夠調(diào)整詞嵌入在相似度/關(guān)聯(lián)度和語義/句法坐標軸中的性能,,并在詞匯類推數(shù)據(jù)集和相似度數(shù)據(jù)集中進行了測試,。
2. 展示了當前詞嵌入方法的性能受到無法同時顯現(xiàn)不同語言信息(例如前面提到的坐標軸)的限制。該研究提出的方法表明,,詞嵌入能夠捕獲的信息多于表面顯現(xiàn)出的信息,。
3. 展示了標準的內(nèi)部評估只能給出一個靜態(tài)的不完整圖景,加上該研究提出的方法能夠幫助我們更好地理解詞嵌入模型真正編碼哪些信息,。
4. 展示了該方法也能運用到下游任務中,,但相比于使用一般詞嵌入作為輸入特征的監(jiān)督系統(tǒng),其效果在直接使用詞嵌入相似度的無監(jiān)督系統(tǒng)上更顯著,,因為監(jiān)督系統(tǒng)有足夠的表達能力來學習最優(yōu)變換,。
總之,該研究揭示了詞嵌入如何表示不同語言信息,,分析了它在內(nèi)部評估和下游任務中所扮演的角色,,為之后的發(fā)展開創(chuàng)了新機遇。
論文:Uncovering divergent linguistic information in word embeddings with lessons for intrinsic and extrinsic evaluation
論文鏈接:https://arxiv.org/abs/1809.02094
摘要:隨著詞嵌入最近取得成功,,有人認為根本不存在詞的理想表征,,因為不同的模型傾向于捕捉不同且往往互不兼容的方面,,如語義/句法和相似性/相關(guān)性,。本論文展示了每個詞嵌入模型捕獲的信息多于直接顯現(xiàn)的信息。線性轉(zhuǎn)換無需任何外部資源就能調(diào)整模型的相似度階,,因此能夠調(diào)整模型以在這些方面獲得更好的結(jié)果,,這為詞嵌入編碼不同的語言信息提供了新的視角。此外,,我們還探索了內(nèi),、外部評估的關(guān)系,我們在下游任務中的變換效果在無監(jiān)督系統(tǒng)中的效果優(yōu)于監(jiān)督系統(tǒng),。
機器之心Synced非監(jiān)督學習小程序
內(nèi)部評估
表 1:原始嵌入以及具備對應 α 值的最佳后處理模型的內(nèi)部評估結(jié)果,。評估指標是詞匯類比任務的準確率和詞語相似度的斯皮爾曼等級相關(guān)系數(shù),。
圖 1:詞匯類比任務中,不同 α 值所對應的相對誤差減少,,原始嵌入的 α = 0,。
外部評估
表 2:原始嵌入和具備對應 α 值的最佳后處理模型的語義文本相似度結(jié)果,衡量標準為皮爾遜相關(guān)系數(shù),。DAM 分數(shù)是 10 次運行的平均得分,。
圖 3:不同 α 值對應的語義文本相似度結(jié)果。DAM 分數(shù)是 10 次運行的平均得分,。
討論
我們認為該研究為嵌入編碼不同語言信息提供了新的視角,,其與內(nèi)外部評估之間的關(guān)系如下所示:
標準內(nèi)部評估提供的是不同詞嵌入模型編碼的靜態(tài)、不完整信息圖,。
使用預訓練嵌入作為特征的監(jiān)督系統(tǒng)具備足夠的表達能力來學習任務的最優(yōu)相似度階,。
盡管我們的研究展示了嵌入捕獲的默認相似度階對較大的學習系統(tǒng)影響較小,但它未必是最優(yōu)的整合策略,。如果研究者認為某個相似度階可能更適合某個下游任務,,則他/她設(shè)計的整合策略很可能鼓勵這個相似度階,我們認為這是未來一個有趣的研究方向,。例如,,研究者可以設(shè)計正則化方法去懲罰預定義相似度階的較大偏差。