7 月 21 日,、22 日,,由 KDD China 主辦,,西南交通大學(xué)和京東金融承辦的 KDD Summer School 暨 KDD Pre-Conference,,「交通大數(shù)據(jù)智能」論壇在成都舉行,,多位知名數(shù)據(jù)挖掘領(lǐng)域?qū)<乙约?KDD 2018 國際會議錄用論文的作者介紹了自己的工作以及各自領(lǐng)域的進(jìn)展,。
在會上,,我們采訪了 KDD 中國主席楊強(qiáng),,與他聊了聊他在金融領(lǐng)域進(jìn)行的 AI 落地的工作,,包括「聯(lián)邦學(xué)習(xí)」這個(gè)試圖在保護(hù)數(shù)據(jù)隱私,、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)的新方法。同時(shí),,作為 KDD 中國主席,,他也分享了當(dāng)下的遷移學(xué)習(xí)領(lǐng)域的新進(jìn)展和他對本屆 KDD 大會的展望。
聯(lián)邦學(xué)習(xí):數(shù)據(jù)合規(guī)應(yīng)該是深度學(xué)習(xí)解決方案的一部分
機(jī)器之心:您如今在關(guān)注哪些 AI 的研究或應(yīng)用方向,?在您看來,,機(jī)器學(xué)習(xí)領(lǐng)域有哪些新的趨勢?
我現(xiàn)在關(guān)注的一個(gè)趨勢是如何在保護(hù)數(shù)據(jù)隱私,、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí),,我們將這部分研究稱為「聯(lián)邦學(xué)習(xí)」(Federated Learning)。
開始聯(lián)邦學(xué)習(xí)的契機(jī)是歐盟通過了「數(shù)據(jù)隱私保護(hù)條例」(General Data Protection Regulation,,簡稱 GDPR),。GDPR 認(rèn)定「個(gè)人數(shù)據(jù)神圣不可侵犯」,要求公司在使用數(shù)據(jù)前要先向用戶聲明模型的作用,。這份條例的實(shí)行讓許多大數(shù)據(jù)公司噤若寒蟬,,不敢再互相交流數(shù)據(jù)了,這對于極度依賴數(shù)據(jù)的機(jī)器學(xué)習(xí)是一個(gè)巨大的挑戰(zhàn),。
因此我們現(xiàn)在正在尋找比較正向的應(yīng)對方法,,思考如何把 GDPR 囊括在機(jī)器學(xué)習(xí)框架之內(nèi),而不是繞著它走,。
聯(lián)邦學(xué)習(xí)希望在不共享數(shù)據(jù)的前提下,,利用雙方的數(shù)據(jù)實(shí)現(xiàn)模型增長。
假設(shè)兩家公司想要建立一個(gè)用戶畫像模型,,其中部分用戶是重合的,。聯(lián)邦學(xué)習(xí)的做法是,首先通過加密交換的手段,,建立用戶的識別符(identifier)并進(jìn)行溝通,在加密狀態(tài)下用減法找出共有的部分用戶,。因?yàn)殛P(guān)鍵用戶信息并沒有得到交換,,交換的只是共有的識別符,因此這并不違反數(shù)據(jù)隱私保護(hù)條例,。然后,,雙方將這部分?jǐn)?shù)據(jù)提取出來,,將各自擁有的同樣用戶的不同特征作為輸入,迭代地進(jìn)行訓(xùn)練模型,、交換參數(shù)的過程,。我們證明了給定模型參數(shù),雙方不能互相反推出對方擁有的,、自己沒有的特征,,因此用戶隱私仍然得到了保護(hù)。在不違反 GDPR 的情況下,,雙方的模型性能都得到了提高,。
聯(lián)邦學(xué)習(xí)相比于遷移學(xué)習(xí)的優(yōu)點(diǎn)在于「無損失」。之前的遷移學(xué)習(xí)都是存在性能損失的,,當(dāng)模型從領(lǐng)域 A 遷移到領(lǐng)域 B,,從模型中學(xué)到的一大部分關(guān)于 A 的知識全丟了,只有和 B 共享的一小部分保留下來,,甚至?xí)霈F(xiàn)負(fù)遷移,。然而聯(lián)邦學(xué)習(xí)保證,兩家公司的模型都比原來效果好,。因此我們沒有繼續(xù)沿用遷移學(xué)習(xí)的名稱,,而是將其命名為「聯(lián)邦學(xué)習(xí)」,意思是說,,兩家公司并沒有聯(lián)合成為一個(gè)「國家」,,而是像不同的「州」一樣,在一個(gè)「聯(lián)邦政府」——進(jìn)行信息與模型參數(shù)的加密交換的系統(tǒng)——的管理下,,各自為政,,同時(shí)獲得成長。在聯(lián)邦學(xué)習(xí)的基礎(chǔ)上,,我們還可以啟發(fā)式地搭建遷移學(xué)習(xí)的能力,。這樣,在模型成長的基礎(chǔ)上,,做到舉一反三的效果,。這個(gè)總的模型叫做「聯(lián)邦遷移學(xué)習(xí)」(Federated Transfer Learning)。
聯(lián)邦學(xué)習(xí)是我們應(yīng)對 GDPR 類事件的一個(gè)例子,。在未來,,我們面臨的社會大眾的要求和監(jiān)管一定越來越嚴(yán)格,因此我們?nèi)斯ぶ悄艿膹臉I(yè)者應(yīng)該擁抱這些條例,,將其內(nèi)化為解決方案的一部分,。如今機(jī)器學(xué)習(xí)最薄弱的環(huán)節(jié)其實(shí)并非算法結(jié)構(gòu)不夠豐富、準(zhǔn)確率不夠高,,而是來自社會大眾對人工智能的態(tài)度和制約,。GDPR 不是個(gè)例,,在未來,不同國家和地區(qū)的隱私保護(hù)條例會如雨后春筍般出現(xiàn),,在這樣的背景之下,,如果不作出改變和適應(yīng),機(jī)器學(xué)習(xí)的一個(gè)重要的假設(shè):假設(shè)我們擁有足夠多的數(shù)據(jù),,將不復(fù)成立,。
因此我們希望機(jī)器學(xué)習(xí)學(xué)者除了關(guān)心算法的準(zhǔn)確率、效率之外,,也將思考的維度上升到管理與合規(guī)的角度,。我們希望能帶頭建立金融領(lǐng)域協(xié)同建模的規(guī)范,讓不同的企業(yè)受益于合規(guī)的聯(lián)合建模鏈條,,更樂于加入這個(gè) AI 建模聯(lián)邦,,在遵守合規(guī)要求的同時(shí)享受數(shù)據(jù)福利,也讓機(jī)器學(xué)習(xí)更健康地發(fā)展下去,。
我近年關(guān)注的問題是 AI 的落地,,因?yàn)槿绻?AI 一直不落地,大家都埋頭寫論文,,那么這個(gè)泡沫最后就破了,。
我個(gè)人選擇在金融相關(guān)的領(lǐng)域來實(shí)現(xiàn) AI 落地,其原因是金融提高效率的痛點(diǎn)很強(qiáng)烈?,F(xiàn)在很多媒體給大家的一個(gè)印象是「所有的領(lǐng)域」都可以馬上應(yīng)用 AI,,這我是不贊同的。在一些領(lǐng)域里,,如今的 AI 反而會把優(yōu)勢變成劣勢:例如 IBM Watson 在美國癌癥醫(yī)療中心就因?yàn)閿?shù)據(jù)缺失問題而導(dǎo)致診斷協(xié)助系統(tǒng)的失敗,。
我認(rèn)為現(xiàn)在的情況是,并非所有領(lǐng)域都適合在當(dāng)下嘗試 AI,,根據(jù)數(shù)據(jù)和場景的準(zhǔn)備狀態(tài),,有一些領(lǐng)域特別適合首先去嘗試 AI,其中就包括金融,。
此外,,我希望總結(jié)出一套方法論,可以告訴人們,,一個(gè)領(lǐng)域在什么時(shí)間段,、滿足哪些條件后,可以開始考慮使用 AI 了,。
遷移學(xué)習(xí):深度和對抗成為范式
機(jī)器之心:去年,,您在機(jī)器之心的 GMIS 大會上提到了遷移學(xué)習(xí)的六個(gè)進(jìn)展,分別是結(jié)構(gòu)與內(nèi)容分離,、多層次的特征學(xué)習(xí),、多步遷移學(xué)習(xí)、學(xué)習(xí)「如何遷移」,、遷移學(xué)習(xí)作為元學(xué)習(xí)以及數(shù)據(jù)生成式的遷移學(xué)習(xí),。在過去的一年多時(shí)間里,有哪些方向出現(xiàn)了令人矚目的進(jìn)展,?
首先是層次感,。這方面進(jìn)展非常迅速。業(yè)界發(fā)現(xiàn)深度學(xué)習(xí)天然適合做遷移的學(xué)習(xí),,正是因?yàn)樯疃葘W(xué)習(xí)不同的層次負(fù)責(zé)編碼不同的知識,。
因此多層次的特征學(xué)習(xí)有很多種可行結(jié)構(gòu):一是多視角,讓不同的輸入分別進(jìn)入不同的初始層,,處理后共享一些中間層,;另一種是利用對抗的結(jié)構(gòu),例如 GAN 和 DANN,,篩出不同領(lǐng)域間可共享的特征,。共享特征的意思是無法用這個(gè)特征區(qū)分兩個(gè)領(lǐng)域。用對抗找出共享特征的意思是,,讓一個(gè)網(wǎng)絡(luò)負(fù)責(zé)篩選出讓對方區(qū)分不了的特征,,讓另一個(gè)網(wǎng)絡(luò)負(fù)責(zé)根據(jù)特征區(qū)分兩個(gè)領(lǐng)域,兩個(gè)網(wǎng)絡(luò)通過博弈達(dá)到平衡時(shí),,就自動(dòng)找到了兩個(gè)領(lǐng)域之間的重疊部分,。
總的來說,對抗網(wǎng)絡(luò)現(xiàn)在已經(jīng)變成了遷移學(xué)習(xí)的一種已定式和系統(tǒng)了,。
在學(xué)習(xí)如何遷移方面,,我們最近有一篇 ICML 2018 文章,Transfer learning by learning to transfer 講的就是這個(gè)問題,。這個(gè)文章的第一作者是魏穎博士,。文章的主旨是,在我們積累了在很多領(lǐng)域進(jìn)行學(xué)習(xí)的經(jīng)驗(yàn)后,,把領(lǐng)域間的遷移過程作為例子,。例如在翻譯問題上,從日語到中文是一個(gè)遷移,,從日語到英文是另一次遷移,。如果有 N 個(gè)領(lǐng)域,就會有 近 N*N 個(gè)例子,。把遷移的例子做成訓(xùn)練集,,就可以訓(xùn)練出一個(gè)自動(dòng)的遷移規(guī)劃器,它會告訴你如何遷移或是說遷移的方法論,。來了一個(gè)新問題,,遷移器可以告訴你應(yīng)該挑那些遷移學(xué)習(xí)算法來用在這個(gè)問題上,。
這個(gè)問題的輸入是算法的參數(shù)和描述不同領(lǐng)域的參數(shù),優(yōu)化函數(shù)是所有樣本的期望損失最低,,學(xué)出來的遷移器既挑選模型,,也學(xué)習(xí)參數(shù)。這個(gè)工作的主題是「學(xué)習(xí)如何學(xué)習(xí)」,,和時(shí)下流行的 AutoML 有緊密的聯(lián)系,。今年,「第四范式公司」會在 NIPS 2018 上將舉辦首屆 AutoML 大賽,,也是給大家一次展示遷移學(xué)習(xí)能力的機(jī)會,。
「學(xué)習(xí)如何學(xué)習(xí)」也不僅僅是計(jì)算機(jī)科學(xué)中的問題。在心理學(xué)領(lǐng)域,,上世紀(jì)美國心理學(xué)家 Thorndike 就拿猴子做了一個(gè)實(shí)驗(yàn),,證明猴子是有遷移能力的。他讓猴子解決一些不同的任務(wù),,解決好了就能拿到食物,,解決不好就讓他繼續(xù)解決,一段時(shí)間后,,猴子就學(xué)會了在新的領(lǐng)域里尋找特征,,利用原有的經(jīng)驗(yàn)解決新問題。因此 Thorndike 總結(jié)道:「智能就是遷移能力,?!顾麑⑦@個(gè)觀點(diǎn)應(yīng)用到教育學(xué)上,認(rèn)為教育程度高,,并不是考試分?jǐn)?shù)高,,而是學(xué)下一門課學(xué)得更快。
最后,,結(jié)構(gòu)與內(nèi)容分離,,換言之,就是要用盡可能少的例子來學(xué)盡可能多的事兒,,這方面的內(nèi)容仍然不是很多,。但這其實(shí)并不是局限于遷移學(xué)習(xí)的一個(gè)討論,而是人工智能整體試圖解決的一個(gè)問題,。
最近 Yann Lecun 的在 IJCAI2018 上的一個(gè)講座讓我覺得很有啟發(fā),。Yann 也在思考為什么人只需要幾個(gè)例子,而深度學(xué)習(xí)需要那么多例子,。他的觀點(diǎn)是,,一個(gè)例子中的內(nèi)容特別多,而用一個(gè)例子做一個(gè)任務(wù),就等于把其他的內(nèi)容浪費(fèi)了,,因此我們需要從一個(gè)樣本中找出多個(gè)任務(wù),。比如說遮擋圖片的一個(gè)特定部分,用沒遮擋部分來猜遮擋的部分是一個(gè)任務(wù),。那么通過遮擋不同的部分,,就可以用一個(gè)樣本完成不同任務(wù)。Yann 描述的這個(gè)方法被業(yè)界稱作「自監(jiān)督學(xué)習(xí)」,。
我覺得自監(jiān)督學(xué)習(xí)可以和遷移學(xué)習(xí)結(jié)合來做的。因?yàn)橐粋€(gè)樣本畢竟還是有局限性,,它的變化很小,,統(tǒng)計(jì)性很差,但是如果和以前的經(jīng)驗(yàn)?zāi)芙Y(jié)合起來,,例如從其他任務(wù)里遷移一個(gè)偏置項(xiàng),,可能就是解決小樣本的一個(gè)方向。
機(jī)器之心:您如何對當(dāng)前的遷移學(xué)習(xí)算法進(jìn)行分類,?原因是什么,?
之前,我們通常將遷移學(xué)習(xí)分為三類,。第一類是樣本遷移,,將可能對新領(lǐng)域有用的樣本的權(quán)重加大。這一類方法非常經(jīng)典,,但是現(xiàn)在用得比較少,。
第二種叫做特征遷移,特征空間的維度很高,,如果我發(fā)現(xiàn)第一個(gè)領(lǐng)域里發(fā)現(xiàn)的重要特征能夠覆蓋新領(lǐng)域,,那么我就把它遷移到新領(lǐng)域中去。遷移的部分可能是人工選出來的特征,,這種方法在自然語言處理遷移中比較常見,,也可以是一個(gè)特征提取器,這種方法在計(jì)算機(jī)視覺遷移中比較常見,。
最后一種是參數(shù)遷移,,遷移的范圍與兩個(gè)領(lǐng)域之間的距離有關(guān)。例如和圖像相關(guān)的模型,,越是靠下的層越通用,,遷移能力越強(qiáng),越是靠上的層越是特殊,,遷移能力越弱,。因此可以根據(jù)領(lǐng)域間距離定量地確定遷移的程度:如果兩個(gè)領(lǐng)域相距很遠(yuǎn),那么可以只遷移最下方的幾層,如果兩個(gè)領(lǐng)域很相似,,則可以多遷移幾層,。此外還可以量化遷移后調(diào)節(jié)參數(shù)的時(shí)機(jī):兩個(gè)領(lǐng)域相距越遠(yuǎn),參數(shù)調(diào)節(jié)就應(yīng)該越早進(jìn)行,,兩個(gè)領(lǐng)域相距越近,,參數(shù)調(diào)節(jié)就可以越晚進(jìn)行。
近年一個(gè)有意思的特征遷移案例是斯坦福大學(xué)為聯(lián)合國做的「如何在衛(wèi)星圖片中標(biāo)記貧窮的地區(qū)」,。聯(lián)合國在決定給每個(gè)地區(qū)分配的資助前,,需要確定當(dāng)?shù)氐呢毟F程度。在過去,,做法是派人去進(jìn)行經(jīng)濟(jì)調(diào)查,,而斯坦福大學(xué)試圖用 跨越式遷移的方法來解決這個(gè)問題。研究人員首先對白天的衛(wèi)星圖片進(jìn)行語義級別的分割,,標(biāo)出橋梁,、建筑物等。然后以燈光明亮度代表富裕程度,,通過白天和夜晚的圖像比對,,找出最富有的地區(qū)在白天有哪些可見的特征,比如游泳池,。然后將游泳池視為富裕地區(qū)的顯著特征后,,再通過搜索游泳池周圍經(jīng)常出現(xiàn)特征,進(jìn)行另一輪的代表性特征選擇,。逐步擴(kuò)展下去,,最后在識別貧富程度上達(dá)到和現(xiàn)場調(diào)查人員相近的準(zhǔn)確率。
這類非常具有社會意義的選題也是值得國內(nèi)研究者思考和借鑒的,,我們不應(yīng)該只擅長刷 ImageNet 榜單,。
除此之外,根據(jù)采用的模型結(jié)構(gòu)還可以分成采用/不采用深度學(xué)習(xí)的,。近年隨著對抗生成網(wǎng)絡(luò)在遷移學(xué)習(xí)中的應(yīng)用越來越廣泛,,還有一種分法是根據(jù)是否利用對抗的方法進(jìn)行分類。遷移學(xué)習(xí)中天然存在可以對抗的部分:希望算法在本領(lǐng)域準(zhǔn)確性盡可能高,,希望算法在兩個(gè)領(lǐng)域間的差距盡可能小,。把這兩個(gè)限制條件同時(shí)作為目標(biāo),就形成了一個(gè)恰恰合適對抗生成網(wǎng)絡(luò)做的事情,。
KDD:連接工作與會議趨勢
機(jī)器之心:作為 KDD 中國主席,,能否分享下 KDD 中國的定位和任務(wù),以及 KDD 大會的一些情況,?
ACM SIGKDD 在中國的分會叫做 KDD China,,這個(gè)學(xué)術(shù)社區(qū)的主旨是做好各項(xiàng)「連接」的工作,即連接學(xué)生和學(xué)者,連接公司和學(xué)校,,以及連接學(xué)界和社會,。本次 2018 的暑期學(xué)校分成三天(已于 2018 年 7 月 21-23 在成都的西南交通大學(xué)舉行),分別是業(yè)界專家觀點(diǎn),、學(xué)生 2018 KDD 工作展示,,以及學(xué)界的「大牛」講解如何寫論文,、如何做研究,。旨在進(jìn)行學(xué)生與業(yè)界領(lǐng)袖的連接,工業(yè)與學(xué)術(shù)界的連接,,國內(nèi)和國外的連接等一系列工作?,F(xiàn)在看來效果還是非常不錯(cuò)的,會員已經(jīng)超過了 1000 人,,本次活動(dòng)報(bào)名的會員/非會員也達(dá)到了場地的極限,達(dá)到三百多人,。
而即將在倫敦召開的 KDD 2018,,頒發(fā)的獎(jiǎng)項(xiàng)包括:
Research Innovation Award,頒發(fā)給了芝加哥大學(xué)的劉兵教授,,他率先開展了輿情分析方面的工作,。
Distinguished Service Award,頒發(fā)給了清華大學(xué)的唐杰教授,,他在 KDD 領(lǐng)域做了大量的突出的服務(wù)性工作,,包括在 2012 年在北京舉行的 KDD 所做的大量支持工作和建立著名的論文庫系統(tǒng) A-MINER 等的工作。
Test of Time Award,,這個(gè)獎(jiǎng)項(xiàng)頒發(fā)給發(fā)表在十年前的,、產(chǎn)生了重大影響的文章。今年的獲獎(jiǎng)?wù)呤莵碜怨雀璧?Yehuda Koren,,獲獎(jiǎng)?wù)撐氖顷P(guān)于推薦系統(tǒng)中的協(xié)同過濾問題,。
在趨勢方面,KDD 繼續(xù)以信息網(wǎng)絡(luò)的大數(shù)據(jù)為主題來研究,,但 KDD 也在近幾年開始舉辦以深度學(xué)習(xí)命名的一個(gè) workshop,,這也標(biāo)志著深度學(xué)習(xí)也成為了 KDD 所接受的一類方法。
縱觀 KDD 的歷史,,會發(fā)現(xiàn)發(fā)起者背景主要有二,,一是來自工業(yè)界,比如曾經(jīng)以 IBM ,、微軟等公司為代表一些領(lǐng)袖,,二是學(xué)界的領(lǐng)軍人物。切入角度是起始于數(shù)據(jù)倉庫管理和關(guān)聯(lián)規(guī)則等的分析;后來機(jī)器學(xué)習(xí)算法逐漸進(jìn)入業(yè)界后,,越來越多的機(jī)器學(xué)習(xí)學(xué)者也進(jìn)入 KDD 界,,而 KDD 一直保持有很高的工業(yè)界參與度以及對工業(yè)實(shí)際問題的敏感度。
如今 KDD 和機(jī)器學(xué)習(xí)的一些區(qū)別包括,,KDD 是更多地以應(yīng)用問題為導(dǎo)向的會議,,很少有像強(qiáng)化學(xué)習(xí)等純機(jī)器學(xué)習(xí)算法的論文;KDD 相比于機(jī)器學(xué)習(xí)更關(guān)心社交網(wǎng)絡(luò)等信息網(wǎng)絡(luò)數(shù)據(jù),,更關(guān)心「人」的參與建模,,更在乎模型的可解釋性、數(shù)據(jù)可視化,、人對模型結(jié)論的理解等,,而機(jī)器學(xué)習(xí)更關(guān)注自動(dòng)化和端到端的建模。