久久精品亚洲精品国产色婷,国产精品精品久久久久久潘金莲久久伊人网大香蕉

機(jī)器之心專訪楊強(qiáng)教授：聯(lián)邦遷移學(xué)習(xí)與金融領(lǐng)域的AI落地

日期： 2018-08-01

關(guān)鍵詞： KDDChina 交通大數(shù)據(jù)智能 AI

7 月 21 日,、22 日，由 KDD China 主辦,，西南交通大學(xué)和京東金融承辦的 KDD Summer School 暨 KDD Pre-Conference,，「交通大數(shù)據(jù)智能」論壇在成都舉行,，多位知名數(shù)據(jù)挖掘領(lǐng)域?qū)＜乙约?KDD 2018 國際會議錄用論文的作者介紹了自己的工作以及各自領(lǐng)域的進(jìn)展,。

在會上,，我們采訪了 KDD 中國主席楊強(qiáng)，與他聊了聊他在金融領(lǐng)域進(jìn)行的 AI 落地的工作,，包括「聯(lián)邦學(xué)習(xí)」這個試圖在保護(hù)數(shù)據(jù)隱私,、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí)的新方法。同時,，作為 KDD 中國主席,，他也分享了當(dāng)下的遷移學(xué)習(xí)領(lǐng)域的新進(jìn)展和他對本屆 KDD 大會的展望。

聯(lián)邦學(xué)習(xí)：數(shù)據(jù)合規(guī)應(yīng)該是深度學(xué)習(xí)解決方案的一部分

機(jī)器之心：您如今在關(guān)注哪些 AI 的研究或應(yīng)用方向,？在您看來,，機(jī)器學(xué)習(xí)領(lǐng)域有哪些新的趨勢,？

我現(xiàn)在關(guān)注的一個趨勢是如何在保護(hù)數(shù)據(jù)隱私、滿足合法合規(guī)要求的前提下繼續(xù)進(jìn)行機(jī)器學(xué)習(xí),，我們將這部分研究稱為「聯(lián)邦學(xué)習(xí)」（Federated Learning）,。

開始聯(lián)邦學(xué)習(xí)的契機(jī)是歐盟通過了「數(shù)據(jù)隱私保護(hù)條例」（General Data Protection Regulation，簡稱 GDPR）,。GDPR 認(rèn)定「個人數(shù)據(jù)神圣不可侵犯」,，要求公司在使用數(shù)據(jù)前要先向用戶聲明模型的作用。這份條例的實行讓許多大數(shù)據(jù)公司噤若寒蟬,，不敢再互相交流數(shù)據(jù)了,，這對于極度依賴數(shù)據(jù)的機(jī)器學(xué)習(xí)是一個巨大的挑戰(zhàn)。

因此我們現(xiàn)在正在尋找比較正向的應(yīng)對方法,，思考如何把 GDPR 囊括在機(jī)器學(xué)習(xí)框架之內(nèi),，而不是繞著它走。

聯(lián)邦學(xué)習(xí)希望在不共享數(shù)據(jù)的前提下,，利用雙方的數(shù)據(jù)實現(xiàn)模型增長,。

假設(shè)兩家公司想要建立一個用戶畫像模型，其中部分用戶是重合的,。聯(lián)邦學(xué)習(xí)的做法是,，首先通過加密交換的手段，建立用戶的識別符（identifier）并進(jìn)行溝通,，在加密狀態(tài)下用減法找出共有的部分用戶,。因為關(guān)鍵用戶信息并沒有得到交換，交換的只是共有的識別符,，因此這并不違反數(shù)據(jù)隱私保護(hù)條例,。然后，雙方將這部分?jǐn)?shù)據(jù)提取出來,，將各自擁有的同樣用戶的不同特征作為輸入,，迭代地進(jìn)行訓(xùn)練模型、交換參數(shù)的過程,。我們證明了給定模型參數(shù),，雙方不能互相反推出對方擁有的、自己沒有的特征,，因此用戶隱私仍然得到了保護(hù),。在不違反 GDPR 的情況下，雙方的模型性能都得到了提高,。

聯(lián)邦學(xué)習(xí)相比于遷移學(xué)習(xí)的優(yōu)點在于「無損失」,。之前的遷移學(xué)習(xí)都是存在性能損失的，當(dāng)模型從領(lǐng)域 A 遷移到領(lǐng)域 B，從模型中學(xué)到的一大部分關(guān)于 A 的知識全丟了,，只有和 B 共享的一小部分保留下來,，甚至?xí)霈F(xiàn)負(fù)遷移,。然而聯(lián)邦學(xué)習(xí)保證,，兩家公司的模型都比原來效果好。因此我們沒有繼續(xù)沿用遷移學(xué)習(xí)的名稱,，而是將其命名為「聯(lián)邦學(xué)習(xí)」,，意思是說，兩家公司并沒有聯(lián)合成為一個「國家」,，而是像不同的「州」一樣,，在一個「聯(lián)邦政府」——進(jìn)行信息與模型參數(shù)的加密交換的系統(tǒng)——的管理下，各自為政,，同時獲得成長,。在聯(lián)邦學(xué)習(xí)的基礎(chǔ)上，我們還可以啟發(fā)式地搭建遷移學(xué)習(xí)的能力,。這樣,，在模型成長的基礎(chǔ)上，做到舉一反三的效果,。這個總的模型叫做「聯(lián)邦遷移學(xué)習(xí)」（Federated Transfer Learning）,。

聯(lián)邦學(xué)習(xí)是我們應(yīng)對 GDPR 類事件的一個例子。在未來,，我們面臨的社會大眾的要求和監(jiān)管一定越來越嚴(yán)格,，因此我們?nèi)斯ぶ悄艿膹臉I(yè)者應(yīng)該擁抱這些條例，將其內(nèi)化為解決方案的一部分,。如今機(jī)器學(xué)習(xí)最薄弱的環(huán)節(jié)其實并非算法結(jié)構(gòu)不夠豐富,、準(zhǔn)確率不夠高，而是來自社會大眾對人工智能的態(tài)度和制約,。GDPR 不是個例,，在未來，不同國家和地區(qū)的隱私保護(hù)條例會如雨后春筍般出現(xiàn),，在這樣的背景之下,，如果不作出改變和適應(yīng)，機(jī)器學(xué)習(xí)的一個重要的假設(shè)：假設(shè)我們擁有足夠多的數(shù)據(jù),，將不復(fù)成立,。

因此我們希望機(jī)器學(xué)習(xí)學(xué)者除了關(guān)心算法的準(zhǔn)確率、效率之外,，也將思考的維度上升到管理與合規(guī)的角度,。我們希望能帶頭建立金融領(lǐng)域協(xié)同建模的規(guī)范，讓不同的企業(yè)受益于合規(guī)的聯(lián)合建模鏈條，更樂于加入這個 AI 建模聯(lián)邦,，在遵守合規(guī)要求的同時享受數(shù)據(jù)福利,，也讓機(jī)器學(xué)習(xí)更健康地發(fā)展下去。

我近年關(guān)注的問題是 AI 的落地,，因為如果 AI 一直不落地,，大家都埋頭寫論文，那么這個泡沫最后就破了,。

我個人選擇在金融相關(guān)的領(lǐng)域來實現(xiàn) AI 落地,，其原因是金融提高效率的痛點很強(qiáng)烈。現(xiàn)在很多媒體給大家的一個印象是「所有的領(lǐng)域」都可以馬上應(yīng)用 AI,，這我是不贊同的,。在一些領(lǐng)域里，如今的 AI 反而會把優(yōu)勢變成劣勢：例如 IBM Watson 在美國癌癥醫(yī)療中心就因為數(shù)據(jù)缺失問題而導(dǎo)致診斷協(xié)助系統(tǒng)的失敗,。

我認(rèn)為現(xiàn)在的情況是,，并非所有領(lǐng)域都適合在當(dāng)下嘗試 AI，根據(jù)數(shù)據(jù)和場景的準(zhǔn)備狀態(tài),，有一些領(lǐng)域特別適合首先去嘗試 AI,，其中就包括金融。

此外,，我希望總結(jié)出一套方法論,，可以告訴人們，一個領(lǐng)域在什么時間段,、滿足哪些條件后,，可以開始考慮使用 AI 了。

遷移學(xué)習(xí)：深度和對抗成為范式

機(jī)器之心：去年,，您在機(jī)器之心的 GMIS 大會上提到了遷移學(xué)習(xí)的六個進(jìn)展,，分別是結(jié)構(gòu)與內(nèi)容分離、多層次的特征學(xué)習(xí),、多步遷移學(xué)習(xí),、學(xué)習(xí)「如何遷移」、遷移學(xué)習(xí)作為元學(xué)習(xí)以及數(shù)據(jù)生成式的遷移學(xué)習(xí),。在過去的一年多時間里,，有哪些方向出現(xiàn)了令人矚目的進(jìn)展？

首先是層次感,。這方面進(jìn)展非常迅速,。業(yè)界發(fā)現(xiàn)深度學(xué)習(xí)天然適合做遷移的學(xué)習(xí)，正是因為深度學(xué)習(xí)不同的層次負(fù)責(zé)編碼不同的知識,。

因此多層次的特征學(xué)習(xí)有很多種可行結(jié)構(gòu)：一是多視角,，讓不同的輸入分別進(jìn)入不同的初始層，處理后共享一些中間層；另一種是利用對抗的結(jié)構(gòu),，例如 GAN 和 DANN,，篩出不同領(lǐng)域間可共享的特征。共享特征的意思是無法用這個特征區(qū)分兩個領(lǐng)域,。用對抗找出共享特征的意思是,，讓一個網(wǎng)絡(luò)負(fù)責(zé)篩選出讓對方區(qū)分不了的特征，讓另一個網(wǎng)絡(luò)負(fù)責(zé)根據(jù)特征區(qū)分兩個領(lǐng)域,，兩個網(wǎng)絡(luò)通過博弈達(dá)到平衡時,，就自動找到了兩個領(lǐng)域之間的重疊部分。

總的來說,，對抗網(wǎng)絡(luò)現(xiàn)在已經(jīng)變成了遷移學(xué)習(xí)的一種已定式和系統(tǒng)了。

在學(xué)習(xí)如何遷移方面,，我們最近有一篇 ICML 2018 文章,，Transfer learning by learning to transfer 講的就是這個問題。這個文章的第一作者是魏穎博士,。文章的主旨是,，在我們積累了在很多領(lǐng)域進(jìn)行學(xué)習(xí)的經(jīng)驗后，把領(lǐng)域間的遷移過程作為例子,。例如在翻譯問題上,，從日語到中文是一個遷移，從日語到英文是另一次遷移,。如果有 N 個領(lǐng)域,，就會有近 N*N 個例子。把遷移的例子做成訓(xùn)練集,，就可以訓(xùn)練出一個自動的遷移規(guī)劃器,，它會告訴你如何遷移或是說遷移的方法論。來了一個新問題,，遷移器可以告訴你應(yīng)該挑那些遷移學(xué)習(xí)算法來用在這個問題上,。

這個問題的輸入是算法的參數(shù)和描述不同領(lǐng)域的參數(shù)，優(yōu)化函數(shù)是所有樣本的期望損失最低,，學(xué)出來的遷移器既挑選模型,，也學(xué)習(xí)參數(shù)。這個工作的主題是「學(xué)習(xí)如何學(xué)習(xí)」,，和時下流行的 AutoML 有緊密的聯(lián)系,。今年，「第四范式公司」會在 NIPS 2018 上將舉辦首屆 AutoML 大賽,，也是給大家一次展示遷移學(xué)習(xí)能力的機(jī)會,。

「學(xué)習(xí)如何學(xué)習(xí)」也不僅僅是計算機(jī)科學(xué)中的問題。在心理學(xué)領(lǐng)域，上世紀(jì)美國心理學(xué)家 Thorndike 就拿猴子做了一個實驗,，證明猴子是有遷移能力的,。他讓猴子解決一些不同的任務(wù)，解決好了就能拿到食物,，解決不好就讓他繼續(xù)解決,，一段時間后，猴子就學(xué)會了在新的領(lǐng)域里尋找特征,，利用原有的經(jīng)驗解決新問題,。因此 Thorndike 總結(jié)道：「智能就是遷移能力?！顾麑⑦@個觀點應(yīng)用到教育學(xué)上,，認(rèn)為教育程度高，并不是考試分?jǐn)?shù)高,，而是學(xué)下一門課學(xué)得更快,。

最后，結(jié)構(gòu)與內(nèi)容分離,，換言之,，就是要用盡可能少的例子來學(xué)盡可能多的事兒，這方面的內(nèi)容仍然不是很多,。但這其實并不是局限于遷移學(xué)習(xí)的一個討論,，而是人工智能整體試圖解決的一個問題。

最近 Yann Lecun 的在 IJCAI2018 上的一個講座讓我覺得很有啟發(fā),。Yann 也在思考為什么人只需要幾個例子,，而深度學(xué)習(xí)需要那么多例子。他的觀點是,，一個例子中的內(nèi)容特別多,，而用一個例子做一個任務(wù)，就等于把其他的內(nèi)容浪費了,，因此我們需要從一個樣本中找出多個任務(wù),。比如說遮擋圖片的一個特定部分，用沒遮擋部分來猜遮擋的部分是一個任務(wù),。那么通過遮擋不同的部分,，就可以用一個樣本完成不同任務(wù)。Yann 描述的這個方法被業(yè)界稱作「自監(jiān)督學(xué)習(xí)」,。

我覺得自監(jiān)督學(xué)習(xí)可以和遷移學(xué)習(xí)結(jié)合來做的,。因為一個樣本畢竟還是有局限性，它的變化很小,，統(tǒng)計性很差,，但是如果和以前的經(jīng)驗?zāi)芙Y(jié)合起來,，例如從其他任務(wù)里遷移一個偏置項，可能就是解決小樣本的一個方向,。

機(jī)器之心：您如何對當(dāng)前的遷移學(xué)習(xí)算法進(jìn)行分類,？原因是什么？

之前,，我們通常將遷移學(xué)習(xí)分為三類,。第一類是樣本遷移，將可能對新領(lǐng)域有用的樣本的權(quán)重加大,。這一類方法非常經(jīng)典,，但是現(xiàn)在用得比較少。

第二種叫做特征遷移,，特征空間的維度很高,，如果我發(fā)現(xiàn)第一個領(lǐng)域里發(fā)現(xiàn)的重要特征能夠覆蓋新領(lǐng)域，那么我就把它遷移到新領(lǐng)域中去,。遷移的部分可能是人工選出來的特征,，這種方法在自然語言處理遷移中比較常見，也可以是一個特征提取器,，這種方法在計算機(jī)視覺遷移中比較常見。

最后一種是參數(shù)遷移,，遷移的范圍與兩個領(lǐng)域之間的距離有關(guān),。例如和圖像相關(guān)的模型，越是靠下的層越通用,，遷移能力越強(qiáng),，越是靠上的層越是特殊，遷移能力越弱,。因此可以根據(jù)領(lǐng)域間距離定量地確定遷移的程度：如果兩個領(lǐng)域相距很遠(yuǎn),，那么可以只遷移最下方的幾層，如果兩個領(lǐng)域很相似,，則可以多遷移幾層,。此外還可以量化遷移后調(diào)節(jié)參數(shù)的時機(jī)：兩個領(lǐng)域相距越遠(yuǎn)，參數(shù)調(diào)節(jié)就應(yīng)該越早進(jìn)行,，兩個領(lǐng)域相距越近,，參數(shù)調(diào)節(jié)就可以越晚進(jìn)行。

近年一個有意思的特征遷移案例是斯坦福大學(xué)為聯(lián)合國做的「如何在衛(wèi)星圖片中標(biāo)記貧窮的地區(qū)」,。聯(lián)合國在決定給每個地區(qū)分配的資助前,，需要確定當(dāng)?shù)氐呢毟F程度。在過去,，做法是派人去進(jìn)行經(jīng)濟(jì)調(diào)查,，而斯坦福大學(xué)試圖用跨越式遷移的方法來解決這個問題,。研究人員首先對白天的衛(wèi)星圖片進(jìn)行語義級別的分割，標(biāo)出橋梁,、建筑物等,。然后以燈光明亮度代表富裕程度，通過白天和夜晚的圖像比對,，找出最富有的地區(qū)在白天有哪些可見的特征,，比如游泳池。然后將游泳池視為富裕地區(qū)的顯著特征后,，再通過搜索游泳池周圍經(jīng)常出現(xiàn)特征,，進(jìn)行另一輪的代表性特征選擇。逐步擴(kuò)展下去,，最后在識別貧富程度上達(dá)到和現(xiàn)場調(diào)查人員相近的準(zhǔn)確率,。

這類非常具有社會意義的選題也是值得國內(nèi)研究者思考和借鑒的，我們不應(yīng)該只擅長刷 ImageNet 榜單,。

除此之外,，根據(jù)采用的模型結(jié)構(gòu)還可以分成采用/不采用深度學(xué)習(xí)的。近年隨著對抗生成網(wǎng)絡(luò)在遷移學(xué)習(xí)中的應(yīng)用越來越廣泛,，還有一種分法是根據(jù)是否利用對抗的方法進(jìn)行分類,。遷移學(xué)習(xí)中天然存在可以對抗的部分：希望算法在本領(lǐng)域準(zhǔn)確性盡可能高，希望算法在兩個領(lǐng)域間的差距盡可能小,。把這兩個限制條件同時作為目標(biāo),，就形成了一個恰恰合適對抗生成網(wǎng)絡(luò)做的事情。

KDD：連接工作與會議趨勢

機(jī)器之心：作為 KDD 中國主席,，能否分享下 KDD 中國的定位和任務(wù),，以及 KDD 大會的一些情況？

ACM SIGKDD 在中國的分會叫做 KDD China,，這個學(xué)術(shù)社區(qū)的主旨是做好各項「連接」的工作,，即連接學(xué)生和學(xué)者，連接公司和學(xué)校,，以及連接學(xué)界和社會,。本次 2018 的暑期學(xué)校分成三天（已于 2018 年 7 月 21-23 在成都的西南交通大學(xué)舉行），分別是業(yè)界專家觀點,、學(xué)生 2018 KDD 工作展示,，以及學(xué)界的「大牛」講解如何寫論文,、如何做研究,。旨在進(jìn)行學(xué)生與業(yè)界領(lǐng)袖的連接，工業(yè)與學(xué)術(shù)界的連接,，國內(nèi)和國外的連接等一系列工作?，F(xiàn)在看來效果還是非常不錯的,，會員已經(jīng)超過了 1000 人，本次活動報名的會員/非會員也達(dá)到了場地的極限,，達(dá)到三百多人,。

而即將在倫敦召開的 KDD 2018，頒發(fā)的獎項包括：

Research Innovation Award,，頒發(fā)給了芝加哥大學(xué)的劉兵教授,，他率先開展了輿情分析方面的工作。

Distinguished Service Award,，頒發(fā)給了清華大學(xué)的唐杰教授,，他在 KDD 領(lǐng)域做了大量的突出的服務(wù)性工作，包括在 2012 年在北京舉行的 KDD 所做的大量支持工作和建立著名的論文庫系統(tǒng) A-MINER 等的工作,。

Test of Time Award,，這個獎項頒發(fā)給發(fā)表在十年前的、產(chǎn)生了重大影響的文章,。今年的獲獎?wù)呤莵碜怨雀璧?Yehuda Koren,，獲獎?wù)撐氖顷P(guān)于推薦系統(tǒng)中的協(xié)同過濾問題。

在趨勢方面,，KDD 繼續(xù)以信息網(wǎng)絡(luò)的大數(shù)據(jù)為主題來研究,，但 KDD 也在近幾年開始舉辦以深度學(xué)習(xí)命名的一個 workshop，這也標(biāo)志著深度學(xué)習(xí)也成為了 KDD 所接受的一類方法,。

縱觀 KDD 的歷史,，會發(fā)現(xiàn)發(fā)起者背景主要有二，一是來自工業(yè)界,，比如曾經(jīng)以 IBM 、微軟等公司為代表一些領(lǐng)袖,，二是學(xué)界的領(lǐng)軍人物,。切入角度是起始于數(shù)據(jù)倉庫管理和關(guān)聯(lián)規(guī)則等的分析；后來機(jī)器學(xué)習(xí)算法逐漸進(jìn)入業(yè)界后,，越來越多的機(jī)器學(xué)習(xí)學(xué)者也進(jìn)入 KDD 界,，而 KDD 一直保持有很高的工業(yè)界參與度以及對工業(yè)實際問題的敏感度。

如今 KDD 和機(jī)器學(xué)習(xí)的一些區(qū)別包括,，KDD 是更多地以應(yīng)用問題為導(dǎo)向的會議,，很少有像強(qiáng)化學(xué)習(xí)等純機(jī)器學(xué)習(xí)算法的論文；KDD 相比于機(jī)器學(xué)習(xí)更關(guān)心社交網(wǎng)絡(luò)等信息網(wǎng)絡(luò)數(shù)據(jù),，更關(guān)心「人」的參與建模,，更在乎模型的可解釋性、數(shù)據(jù)可視化,、人對模型結(jié)論的理解等,，而機(jī)器學(xué)習(xí)更關(guān)注自動化和端到端的建模,。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息,，并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,，請及時通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施,，避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話：010-82306118；郵箱：[email protected],。

機(jī)器之心專訪楊強(qiáng)教授：聯(lián)邦遷移學(xué)習(xí)與金融領(lǐng)域的AI落地

日期： 2018-08-01

相關(guān)內(nèi)容