自然語言處理是一個(gè)龐大的領(lǐng)域,比如普通文本與對(duì)話就是兩個(gè)不同的領(lǐng)域,,對(duì)話領(lǐng)域里,,任務(wù)型對(duì)話又不同于閑聊型對(duì)話,問答式對(duì)話又不同于協(xié)作型對(duì)話……
因此,,自然語言處理領(lǐng)域的玩家們,,除了要思考模型的效果、產(chǎn)品的架構(gòu),,更要思考一個(gè)最為本質(zhì)的問題:要處理什么數(shù)據(jù),?為什么要處理這類數(shù)據(jù)?
Recurrent AI 選擇了「呼叫系統(tǒng)」,。
「電話錄音可追溯而不可作假,,這讓呼叫系統(tǒng)成為了一個(gè)不可篡改的精準(zhǔn)用戶畫像來源。同時(shí)坐席與客戶的全部溝通過程也完整保留在電話錄音中,,這意味著影響成單率的全部因素都在錄音之中,,只要你能準(zhǔn)確地把它們提取出來?!笴TO 張宇韜說,。
如何選擇提取哪些信息?如何分步進(jìn)行提???近日,機(jī)器之心前往 Recurrent AI(??苽悾?,與 CEO 陳麒聰、CTO 張宇韜,、首席科學(xué)家楊植麟進(jìn)行了深入的對(duì)話,。他們講述了一個(gè)用語音識(shí)別,、語義理解和數(shù)據(jù)挖掘,把呼叫系統(tǒng)「變廢為寶」的故事,。
機(jī)器之心Synced語音識(shí)別小程序
機(jī)器之心:能否介紹一下 DealTape(交易磁帶)智能呼叫系統(tǒng),?
我們的產(chǎn)品是一個(gè)優(yōu)化溝通的 AI,希望能夠從統(tǒng)計(jì)分析的角度幫助人們?nèi)シ治?,在不同的商業(yè)背景下,,哪些話術(shù)產(chǎn)生了積極的影響,哪些產(chǎn)生了消極的影響,。想要實(shí)現(xiàn)這一點(diǎn),,就首先需要語音識(shí)別和自然語言處理技術(shù),把聲音轉(zhuǎn)換成由標(biāo)簽組成的向量,,因此這也是我們的技術(shù)棧的主要構(gòu)成部分,。
我們最先切入的行業(yè)是那些會(huì)使用呼叫系統(tǒng)的行業(yè)。購買呼叫系統(tǒng)說明他們對(duì)監(jiān)督坐席與客戶溝通的過程是有強(qiáng)需求的,。然而過去囿于技術(shù),,大部分錄音只能靠人工重聽或者棄置。而我們的系統(tǒng)可以節(jié)省 90% 以上聽錄音的時(shí)間,,讓坐席和管理者都能夠直接發(fā)現(xiàn)溝通中的問題,、直接進(jìn)行有針對(duì)性的優(yōu)化。
機(jī)器之心:為什么選擇做智能呼叫系統(tǒng),?
我們幾位創(chuàng)始人的背景集中在 NLP 與數(shù)據(jù)挖掘領(lǐng)域,。最開始我們是從聊天機(jī)器人開始進(jìn)行業(yè)務(wù)上的探索的。然而一段時(shí)間之后,,我們逐漸認(rèn)識(shí)到,聊天機(jī)器人在商業(yè)邏輯上有一些不通暢的地方:一方面,,現(xiàn)在的任務(wù)型聊天機(jī)器人仍然需要非常深度的定制,,換言之成本十分高昂,另一方面,,它對(duì)于大多數(shù)公司仍然是一樣「nice to have」的東西,,大家的支付意愿也不是特別高。
因此,,我們就在思考,,做一些技術(shù)棧更深一點(diǎn)的東西。與其說創(chuàng)造對(duì)話,,不如對(duì)已有對(duì)話進(jìn)行分析,。而對(duì)話數(shù)據(jù)最多的地方就是呼叫中心。
呼叫中心的用戶花了大量成本進(jìn)行錄音,,但是卻沒有利用它獲得任何價(jià)值,。電話錄音可追溯而不可作假,,這讓呼叫系統(tǒng)成為了一個(gè)不可篡改的精準(zhǔn)用戶畫像來源。同時(shí)坐席與客戶的全部溝通過程也完整保留在電話錄音中,,這意味著影響成單率的全部因素都在錄音之中,,只要你能準(zhǔn)確地把它們提取出來。
所以我們就在思考,,如何能把利用這些數(shù)據(jù)提高企業(yè)的價(jià)值,。
機(jī)器之心:DealTape 能夠滿足哪些需求?
兩個(gè)典型的需求是培訓(xùn)和實(shí)時(shí)座席輔助,。
一方面是找到各種話術(shù)與成單率之間的關(guān)系,,幫助管理者可視化座席問題在哪里,然后通過個(gè)性化提示讓坐席學(xué)習(xí)容易成單的話術(shù),,能夠提高他們的銷售水平,。
另一類是自動(dòng)填寫客戶畫像,節(jié)省銷售記錄的時(shí)間,,可以聯(lián)系更多的客戶 , 以及實(shí)時(shí)根據(jù)客戶問題推送來自銷冠的優(yōu)秀回復(fù)案例,。
另一類是把客戶畫像抽取出來,分析其分布,,不同類型客戶的流失率,、成單率等,是一個(gè)數(shù)據(jù)來源詳實(shí)的商業(yè)分析工具,。
機(jī)器之心:DealTape 服務(wù)于哪些行業(yè),?對(duì)不同行業(yè)的系統(tǒng)進(jìn)行什么程度的定制?
會(huì)購買呼叫系統(tǒng)的企業(yè)都是我們的潛在用戶,。我們現(xiàn)在比較集中的行業(yè)是金融,,教育和 B2B。這些行業(yè)的很多基本情況非常類似:沒有一家獨(dú)斷的壟斷龍頭公司,,而是有非常多中等規(guī)模的企業(yè),,同時(shí)都可以支付得起呼叫系統(tǒng)和相關(guān)服務(wù)。因此在這些領(lǐng)域內(nèi),,DealTape 既有可擴(kuò)展性,,也能夠進(jìn)行一些定制。
針對(duì)每個(gè)不同的行業(yè),,我們都對(duì)語音和語義模型進(jìn)行了定制化,。
這是因?yàn)椋瑯邮呛艚邢到y(tǒng),,不同行業(yè)的使用方式差別會(huì)很大,,最后音頻中的信息分布、信息量以及內(nèi)容差異也非常大。例如保險(xiǎn)銷售需要在電話里和客戶確認(rèn)非常多個(gè)人信息,,一通電話可能長(zhǎng)達(dá)一小時(shí),。而信貸行業(yè)去銷售的時(shí)候,只需要詢問對(duì)方房產(chǎn),,社保等資質(zhì)再加微信邀約就可以結(jié)束了,,一個(gè)電話平均只要幾分鐘。
機(jī)器之心:從模型角度看,,DealTape 智能呼叫系統(tǒng)可以分成幾部分,?
我們的整個(gè)技術(shù)棧可以分為三層:
第一層是語音識(shí)別層,,主要解決的是如何把呼叫系統(tǒng)里一段短則幾分鐘,,長(zhǎng)則幾小時(shí)的電話錄音轉(zhuǎn)換為機(jī)器可以處理的雙軌文字記錄。
第二層是語義理解,,通過一系列的文本分類模型,,為文本中體現(xiàn)坐席與客戶特點(diǎn)的句子打上標(biāo)簽,并為對(duì)話雙方建立「畫像」,。
第三層是數(shù)據(jù)挖掘?qū)?,?jì)算不同的標(biāo)簽與成單率之間的關(guān)系,將結(jié)果用于培訓(xùn),、實(shí)時(shí)座席輔助等不同目標(biāo),。
圖:坐席的「話術(shù)點(diǎn)」標(biāo)簽類別
機(jī)器之心:語音識(shí)別層和語義理解層分別包括哪些模塊?進(jìn)行哪些任務(wù),?
語音識(shí)別層首先通過把人聲段落和背景噪音段落分開的形式把長(zhǎng)錄音斷句,,進(jìn)一步根據(jù)聲紋信息區(qū)分不同說話人身份,并判斷哪一方是銷售坐席,,哪一方是客戶,。這個(gè)階段解決的是「誰在說話」以及「在什么時(shí)候說話」。最后,,才對(duì)每一句話(utterance)進(jìn)行語音識(shí)別,。
語義理解層的目的是把自然語言結(jié)構(gòu)化,最后給出一系列關(guān)于坐席和客戶的標(biāo)簽,,我們稱之為「畫像」。
常見的針對(duì)坐席的標(biāo)簽包括「是不是加了微信」,,「是不是約了下次見面」等 KPI 衡量指標(biāo),。而常見的客戶標(biāo)簽則會(huì)根據(jù)行業(yè)的不同而產(chǎn)生比較大的差異。例如,,在金融信貸領(lǐng)域,,「是否有社保」,、「是否有房產(chǎn)」,,就是一些重要的二值標(biāo)簽,。標(biāo)簽的數(shù)量從幾個(gè)到幾十個(gè)不等,隨著新用戶逐漸加入,,需求逐漸增多,,我們也在不斷擴(kuò)充自己的標(biāo)簽體系。
圖:保險(xiǎn)行業(yè)的「保險(xiǎn)責(zé)任 1」標(biāo)簽對(duì)應(yīng)的語句樣例
機(jī)器之心:數(shù)據(jù)挖掘?qū)尤绾卫蒙蟽蓪咏o出的信息,?
數(shù)據(jù)挖掘?qū)酉袷且粋€(gè)商業(yè)智能(BI)工具包,。
在這一層,我們會(huì)對(duì)所有標(biāo)簽與成單率之間的關(guān)系建模,,找到那些與成單率負(fù)相關(guān)程度最高的,、波及客戶最多的因素,將它們視為目前坐席需要解決的首要問題,。
同時(shí),,我們會(huì)分析具有這些因素反而成單的案例,例如「被連續(xù)拒絕反而成單」的案例,,「被競(jìng)品先入為主反而成單」的案例,,分析究竟哪些話術(shù)起了作用促成了成單,找出銷售打動(dòng)客戶的原因,。
對(duì)于銷售坐席來說,,我們可以利用分析結(jié)果進(jìn)行有針對(duì)性的話術(shù)培訓(xùn)。我們可以根據(jù)某一位坐席的數(shù)據(jù)進(jìn)行回歸分析,,再把報(bào)表推送給他:通過數(shù)據(jù)分析,,我們發(fā)現(xiàn),從用戶角度,,你在遇到某種情況的客戶時(shí)成單率最低,,從個(gè)人角度,你的某一環(huán)節(jié)最為薄弱,,然后推送和他情況類似的成單案例,,對(duì)他進(jìn)行有針對(duì)性的話術(shù)培訓(xùn)。
對(duì)于管理者來說,,我們可以給出管理建議:例如,,一位坐席同時(shí)維護(hù)多少個(gè)客戶的時(shí)候,成單率最高,;又如,,哪些話術(shù)能夠最有效地促進(jìn)成單。
另外,,我們也可以通過上一層的語義理解,,進(jìn)行類似「網(wǎng)站埋點(diǎn)」,監(jiān)督坐席是不是按要求完成了工作,例如是不是推廣了小程序,。
機(jī)器之心:語音識(shí)別層的核心技術(shù)要點(diǎn)有哪些,?
眾所周知,語音識(shí)別模型除了需要聲學(xué)模型還需要語言模型,。
如果沒有語言模型,,單純用聲學(xué)模型進(jìn)行識(shí)別,文字會(huì)出現(xiàn)漏字,、同音字錯(cuò)誤識(shí)別等可讀性問題,。因此我們需要一個(gè)語言模型在解碼過程中對(duì)聲學(xué)模型定向搜索過的結(jié)果進(jìn)行一次重排序。
經(jīng)典的語言模型做法是采用 n-gram 統(tǒng)計(jì)模型,、但 n-gram 模型存在幾個(gè)問題,,一是因?yàn)閰?shù)非常多,所以容易過擬合,;二是即使在 n 取值非常小的時(shí)候,,例如 3-gram,仍然會(huì)發(fā)生參數(shù)爆炸,。后來有了基于神經(jīng)網(wǎng)絡(luò)的語言模型,,把每個(gè)詞,或者每個(gè)詞的分布變成一個(gè)嵌入碼(embedding), 然后用 RNN 模型來刻畫句子的上下文,。這一做法的局限性在于,,無論如何設(shè)計(jì)模型結(jié)構(gòu),最后都要通過 softmax 進(jìn)行輸出,,模型的表現(xiàn)力就被嵌入碼的規(guī)模所限制了,。
因此我們?cè)谡Z言模型中引入了「softmax 混合體」概念,相當(dāng)于將若干個(gè) softmax 解碼器做成了一個(gè)混合模型,,克服了基于神經(jīng)網(wǎng)絡(luò)的語言模型的表現(xiàn)力限制性,,在多個(gè)語言建模標(biāo)準(zhǔn)數(shù)據(jù)集上獲得復(fù)雜度(perplexity)的大幅提升,例如在 1B Word 數(shù)據(jù)集上就提高了 5.6%,。這篇文章入選了 ICLR 2018 oral,,是前段時(shí)間影響力比較好的一個(gè)工作。
機(jī)器之心:訓(xùn)練語音模型需要進(jìn)行什么規(guī)模的標(biāo)注工作,?
在冷啟動(dòng)階段,,我們對(duì)接了兩家不同行業(yè)的客戶,分別來自信貸領(lǐng)域和 B2B 銷售,,我們從他們的數(shù)據(jù)庫中提取數(shù)據(jù),,進(jìn)行了數(shù)百個(gè)小時(shí)的人工標(biāo)注,然后利用這部分?jǐn)?shù)據(jù)訓(xùn)練處了一個(gè)基本可用的基線模型,,用于后續(xù)的數(shù)據(jù)標(biāo)注。有了基線模型之后,新的未標(biāo)注數(shù)據(jù)首先通過基線模型進(jìn)行預(yù)識(shí)別,,再交給標(biāo)注員做精細(xì)標(biāo)注,,這樣成本就大大降低了。同時(shí),,基線模型的訓(xùn)練集也在不斷擴(kuò)充,,現(xiàn)在我們最新的基線模型訓(xùn)練集規(guī)模已經(jīng)達(dá)到數(shù)千個(gè)小時(shí)。
至于生產(chǎn)階段,,每個(gè)行業(yè)都有一個(gè)專屬的語音識(shí)別模型,,如果用戶所在行業(yè)是我們之前沒有接觸過的,那么我們需要大量標(biāo)注數(shù)據(jù)從頭訓(xùn)練,;如果我們之前做過相關(guān)行業(yè),,那么標(biāo)注的目的只是適配一下特定公司的數(shù)據(jù)特點(diǎn),這時(shí)只需要進(jìn)行「輕標(biāo)注」,,標(biāo)注量大概是新行業(yè)的十分之一,。
機(jī)器之心:目前市面上已經(jīng)有許多公司將語音識(shí)別視作一項(xiàng)基礎(chǔ)能力模塊,對(duì)外提供相對(duì)比較成熟的技術(shù)服務(wù),。為什么 Recurrent AI 仍然選擇「自己造輪子」,?而不是調(diào)用其他 API?
我們嘗試過用通用的語音識(shí)別引擎去識(shí)別電話錄音,,識(shí)別的結(jié)果并不足以支撐上層的語義處理任務(wù),。這是我們「重造輪子」的主要原因。通用語音識(shí)別引擎的識(shí)別結(jié)果會(huì)丟掉很多關(guān)鍵信息,,例如一些實(shí)體的名稱,,像公司名稱和產(chǎn)品名稱之類的,這是用戶最關(guān)心的一部分內(nèi)容,,但是反而不能被正確識(shí)別,。我們甚至嘗試過用一些規(guī)則修改通用識(shí)別引擎的識(shí)別結(jié)果,比如用戶的企業(yè)名稱是「百姓網(wǎng)」,,經(jīng)常被識(shí)別成「百姓好」,,那么我們可以制定規(guī)則把所有的「百姓好」修改成「百姓網(wǎng)」。但是識(shí)別模型是不可控的,,可能的錯(cuò)誤方式有太多了,。
另外,從「造輪子」的可行性角度,,雖然我們公司創(chuàng)始成員的主要背景是自然語言處理和數(shù)據(jù)挖掘,,但是深度學(xué)習(xí)這類端到端的算法在不同領(lǐng)域之內(nèi)有相通之處,而且它大大降低了語音識(shí)別的門檻——比如說標(biāo)注精度就從原來的需要「逐字校準(zhǔn)」變成了給出每句的對(duì)應(yīng)文本即可,,這就是一個(gè)成本和精力上可控的任務(wù)了,。
機(jī)器之心:數(shù)據(jù)挖掘?qū)拥暮诵募夹g(shù)要點(diǎn)有哪些,?
數(shù)據(jù)挖掘的難點(diǎn)就在于如何結(jié)合所有的特征去預(yù)測(cè)。我們一般從三個(gè)層面來考慮這個(gè)問題,,一是特征工程(feature engineering),,二是模型,三是模型的結(jié)合(ensemble),。模型層面需要考慮的問題比較少,,用分類器解決預(yù)測(cè)問題已經(jīng)成為定式,xgboost 等工具已經(jīng)非常成熟了,。所以我們考慮的主要是,,第一,怎么樣去定義更有效的特征,;第二,,怎么樣去做特征的交叉與結(jié)合,使得其表達(dá)能力和泛化能力更強(qiáng),;第三,,在最后模型結(jié)合、調(diào)參的層面,,把利用不同特征訓(xùn)練出來的模型進(jìn)行結(jié)合,。
機(jī)器之心:各個(gè)行業(yè)的「標(biāo)簽」是如何確定的?
每個(gè)行業(yè)的標(biāo)簽都有所不同,,標(biāo)簽是和我們的用戶逐步溝通出來的,。
用戶公司的運(yùn)營人員會(huì)和產(chǎn)品溝通,提供一小部分音頻,。我們的運(yùn)營人員在聽過錄音之后會(huì)幫助他們進(jìn)行設(shè)計(jì),,而用戶也會(huì)給出很多需求。
有一些標(biāo)簽?zāi)苊黠@地體現(xiàn)出用戶的商業(yè)邏輯,。比如說,,在一個(gè)競(jìng)價(jià)排名銷售的場(chǎng)景里,用戶就要求系統(tǒng)能夠區(qū)分出「不想花錢」,、「價(jià)格異議」和「問優(yōu)惠」,。在用戶看來,「不想花錢」指代的是完全不想付費(fèi),、想要免費(fèi)使用的客戶,。「價(jià)格異議」是一個(gè)更為積極的信號(hào),,表示客戶有支付意愿,,只是覺得價(jià)格太貴。而會(huì)「問優(yōu)惠」的客戶則更為主動(dòng),,信號(hào)更為積極,。
機(jī)器之心:行業(yè)內(nèi)存在哪些競(jìng)品嗎,?
在美國,公司使用呼叫系統(tǒng)的歷史遠(yuǎn)比國內(nèi)悠久,,普及情況也遠(yuǎn)勝于國內(nèi),,因此有一些類似的產(chǎn)品。例如有一家名為 Chorus 的公司,,還有 Gong.io (http://gong.io/) 都是針對(duì)銷售領(lǐng)域的智能對(duì)話系統(tǒng)公司,但它們針對(duì)的對(duì)象通常是視頻 demo,,在國內(nèi),,這一類場(chǎng)景還比較少。