利用機(jī)器學(xué)習(xí)技術(shù)審閱文檔,,生成摘要,,提高文字工作效率是人工智能的重要發(fā)展方向。近日,達(dá)觀(guān)數(shù)據(jù)推出了文檔智能審閱系統(tǒng) 2.0 版,,吸引了德勤、平安信托等眾多公司的青睞,。
在產(chǎn)品正式推出前,,機(jī)器之心找到了達(dá)觀(guān)數(shù)據(jù)的創(chuàng)始人和 CEO 陳運(yùn)文,他向我們介紹了達(dá)觀(guān)數(shù)據(jù)新版文檔審閱系統(tǒng)背后的技術(shù),,同時(shí)也對(duì)自然語(yǔ)言處理(NLP)和人工智能技術(shù)的未來(lái)進(jìn)行了展望,。作為國(guó)內(nèi)第一家將自動(dòng)語(yǔ)義分析技術(shù)應(yīng)用于行業(yè)中的人工智能公司,達(dá)觀(guān)數(shù)據(jù)成立于 2015 年,。這家公司旨在用文字語(yǔ)義自動(dòng)分析技術(shù)為企業(yè)級(jí)客戶(hù)提供文本自動(dòng)抽取,、審核、糾錯(cuò),、搜索,、推薦、寫(xiě)作等智能軟件系統(tǒng),。
該公司的 CEO 陳運(yùn)文博士畢業(yè)于復(fù)旦大學(xué),,他同時(shí)也是上海市計(jì)算機(jī)學(xué)會(huì)多媒體分會(huì)副會(huì)長(zhǎng)、國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)和國(guó)際電子電器工程師學(xué)會(huì)(IEEE)高級(jí)會(huì)員,,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)會(huì)員,。他曾擔(dān)任盛大文學(xué)首席數(shù)據(jù)官,騰訊文學(xué)高級(jí)總監(jiān),、數(shù)據(jù)中心負(fù)責(zé)人,,百度核心技術(shù)研發(fā)工程師等職務(wù),曾帶領(lǐng)團(tuán)隊(duì)多次獲得 ACM 競(jìng)賽冠亞軍,。
達(dá)觀(guān)數(shù)據(jù)創(chuàng)始人,、CEO 陳運(yùn)文博士
陳運(yùn)文的職場(chǎng)經(jīng)歷,無(wú)論是百度的搜索引擎技術(shù)研發(fā),,還是盛大文學(xué)的數(shù)據(jù)負(fù)責(zé)人,,都是在與數(shù)據(jù)打交道。他曾經(jīng)研究利用技術(shù)挖掘數(shù)據(jù)提高公司的效率和收入,,而在達(dá)觀(guān)數(shù)據(jù),,他領(lǐng)導(dǎo)開(kāi)發(fā)的技術(shù)力量已經(jīng)可以剖析用戶(hù)的海量數(shù)據(jù),為更多企業(yè)提升收益,。
達(dá)觀(guān)數(shù)據(jù)是一家具有學(xué)術(shù)背景的公司,,專(zhuān)注于將最新自然語(yǔ)言處理技術(shù)應(yīng)用到具體場(chǎng)景中,。「這件事情很難,,但是我覺(jué)得特別有意思:我們面臨著很多的技術(shù)挑戰(zhàn),,有很多的工作要做,有困難才有動(dòng)力,?!龟愡\(yùn)文表示。
文檔審閱 2.0
在達(dá)觀(guān)數(shù)據(jù)描繪的未來(lái)里,,計(jì)算機(jī)并不會(huì)百分之百的代替人,,它會(huì)作為人類(lèi)的助手存在,對(duì)文檔進(jìn)行快速處理,,補(bǔ)充人類(lèi)的不足之處,。人工智能算法可以發(fā)現(xiàn)人們?nèi)菀缀雎缘腻e(cuò)誤。而人類(lèi)在工作流程中的任務(wù)是復(fù)查計(jì)算機(jī)給出的結(jié)果,,這樣可以大幅度提高工作效率,。
在金融等對(duì)于文本準(zhǔn)確性要求很高的行業(yè)中,計(jì)算機(jī)具有快速處理數(shù)據(jù)的能力,,對(duì)內(nèi)容的復(fù)核,,包括字詞的復(fù)核都有天然的優(yōu)勢(shì)。
達(dá)觀(guān)數(shù)據(jù)的文檔智能審閱系統(tǒng)可以一鍵審核數(shù)十種常見(jiàn)風(fēng)險(xiǎn),。
在這個(gè)過(guò)程中,達(dá)觀(guān)數(shù)據(jù)面臨著很多挑戰(zhàn),?!肝覀兿M層?jì)算機(jī)理解金融行業(yè)里的領(lǐng)域知識(shí)——『Know how』,」陳運(yùn)文表示,,「讓算法和專(zhuān)業(yè)內(nèi)容更加緊密地結(jié)合在一起,。因此,我們投入了大量精力去了解和掌握金融行業(yè)員工日常的操作方式,。我們需要把領(lǐng)域內(nèi)的知識(shí)固化到軟件系統(tǒng)內(nèi),,這樣軟件才能像白領(lǐng)員工一樣進(jìn)行工作?!?/p>
陳運(yùn)文表示,,達(dá)觀(guān)數(shù)據(jù)的語(yǔ)言處理模型在訓(xùn)練時(shí)使用了兩部分?jǐn)?shù)據(jù),一部分是特定領(lǐng)域內(nèi)的語(yǔ)料數(shù)據(jù),,包括行業(yè)中公開(kāi)的語(yǔ)料數(shù)據(jù),、資料、專(zhuān)業(yè)術(shù)語(yǔ)等,。公司技術(shù)人員已投入大量精力對(duì)數(shù)據(jù)進(jìn)行了采集,、歸納整理和分析,。另一方面,達(dá)觀(guān)數(shù)據(jù)的客戶(hù)多年來(lái)也積累了大量高質(zhì)量行業(yè)數(shù)據(jù),。通過(guò)高質(zhì)量的數(shù)據(jù)訓(xùn)練算法,,計(jì)算機(jī)系統(tǒng)會(huì)變得越來(lái)越聰明。據(jù)稱(chēng),,在一些具體操作中,,達(dá)觀(guān)數(shù)據(jù)的系統(tǒng)已具備了遠(yuǎn)超過(guò)普通人類(lèi)的處理能力。
達(dá)觀(guān)數(shù)據(jù)的文檔審核系統(tǒng)在糾錯(cuò)算法和審核算法中采用了 LSTM 等技術(shù),,其 2.0 版還引入了遷移學(xué)習(xí)和增強(qiáng)學(xué)習(xí),。復(fù)雜的模型帶來(lái)了更高的準(zhǔn)確率,但也意味著計(jì)算成本的提升,。而陳運(yùn)文表示,,即使在這樣的情況下,計(jì)算機(jī)帶來(lái)的便利性也大大超過(guò)了人力成本,。
「深度學(xué)習(xí),、LSTM 等算法確實(shí)是比傳統(tǒng)統(tǒng)計(jì)學(xué)習(xí)需要耗費(fèi)更多的算力,」陳運(yùn)文介紹道,,「但另一方面,,相比于高昂的人力成本來(lái)說(shuō)。這些算法背后依賴(lài)的硬件成本即使在今天看來(lái)也并不高,。由 GPU 組建的集群需要的成本比一群金融業(yè)白領(lǐng)的年薪要低得多,。」
算力問(wèn)題并不會(huì)成為實(shí)踐面臨的障礙,。除了已有的效率優(yōu)勢(shì)之外,,另一方面,硬件的成本每一年都在降低,。達(dá)觀(guān)數(shù)據(jù)認(rèn)為,,在未來(lái),文本挖掘,、自然語(yǔ)言處理的成本會(huì)降低到難以想象的地步——而要付給員工的工資只會(huì)不斷增多,。
在可用性方面,機(jī)器學(xué)習(xí)系統(tǒng)也有著自己的優(yōu)勢(shì),。在達(dá)觀(guān)數(shù)據(jù)很多客戶(hù)的專(zhuān)業(yè)領(lǐng)域內(nèi),,培養(yǎng)一個(gè)專(zhuān)家需要很多年的時(shí)間,在此之后,,經(jīng)驗(yàn)和知識(shí)又很難遷移到其他人身上,。而在今天,計(jì)算機(jī)軟件系統(tǒng)一旦訓(xùn)練好,就具備了類(lèi)似人類(lèi)專(zhuān)家水平的能力,,同時(shí)可以零成本地進(jìn)行復(fù)制,,服務(wù)更多人。
達(dá)觀(guān)數(shù)據(jù)曾做過(guò)比較,,現(xiàn)在一臺(tái)服務(wù)器提供的工作能力基本相當(dāng)于 15 個(gè)普通的員工,。而隨著硬件成本的下降,這個(gè)數(shù)字還將不斷提高?,F(xiàn)在一臺(tái)服務(wù)器運(yùn)行一年的成本可以是 2 萬(wàn)元以?xún)?nèi),。
在提高計(jì)算并行化效率上,達(dá)觀(guān)數(shù)據(jù)的產(chǎn)品采用了 Mini batch 等新技術(shù),。同時(shí),,其模型也結(jié)合了 LSTM、CNN,、統(tǒng)計(jì)學(xué)習(xí)等方法,,通過(guò)獨(dú)有的雙層組合學(xué)習(xí)的方法,整個(gè)系統(tǒng)可充分發(fā)揮各種算法的優(yōu)勢(shì),,讓算法的能力發(fā)揮到最大,。
逐漸成型的市場(chǎng)
在技術(shù)以外,如何向傳統(tǒng)公司推廣人工智能產(chǎn)品也是擺在各家 AI 科技公司面前的難題,。在達(dá)觀(guān)數(shù)據(jù)看來(lái),,目前最困難的起始階段已經(jīng)過(guò)去。
「坦率地說(shuō),,應(yīng)該感謝媒體,,它們過(guò)去三四年來(lái)對(duì)于人工智能進(jìn)行了大量的宣傳報(bào)道,」陳運(yùn)文表示,,「我們發(fā)現(xiàn)傳統(tǒng)行業(yè)客戶(hù),,不論是領(lǐng)導(dǎo)還是一線(xiàn)的員工,他們都對(duì)人工智能,、大數(shù)據(jù)和信息化帶來(lái)的價(jià)值有所了解。我們現(xiàn)在向客戶(hù)介紹產(chǎn)品沒(méi)有什么障礙,,客戶(hù)都很樂(lè)意去嘗試先進(jìn)的技術(shù),。」
但解決方案成型關(guān)鍵在于如何很好地解決客戶(hù)面臨的問(wèn)題,。
達(dá)觀(guān)數(shù)據(jù)認(rèn)為,,今天中國(guó)的 AI 產(chǎn)業(yè)正處于歷史上很好的一個(gè)時(shí)期——來(lái)自各行各業(yè)的客戶(hù)們已經(jīng)開(kāi)始愿意接受新興的技術(shù)——但這也意味著科技公司不能制造泡沫,必須打造優(yōu)秀的產(chǎn)品,,要讓客戶(hù)覺(jué)得產(chǎn)品配得上人工智能的稱(chēng)號(hào),。
在 NLP 的賽場(chǎng)上,一些科技巨頭也在不斷展示著自己的實(shí)力。面對(duì)競(jìng)爭(zhēng),,陳運(yùn)文認(rèn)為國(guó)內(nèi) AI 公司的優(yōu)勢(shì)在于能夠提供個(gè)性化的服務(wù):「微軟在 NLP 領(lǐng)域有著強(qiáng)大的技術(shù)實(shí)力,,但中國(guó)本土的企業(yè)并不落后。我們的優(yōu)勢(shì)在于可以向客戶(hù)提供貼身的服務(wù),?!惯_(dá)觀(guān)數(shù)據(jù)在實(shí)踐中發(fā)現(xiàn),每一個(gè)客戶(hù)的需求都有些許的差異——很難用一個(gè)通用化的模型來(lái)滿(mǎn)足不同客戶(hù)的個(gè)性化需求,。
這家公司致力于為客戶(hù)提供解決實(shí)際問(wèn)題的系統(tǒng),,提供定制化方案,而不是通過(guò)一個(gè)大而全的平臺(tái),,試圖通過(guò)一個(gè)算法解決大量問(wèn)題——這樣很難把一個(gè)具體的問(wèn)題解決的足夠好,。
目前達(dá)觀(guān)數(shù)據(jù)的文檔處理系統(tǒng)已經(jīng)發(fā)展了大量客戶(hù),其中包括很多世界五百?gòu)?qiáng)的大型企業(yè),,金融行業(yè),、新聞媒體、法律行業(yè)和政府,。如招商銀行,、平安信托、華泰證券等等金融領(lǐng)域的公司,;以及華為,、海爾等五百?gòu)?qiáng)企業(yè)里的標(biāo)桿客戶(hù)。這些客戶(hù),、行業(yè)的特點(diǎn)是它們都會(huì)接觸大量的文檔資料,。
達(dá)觀(guān)數(shù)據(jù)文檔處理系統(tǒng)下一步的推廣目標(biāo)是傳媒行業(yè)、政府和事業(yè)單位,。這些機(jī)構(gòu)每天都面臨著大量的文字處理工作,,而目前為止,所有這些都需要耗費(fèi)大量的人力,,未來(lái)這家公司提供的系統(tǒng)將會(huì)大幅解放這些人力,。
達(dá)觀(guān)數(shù)據(jù)發(fā)現(xiàn),很多發(fā)達(dá)地區(qū)的地方政府對(duì)于新技術(shù)具有很高的熱情,。比如行政審批,,這幾乎占到了政府部門(mén) 1/3 的工作量。這些工作目前都還是依靠大量的基層公務(wù)員來(lái)做的,。達(dá)觀(guān)數(shù)據(jù)預(yù)計(jì),,它們中的很大一部分,包括預(yù)審,、材料檢查等都可以在未來(lái)由計(jì)算機(jī)來(lái)承擔(dān),。
技術(shù)優(yōu)先的團(tuán)隊(duì)
基于公司的基因,,陳運(yùn)文為達(dá)觀(guān)數(shù)據(jù)選擇了面向企業(yè)客戶(hù)的道路。經(jīng)過(guò)三年多的發(fā)展,,這家公司已形成了規(guī)模近 200 人的團(tuán)隊(duì),,其中研發(fā)團(tuán)隊(duì)占六成。這家公司有著濃厚的技術(shù)氛圍,,一直在不斷發(fā)表介紹 NLP 技術(shù)的博客,,舉辦算法大賽。
「我自己也在寫(xiě)技術(shù)博客,!我們對(duì)于技術(shù)的態(tài)度非常開(kāi)放:技術(shù)是要拿出來(lái)分享的,。」陳運(yùn)文表示,,「我特別鼓勵(lì)員工總結(jié)自己的經(jīng)驗(yàn)和想法,,把它寫(xiě)成文章發(fā)表出來(lái),讓所有文本挖掘的愛(ài)好者都能夠看得見(jiàn),。這樣對(duì)于整個(gè)產(chǎn)業(yè)都是有益的,。」
達(dá)觀(guān)數(shù)據(jù)有很多工程師都公開(kāi)發(fā)表了技術(shù)博客,,這些文章經(jīng)常會(huì)填補(bǔ)國(guó)內(nèi)在特定領(lǐng)域上技術(shù)文章的空白,。
陳運(yùn)文曾帶隊(duì)參加 ACM 數(shù)據(jù)競(jìng)賽并獲獎(jiǎng)。
陳運(yùn)文也有著數(shù)據(jù)競(jìng)賽的情節(jié),。他曾作為隊(duì)長(zhǎng)組隊(duì)參加過(guò)很多國(guó)際算法競(jìng)賽,,并拿到過(guò)多個(gè)冠軍。達(dá)觀(guān)數(shù)據(jù)舉辦了自己的 NLP 數(shù)據(jù)競(jìng)賽:「達(dá)觀(guān)杯」文本智能處理挑戰(zhàn)賽,。據(jù)介紹,,今年的比賽已經(jīng)吸引了 2000 余名參賽選手,成為了目前國(guó)內(nèi)規(guī)模最大的文本挖掘比賽,。達(dá)觀(guān)數(shù)據(jù)認(rèn)為,,能夠聚攏全國(guó)最具實(shí)力的文本挖掘愛(ài)好者共同解決一個(gè)問(wèn)題,是一個(gè)很有意義的事情,。
在 2017 年 4 月的 A 輪融資后,,達(dá)觀(guān)數(shù)據(jù)已經(jīng)推出了多種產(chǎn)品,并迅速拓展了業(yè)務(wù),。陳運(yùn)文本次還透露,,達(dá)觀(guān)數(shù)據(jù)即將在 2018 年第三個(gè)季度公布自己的 B 輪融資交易情況。這將成為中國(guó)目前為止自然語(yǔ)言處理領(lǐng)域內(nèi)最大的融資之一,。具體細(xì)節(jié)很快即將公布,。
文本挖掘在中國(guó),,不僅是在技術(shù)上,,還是在應(yīng)用上都仍處于早期狀態(tài)。在未來(lái),達(dá)觀(guān)數(shù)據(jù)的發(fā)展將會(huì)著力于兩個(gè)方面,,一方面繼續(xù)加大技術(shù)上的投入:把中文的文本挖掘技術(shù)做深做透,。而在應(yīng)用方面,達(dá)觀(guān)數(shù)據(jù)希望改變中國(guó)傳統(tǒng)企業(yè)「人拉肩扛」的原始文本處理方式,,為眾多客戶(hù)帶來(lái)自動(dòng)化,。
「我們認(rèn)為,大量的文字處理應(yīng)用場(chǎng)景未來(lái)一定需要更好的工具,、更自動(dòng)化的手段,,去幫助人們提高工作效率?!龟愡\(yùn)文表示,,「我們會(huì)開(kāi)發(fā)更多的應(yīng)用,部署到每個(gè)行業(yè),、每個(gè)客戶(hù)身邊,。對(duì)于我們來(lái)說(shuō),未來(lái)還有很多工作要做,?!棺鳛橐患覍?zhuān)注于語(yǔ)義理解技術(shù)的 AI 企業(yè),達(dá)觀(guān)數(shù)據(jù)文檔智能審閱系統(tǒng) 2.0 版本只是一個(gè)開(kāi)始,,這家公司還希望在未來(lái)向普通用戶(hù)提供更多產(chǎn)品,。
「也許等我們有足夠的資源和力量的時(shí)候,會(huì)嘗試推出一些面向消費(fèi)者的文字處理工具,。未來(lái)也許每一個(gè)中國(guó)的消費(fèi)者,,在頭疼于文字處理中時(shí),達(dá)觀(guān)數(shù)據(jù)的系統(tǒng)可以為你們提供幫助,。不管是寫(xiě)作,、修訂、審閱,、分類(lèi),,人工智能系統(tǒng)都能夠大幅度提高人們的工作效率?!龟愡\(yùn)文表示,。