擁抱開(kāi)源生態(tài) 賦能數(shù)字化轉(zhuǎn)型
開(kāi)源產(chǎn)業(yè)近年來(lái)在國(guó)內(nèi)取得了世人矚目的成績(jī),中國(guó)開(kāi)發(fā)者也從一個(gè)開(kāi)源的使用者,變成了全球主流的開(kāi)源貢獻(xiàn)者。開(kāi)源協(xié)作創(chuàng)新的開(kāi)發(fā)模式,,也成為了推動(dòng)軟件產(chǎn)業(yè)持續(xù)創(chuàng)新發(fā)展的源泉。毋庸置疑,,當(dāng)前國(guó)內(nèi)開(kāi)源熱度空前高漲,,而開(kāi)源并不僅僅是“開(kāi)放源代碼”,政府和企業(yè)組織使用開(kāi)源也不是毫無(wú)規(guī)章,開(kāi)源背后涉及的人,、社區(qū),、管理等因素,都有其自身的規(guī)則,。而由于國(guó)內(nèi)開(kāi)源整體起步較晚,,政府和企業(yè)在采用開(kāi)源加速創(chuàng)新的同時(shí),也遇到了前所未有的挑戰(zhàn),。
挑戰(zhàn)主要來(lái)源于三個(gè)方面,,第一,對(duì)于政府和傳統(tǒng)型企業(yè)而言,,要進(jìn)行數(shù)智化轉(zhuǎn)型升級(jí),,打造高效的物聯(lián)網(wǎng)數(shù)據(jù)處理平臺(tái)是根基。中國(guó)是制造大國(guó),,要向智造大國(guó)轉(zhuǎn)型,,打造數(shù)字化的工業(yè)互聯(lián)網(wǎng)平臺(tái)也是非常關(guān)鍵的一部。第二,,隨著政府和企業(yè)數(shù)字化轉(zhuǎn)型的步伐加快,,全球人工智能人才缺口很大,迫切需要推動(dòng)人工智能教育體系的發(fā)展,,夯實(shí)人工智能發(fā)展的基礎(chǔ),。隨著人工智能成為像互聯(lián)網(wǎng)一樣的基礎(chǔ)設(shè)施進(jìn)度不斷加快,相關(guān)人才需求也勢(shì)必成為產(chǎn)業(yè)發(fā)展的關(guān)鍵,。第三,,數(shù)據(jù)的正確性和聚集,在數(shù)據(jù)上同樣會(huì)發(fā)現(xiàn)面臨的問(wèn)題,,數(shù)據(jù)量過(guò)大難以采集,,數(shù)據(jù)相對(duì)分散沒(méi)有標(biāo)準(zhǔn),沒(méi)有數(shù)據(jù)識(shí)別,,人員協(xié)同較復(fù)雜等,。數(shù)據(jù)的高效采集和處理是數(shù)智化轉(zhuǎn)型的核心基礎(chǔ)。
在這種挑戰(zhàn)之下,,AI的應(yīng)用場(chǎng)景卻在不斷增加?,F(xiàn)在很多智能化的場(chǎng)景已經(jīng)走進(jìn)了生活中,比如人臉識(shí)別技術(shù),、線下門(mén)店,、智能家居、智能零售,,再進(jìn)一步像是智慧城市,,這些技術(shù)的背后都是大量數(shù)據(jù)的綜合處理與分析,。所以政府和企業(yè)的數(shù)智化轉(zhuǎn)型,有三個(gè)核心點(diǎn):數(shù)據(jù)的采集和高效存儲(chǔ),、對(duì)實(shí)時(shí)分析的靈活支持,、打造數(shù)據(jù)平臺(tái)底座,為其他系統(tǒng)提供支撐,。中國(guó)工程院譚建榮院士表示“要掌握核心技術(shù),,要掌握高新技術(shù),必須從基礎(chǔ)研究開(kāi)始,?!辈⒃诖髸?huì)中提出,通過(guò):智能制造+創(chuàng)新設(shè)計(jì),、智能制造+工藝提升,、智能制造+強(qiáng)化質(zhì)量、智能制造和衍生服務(wù),、智能制造+拓展市場(chǎng)五大方法將促進(jìn)實(shí)現(xiàn)數(shù)字經(jīng)濟(jì)和數(shù)字轉(zhuǎn)型,。九章云極DataCanvas 自成立之初就深耕AutoML自動(dòng)機(jī)器學(xué)習(xí)、AutoDL自動(dòng)深度學(xué)習(xí)等自動(dòng)化技術(shù),,堅(jiān)持自主研發(fā)和開(kāi)源開(kāi)放,,堅(jiān)持不斷為業(yè)界輸出開(kāi)源技術(shù)成多行業(yè)場(chǎng)景創(chuàng)新應(yīng)用,全力帶動(dòng)數(shù)據(jù)科學(xué)行業(yè)發(fā)展,?!皩?shí)現(xiàn)AI賦能,拓展無(wú)限現(xiàn)象”,, DAT 自動(dòng)機(jī)器學(xué)習(xí)工具包和 DingoDB 實(shí)時(shí)交互式分析數(shù)據(jù)庫(kù)的發(fā)布更堅(jiān)定了開(kāi)放開(kāi)源,,拓展 AI 的無(wú)限可能。
應(yīng)對(duì)時(shí)代挑戰(zhàn),,DAT和DingoDB的雙核驅(qū)動(dòng)
數(shù)據(jù)是新時(shí)代的石油,,沒(méi)有數(shù)據(jù)智能便無(wú)從談起。目前在政府和大多數(shù)企業(yè)中,,數(shù)據(jù)的價(jià)值主要體現(xiàn)在進(jìn)行粗淺的數(shù)據(jù)分析,,將數(shù)據(jù)做成包含餅圖、折線圖等的可視化報(bào)表,,進(jìn)而指導(dǎo)業(yè)務(wù),。而隨著政府和企業(yè)積累的數(shù)據(jù)越來(lái)越豐富,對(duì)數(shù)據(jù)分析的要求越來(lái)越高,,過(guò)去的數(shù)據(jù)分析方式已經(jīng)不能滿(mǎn)足政府和企業(yè)的需求,。
九章云極DataCanvas 董事長(zhǎng)方磊表示,政府和企業(yè)數(shù)據(jù)的價(jià)值正在發(fā)生轉(zhuǎn)變,,數(shù)據(jù)分析進(jìn)入了“增強(qiáng)分析”階段,,即通過(guò)機(jī)器學(xué)習(xí)或者人工智能增強(qiáng)數(shù)據(jù)分析能力,。以“硬科技”立身的九章云極DataCanvas將持續(xù)在AutoML領(lǐng)域?qū)崿F(xiàn)技術(shù)創(chuàng)新與研發(fā),運(yùn)用AutoML,、AutoDL技術(shù)為金融、通信,、制造,、政府等眾多行業(yè)提供專(zhuān)業(yè)的技術(shù)服務(wù),解決政府和企業(yè)在數(shù)智化升級(jí)中對(duì)于實(shí)時(shí)性的需求,。正是在這樣的初心引導(dǎo)下,,才有了今天面向自主建模、自動(dòng)建模的DAT開(kāi)源產(chǎn)品,,以及面向高并發(fā),、能夠做實(shí)時(shí)分析的DingoDB數(shù)據(jù)庫(kù)的開(kāi)源發(fā)布。
DataCanvas AutoML Toolkit(DAT)
DataCanvas AutoML Toolkit(DAT)是一個(gè)自動(dòng)機(jī)器學(xué)習(xí)工具套件包,,包含了一系列功能強(qiáng)大的 AutoML 開(kāi)源工具,,從底層的通用自動(dòng)機(jī)器學(xué)習(xí)框架到用于結(jié)構(gòu)化及非結(jié)構(gòu)化領(lǐng)域端到端的自動(dòng)建模工具。DAT的所有項(xiàng)目都是以開(kāi)源方式來(lái)開(kāi)發(fā)的,,目前接收到來(lái)自于GitHub社區(qū)Star的數(shù)量超過(guò)2600個(gè),,來(lái)自于社區(qū)的安裝和下載次數(shù)超過(guò)6萬(wàn)次。
整個(gè)DAT的工具站,,從面向任務(wù)來(lái)分,,同時(shí)可以覆蓋結(jié)構(gòu)化、以及非結(jié)構(gòu)化,;從面向人群來(lái)分,,即可以面向于專(zhuān)業(yè)的AI從業(yè)人員,也可以讓沒(méi)有專(zhuān)業(yè)AI背景的人員,,利用AutoML有相應(yīng)的工具可以使用,,即可以滿(mǎn)足AI使用者的需求,還有面向AutoML工具開(kāi)發(fā)者的相應(yīng)框架,。
因此,,DAT并不是一個(gè)面向某一個(gè)場(chǎng)景來(lái)開(kāi)發(fā)的工具,是希望AutoML能夠面向于不同人群,,從不同角度和各個(gè)層面全方位地釋放AutoML能力,,為用戶(hù)來(lái)賦能。
DAT 的工具??梢苑譃槿龑樱菏紫仁亲畹讓拥?AutoML 框架 Hypernets,、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)框架,中間是 AutoML 工具如 DeepTables,、最上層是應(yīng)用工具:HyperGBM,、HyperDT,、HyperKeras、Cooka,。
DingoDB
DingoDB是新一代的實(shí)時(shí)交互式分析數(shù)據(jù)庫(kù),,能夠提供高并發(fā)的數(shù)據(jù)服務(wù)。現(xiàn)在政府和企業(yè)的數(shù)據(jù)架構(gòu)基本上采用Lambda架構(gòu)的模式,, 它不僅僅是政府和企業(yè)主流的數(shù)據(jù)架構(gòu),,也是很多互聯(lián)網(wǎng)公司主流的一種數(shù)據(jù)架構(gòu),但在許多方面存在潛在的風(fēng)險(xiǎn)和問(wèn)題:
?。?)數(shù)據(jù)散列存儲(chǔ)的問(wèn)題,,存在多套存儲(chǔ)引擎,數(shù)據(jù)的融合會(huì)變的非常困難,,由此引申出來(lái)一個(gè)新的領(lǐng)域,,多數(shù)據(jù)庫(kù)模式的聯(lián)邦查詢(xún)。
?。?)數(shù)據(jù)存儲(chǔ)在多個(gè)存儲(chǔ)引擎中,,數(shù)據(jù)的一致性和準(zhǔn)確性變的非常困難,存在數(shù)據(jù)核對(duì)和多次矯正的問(wèn)題,。
?。?)高并發(fā)的數(shù)據(jù)服務(wù)和及時(shí)修改的能力較差,通常會(huì)在數(shù)據(jù)服務(wù)層增加各種緩存和KV數(shù)據(jù)庫(kù)來(lái)進(jìn)行服務(wù)提速,,來(lái)提高服務(wù)的并發(fā)性,。
總而言之,多套存儲(chǔ)引擎,、計(jì)算引擎以及各種緩存的存在,,讓政府和企業(yè)的數(shù)據(jù)平臺(tái)架構(gòu)變的異常復(fù)雜,學(xué)習(xí)和運(yùn)維的成本變的極高,。研發(fā)新的數(shù)據(jù)構(gòu)架迫在眉睫,,因此DingoDB就誕生了。
這兩款開(kāi)源產(chǎn)品能夠讓數(shù)據(jù)分析的過(guò)程既快又簡(jiǎn)單,,幫助更多的非專(zhuān)業(yè)的數(shù)據(jù)科學(xué)家也可以使用進(jìn)行數(shù)據(jù)的建模和分析,。
面向模型困局,數(shù)據(jù)側(cè)還能做什么
數(shù)據(jù)要服務(wù)于人工智能的機(jī)器學(xué)習(xí)算法模型,,但是在建模過(guò)程中“不均衡,、概念漂移、泛化能力和大規(guī)模數(shù)據(jù)”這4大難點(diǎn)的呢,?DAT針對(duì)這些難點(diǎn)做出了如下優(yōu)化:
不均衡
使用降采樣的方法防止主類(lèi)過(guò)擬合,,同時(shí)通過(guò)多種樣本生成的方法去修補(bǔ)小類(lèi)數(shù)據(jù)的真實(shí)分布,防止小類(lèi)上面的欠擬合。
概念漂移
針對(duì)概念漂移的問(wèn)題,,會(huì)用一種受生成對(duì)抗網(wǎng)絡(luò)(GAN)啟發(fā)的半監(jiān)督學(xué)習(xí)技術(shù)“對(duì)抗驗(yàn)證(Adversarial Validation)”的方法,,在建模之前就能夠有效的識(shí)別哪些特征發(fā)生了漂移,然后針對(duì)性的做一些處理,,這樣就會(huì)提高整個(gè)模型的線上的一個(gè)穩(wěn)定性,,有效防止模型退化問(wèn)題。
泛化能力
對(duì)于提升泛化能力,,會(huì)通過(guò)自動(dòng)特征工程中有針對(duì)性的特征篩選,,在建模過(guò)程中會(huì)對(duì)一些正則化的參數(shù)進(jìn)行優(yōu)化,還有通過(guò)模型融合Ensemble這樣一系列的組合拳來(lái)提高模型整體的泛化能力,。并引入了一些半監(jiān)督的學(xué)習(xí)技術(shù),像是偽標(biāo)簽學(xué)習(xí),,在結(jié)構(gòu)化數(shù)據(jù)中使用偽標(biāo)簽學(xué)習(xí)也是相對(duì)比較先進(jìn)的一種方式,。
大規(guī)模數(shù)據(jù)
底層的計(jì)算引擎和整個(gè)的系統(tǒng)架構(gòu)上用分布式的架構(gòu),同時(shí)能夠支持基于單機(jī)模式的訓(xùn)練,,也可以支持分布式集群的模式來(lái)訓(xùn)練,,整個(gè)的系統(tǒng)架構(gòu)可以橫向伸縮,滿(mǎn)足任意量級(jí)的數(shù)據(jù)規(guī)模,。
DingoDB借鑒了TP系統(tǒng)和AP系統(tǒng)各自的優(yōu)點(diǎn),,在存儲(chǔ)海量數(shù)據(jù)的同時(shí),能夠進(jìn)行高并發(fā)的數(shù)據(jù)查詢(xún),,實(shí)時(shí)的數(shù)據(jù)分析,。數(shù)據(jù)從各種類(lèi)型的渠道導(dǎo)入DingoDB,借助DingoDB的高并發(fā)查詢(xún),,實(shí)時(shí)數(shù)據(jù)分析和多維分析的能力,,來(lái)支撐政府和企業(yè)若干業(yè)務(wù)應(yīng)用。
那相較于獨(dú)立的OLTP和OLAP這兩種開(kāi)源數(shù)據(jù)產(chǎn)品,,DingoDB這類(lèi)混合型的HASP(Hybrid Serving & Analytical Processing實(shí)時(shí)分析數(shù)據(jù)庫(kù))產(chǎn)品有哪些優(yōu)勢(shì)呢,?
行列混合:采用了統(tǒng)一的存儲(chǔ)的設(shè)計(jì),支持行存,、列存和行列混合的存儲(chǔ)形式,。
標(biāo)準(zhǔn)SQL:支持ANSI SQL 語(yǔ)法,可以和Calcite客戶(hù)端,、BI報(bào)表工具無(wú)縫銜接,。
實(shí)時(shí)高頻更新:Dingo數(shù)據(jù)庫(kù)能夠基于主鍵,實(shí)現(xiàn)數(shù)據(jù)記錄的 Upsert,、Delete 操作,;同時(shí)數(shù)據(jù)采用多分區(qū)副本機(jī)制,能夠?qū)?Upsert,、Delete 操作轉(zhuǎn)化為 Key-Value 操作,,實(shí)現(xiàn)高頻更新,。
對(duì)于數(shù)據(jù)庫(kù)產(chǎn)品而言,僅僅做到性能上的出眾是遠(yuǎn)遠(yuǎn)不夠的,,無(wú)論開(kāi)發(fā)者看重的上手難度,、學(xué)習(xí)成本,還是政府和企業(yè)看重的產(chǎn)品穩(wěn)定性與業(yè)務(wù)兼容性,,都是很重要的,。DingoDB 在解決上述難題的同時(shí),還能夠?yàn)檎推髽I(yè)用戶(hù)提供完善的產(chǎn)品技術(shù)支持,,并基于智能優(yōu)化器實(shí)現(xiàn)交互式分析,、高頻點(diǎn)查、修改和刪除操作,,多副本機(jī)制,、存算彈性擴(kuò)展等創(chuàng)新能力。
AI產(chǎn)業(yè)依然稚嫩,,未來(lái)生態(tài)依舊奔騰
當(dāng)前,,人工智能在中國(guó)市場(chǎng)已經(jīng)經(jīng)歷了3到5年的發(fā)展,雖然隨著技術(shù)創(chuàng)新當(dāng)今產(chǎn)業(yè)已略有變化,,但挑戰(zhàn)依然非常突出的,,尤其是數(shù)據(jù)層面。超大預(yù)訓(xùn)練模型,,也是我們今年中國(guó)市場(chǎng)的特色之一,,其解決了當(dāng)前市場(chǎng)數(shù)據(jù)資源匱乏的問(wèn)題,但是在基礎(chǔ)技術(shù)層面會(huì)存在著模型泛化能力有待提升等問(wèn)題,,模型泛化能力也是AI基礎(chǔ)領(lǐng)域的重要難題,。
藏在挑戰(zhàn)背后的,是機(jī)遇,。近幾年國(guó)家出臺(tái)了一系列相關(guān)政策指引,,激發(fā)人工智能產(chǎn)業(yè)的創(chuàng)新活力,工作重點(diǎn)面向智能核心基礎(chǔ),、智能公共支撐,、智能產(chǎn)品應(yīng)用等三個(gè)重點(diǎn)方向,培育國(guó)內(nèi)具備掌握關(guān)鍵核心技術(shù)和創(chuàng)新能力的優(yōu)勢(shì)單位,,突破國(guó)內(nèi)AI標(biāo)志化產(chǎn)品,。產(chǎn)業(yè)智能升級(jí)的平臺(tái)化落地策略也在加緊落實(shí),將人工智能技術(shù)和價(jià)值和行業(yè)有機(jī)結(jié)合,。對(duì)人工智能的發(fā)展趨勢(shì),,專(zhuān)家做出了研判,AutoML將成為人工智能重要技術(shù)趨勢(shì)之一。
站在發(fā)展的角度去看當(dāng)今的中國(guó)人工智能生態(tài),,“開(kāi)源開(kāi)放”已經(jīng)不是一個(gè)全新的概念與名詞,,亦不是一項(xiàng)新的技術(shù)行動(dòng),而中國(guó)人工智能領(lǐng)域在世界AI技術(shù)發(fā)展浪潮裹挾下的大勢(shì)所趨,。以“自動(dòng)化,、云原生、開(kāi)源開(kāi)放”為核心的AI 基礎(chǔ)軟件將推動(dòng)各行業(yè)企業(yè)加速數(shù)智化升級(jí),。CSDN認(rèn)為,,從去年的自動(dòng)結(jié)構(gòu)化深度學(xué)習(xí)工具DeepTables、自搜索神經(jīng)網(wǎng)絡(luò)框架Hypernets,,到今年的自動(dòng)機(jī)器學(xué)習(xí)工具套件包DAT與實(shí)時(shí)交互式分析數(shù)據(jù)庫(kù)DingoDB,,兩年間九章云極DataCanvas 在開(kāi)源開(kāi)放領(lǐng)域帶給了我們無(wú)限的驚喜。未來(lái)也將繼續(xù)關(guān)注九章云極在開(kāi)源生態(tài)領(lǐng)域的最新動(dòng)向,,請(qǐng)拭目以待,。