九章云極DataCanvas攜兩大開源產品打通中國開源之路-AET-電子技術應用

九章云極DataCanvas攜兩大開源產品打通中國開源之路

日期： 2021-10-26

來源：CSDN

關鍵詞： 開源萬物智聯(lián) 生態(tài)協(xié)同

　　擁抱開源生態(tài) 賦能數字化轉型

　　開源產業(yè)近年來在國內取得了世人矚目的成績，中國開發(fā)者也從一個開源的使用者，變成了全球主流的開源貢獻者。開源協(xié)作創(chuàng)新的開發(fā)模式，也成為了推動軟件產業(yè)持續(xù)創(chuàng)新發(fā)展的源泉。毋庸置疑，當前國內開源熱度空前高漲，而開源并不僅僅是“開放源代碼”，政府和企業(yè)組織使用開源也不是毫無規(guī)章，開源背后涉及的人、社區(qū)、管理等因素，都有其自身的規(guī)則。而由于國內開源整體起步較晚，政府和企業(yè)在采用開源加速創(chuàng)新的同時，也遇到了前所未有的挑戰(zhàn)。

　　挑戰(zhàn)主要來源于三個方面，第一，對于政府和傳統(tǒng)型企業(yè)而言，要進行數智化轉型升級，打造高效的物聯(lián)網數據處理平臺是根基。中國是制造大國，要向智造大國轉型，打造數字化的工業(yè)互聯(lián)網平臺也是非常關鍵的一部。第二，隨著政府和企業(yè)數字化轉型的步伐加快，全球人工智能人才缺口很大，迫切需要推動人工智能教育體系的發(fā)展，夯實人工智能發(fā)展的基礎。隨著人工智能成為像互聯(lián)網一樣的基礎設施進度不斷加快，相關人才需求也勢必成為產業(yè)發(fā)展的關鍵。第三，數據的正確性和聚集，在數據上同樣會發(fā)現(xiàn)面臨的問題，數據量過大難以采集，數據相對分散沒有標準，沒有數據識別，人員協(xié)同較復雜等。數據的高效采集和處理是數智化轉型的核心基礎。

　　在這種挑戰(zhàn)之下，AI的應用場景卻在不斷增加。現(xiàn)在很多智能化的場景已經走進了生活中，比如人臉識別技術、線下門店、智能家居、智能零售，再進一步像是智慧城市，這些技術的背后都是大量數據的綜合處理與分析。所以政府和企業(yè)的數智化轉型，有三個核心點：數據的采集和高效存儲、對實時分析的靈活支持、打造數據平臺底座，為其他系統(tǒng)提供支撐。中國工程院譚建榮院士表示“要掌握核心技術，要掌握高新技術，必須從基礎研究開始。”并在大會中提出，通過：智能制造+創(chuàng)新設計、智能制造+工藝提升、智能制造+強化質量、智能制造和衍生服務、智能制造+拓展市場五大方法將促進實現(xiàn)數字經濟和數字轉型。九章云極DataCanvas 自成立之初就深耕AutoML自動機器學習、AutoDL自動深度學習等自動化技術，堅持自主研發(fā)和開源開放，堅持不斷為業(yè)界輸出開源技術成多行業(yè)場景創(chuàng)新應用，全力帶動數據科學行業(yè)發(fā)展。“實現(xiàn)AI賦能，拓展無限現(xiàn)象”， DAT 自動機器學習工具包和 DingoDB 實時交互式分析數據庫的發(fā)布更堅定了開放開源，拓展 AI 的無限可能。

　　應對時代挑戰(zhàn)，DAT和DingoDB的雙核驅動

　　數據是新時代的石油，沒有數據智能便無從談起。目前在政府和大多數企業(yè)中，數據的價值主要體現(xiàn)在進行粗淺的數據分析，將數據做成包含餅圖、折線圖等的可視化報表，進而指導業(yè)務。而隨著政府和企業(yè)積累的數據越來越豐富，對數據分析的要求越來越高，過去的數據分析方式已經不能滿足政府和企業(yè)的需求。

　　九章云極DataCanvas 董事長方磊表示，政府和企業(yè)數據的價值正在發(fā)生轉變，數據分析進入了“增強分析”階段，即通過機器學習或者人工智能增強數據分析能力。以“硬科技”立身的九章云極DataCanvas將持續(xù)在AutoML領域實現(xiàn)技術創(chuàng)新與研發(fā)，運用AutoML、AutoDL技術為金融、通信、制造、政府等眾多行業(yè)提供專業(yè)的技術服務，解決政府和企業(yè)在數智化升級中對于實時性的需求。正是在這樣的初心引導下，才有了今天面向自主建模、自動建模的DAT開源產品，以及面向高并發(fā)、能夠做實時分析的DingoDB數據庫的開源發(fā)布。

　　DataCanvas AutoML Toolkit（DAT）

　　DataCanvas AutoML Toolkit（DAT）是一個自動機器學習工具套件包，包含了一系列功能強大的 AutoML 開源工具，從底層的通用自動機器學習框架到用于結構化及非結構化領域端到端的自動建模工具。DAT的所有項目都是以開源方式來開發(fā)的，目前接收到來自于GitHub社區(qū)Star的數量超過2600個，來自于社區(qū)的安裝和下載次數超過6萬次。

　　整個DAT的工具站，從面向任務來分，同時可以覆蓋結構化、以及非結構化；從面向人群來分，即可以面向于專業(yè)的AI從業(yè)人員，也可以讓沒有專業(yè)AI背景的人員，利用AutoML有相應的工具可以使用，即可以滿足AI使用者的需求，還有面向AutoML工具開發(fā)者的相應框架。

　　因此，DAT并不是一個面向某一個場景來開發(fā)的工具，是希望AutoML能夠面向于不同人群，從不同角度和各個層面全方位地釋放AutoML能力，為用戶來賦能。

　　DAT 的工具棧可以分為三層：首先是最底層的 AutoML 框架 Hypernets、機器學習和深度學習框架，中間是 AutoML 工具如 DeepTables、最上層是應用工具：HyperGBM、HyperDT、HyperKeras、Cooka。

　　DingoDB

　　DingoDB是新一代的實時交互式分析數據庫，能夠提供高并發(fā)的數據服務。現(xiàn)在政府和企業(yè)的數據架構基本上采用Lambda架構的模式，它不僅僅是政府和企業(yè)主流的數據架構，也是很多互聯(lián)網公司主流的一種數據架構，但在許多方面存在潛在的風險和問題：

　　（1）數據散列存儲的問題，存在多套存儲引擎，數據的融合會變的非常困難，由此引申出來一個新的領域，多數據庫模式的聯(lián)邦查詢。

　　（2）數據存儲在多個存儲引擎中，數據的一致性和準確性變的非常困難，存在數據核對和多次矯正的問題。

　　（3）高并發(fā)的數據服務和及時修改的能力較差，通常會在數據服務層增加各種緩存和KV數據庫來進行服務提速，來提高服務的并發(fā)性。

　　總而言之，多套存儲引擎、計算引擎以及各種緩存的存在，讓政府和企業(yè)的數據平臺架構變的異常復雜，學習和運維的成本變的極高。研發(fā)新的數據構架迫在眉睫，因此DingoDB就誕生了。

　　這兩款開源產品能夠讓數據分析的過程既快又簡單，幫助更多的非專業(yè)的數據科學家也可以使用進行數據的建模和分析。

　　面向模型困局，數據側還能做什么

　　數據要服務于人工智能的機器學習算法模型，但是在建模過程中“不均衡、概念漂移、泛化能力和大規(guī)模數據”這4大難點的呢？DAT針對這些難點做出了如下優(yōu)化：

　　不均衡

　　使用降采樣的方法防止主類過擬合，同時通過多種樣本生成的方法去修補小類數據的真實分布，防止小類上面的欠擬合。

　　概念漂移

　　針對概念漂移的問題，會用一種受生成對抗網絡（GAN）啟發(fā)的半監(jiān)督學習技術“對抗驗證（Adversarial Validation）”的方法，在建模之前就能夠有效的識別哪些特征發(fā)生了漂移，然后針對性的做一些處理，這樣就會提高整個模型的線上的一個穩(wěn)定性，有效防止模型退化問題。

　　泛化能力

　　對于提升泛化能力，會通過自動特征工程中有針對性的特征篩選，在建模過程中會對一些正則化的參數進行優(yōu)化，還有通過模型融合Ensemble這樣一系列的組合拳來提高模型整體的泛化能力。并引入了一些半監(jiān)督的學習技術，像是偽標簽學習，在結構化數據中使用偽標簽學習也是相對比較先進的一種方式。

　　大規(guī)模數據

　　底層的計算引擎和整個的系統(tǒng)架構上用分布式的架構，同時能夠支持基于單機模式的訓練，也可以支持分布式集群的模式來訓練，整個的系統(tǒng)架構可以橫向伸縮，滿足任意量級的數據規(guī)模。

　　DingoDB借鑒了TP系統(tǒng)和AP系統(tǒng)各自的優(yōu)點，在存儲海量數據的同時，能夠進行高并發(fā)的數據查詢，實時的數據分析。數據從各種類型的渠道導入DingoDB，借助DingoDB的高并發(fā)查詢，實時數據分析和多維分析的能力，來支撐政府和企業(yè)若干業(yè)務應用。

　　那相較于獨立的OLTP和OLAP這兩種開源數據產品，DingoDB這類混合型的HASP（Hybrid Serving & Analytical Processing實時分析數據庫）產品有哪些優(yōu)勢呢？

　　行列混合：采用了統(tǒng)一的存儲的設計，支持行存、列存和行列混合的存儲形式。

　　標準SQL：支持ANSI SQL 語法，可以和Calcite客戶端、BI報表工具無縫銜接。

　　實時高頻更新：Dingo數據庫能夠基于主鍵，實現(xiàn)數據記錄的 Upsert、Delete 操作；同時數據采用多分區(qū)副本機制，能夠將 Upsert、Delete 操作轉化為 Key-Value 操作，實現(xiàn)高頻更新。

　　對于數據庫產品而言，僅僅做到性能上的出眾是遠遠不夠的，無論開發(fā)者看重的上手難度、學習成本，還是政府和企業(yè)看重的產品穩(wěn)定性與業(yè)務兼容性，都是很重要的。DingoDB 在解決上述難題的同時，還能夠為政府和企業(yè)用戶提供完善的產品技術支持，并基于智能優(yōu)化器實現(xiàn)交互式分析、高頻點查、修改和刪除操作，多副本機制、存算彈性擴展等創(chuàng)新能力。

　　AI產業(yè)依然稚嫩，未來生態(tài)依舊奔騰

　　當前，人工智能在中國市場已經經歷了3到5年的發(fā)展，雖然隨著技術創(chuàng)新當今產業(yè)已略有變化，但挑戰(zhàn)依然非常突出的，尤其是數據層面。超大預訓練模型，也是我們今年中國市場的特色之一，其解決了當前市場數據資源匱乏的問題，但是在基礎技術層面會存在著模型泛化能力有待提升等問題，模型泛化能力也是AI基礎領域的重要難題。

　　藏在挑戰(zhàn)背后的，是機遇。近幾年國家出臺了一系列相關政策指引，激發(fā)人工智能產業(yè)的創(chuàng)新活力，工作重點面向智能核心基礎、智能公共支撐、智能產品應用等三個重點方向，培育國內具備掌握關鍵核心技術和創(chuàng)新能力的優(yōu)勢單位，突破國內AI標志化產品。產業(yè)智能升級的平臺化落地策略也在加緊落實，將人工智能技術和價值和行業(yè)有機結合。對人工智能的發(fā)展趨勢，專家做出了研判，AutoML將成為人工智能重要技術趨勢之一。

　　站在發(fā)展的角度去看當今的中國人工智能生態(tài)，“開源開放”已經不是一個全新的概念與名詞，亦不是一項新的技術行動，而中國人工智能領域在世界AI技術發(fā)展浪潮裹挾下的大勢所趨。以“自動化、云原生、開源開放”為核心的AI 基礎軟件將推動各行業(yè)企業(yè)加速數智化升級。CSDN認為，從去年的自動結構化深度學習工具DeepTables、自搜索神經網絡框架Hypernets，到今年的自動機器學習工具套件包DAT與實時交互式分析數據庫DingoDB，兩年間九章云極DataCanvas 在開源開放領域帶給了我們無限的驚喜。未來也將繼續(xù)關注九章云極在開源生態(tài)領域的最新動向，請拭目以待。

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

九章云極DataCanvas攜兩大開源產品打通中國開源之路

日期： 2021-10-26

來源：CSDN

相關內容