平頭哥發(fā)布首顆PCle5.0 SSD主控芯片鎮(zhèn)岳510,!
2023-11-02
作者:Nancy Zhou
來源: EETOP
11月1日,,在2023云棲大會(huì)上,,阿里巴巴平頭哥發(fā)布旗下首顆為云計(jì)算場(chǎng)景深度定制的SSD主控芯片鎮(zhèn)岳510,正式進(jìn)軍企業(yè)級(jí)SSD市場(chǎng),!
平頭哥這顆SSD芯片
從性能看,,可以支持3400K IOPS的能力,在業(yè)界屬于第一梯隊(duì),。一枚鎮(zhèn)岳510的性能,,相當(dāng)于1萬塊高性能HDD的性能總和。
從能效比來說,,每瓦功耗可提供420K IOPS的性能,,是業(yè)界領(lǐng)先水平,。
從時(shí)延角度看,實(shí)現(xiàn)了業(yè)界領(lǐng)先的超低的時(shí)延(4μs),,比業(yè)界SSD降低30%以上,。
從可靠性來說,誤碼率低至10^-18的UBER,,相當(dāng)于每讀取百億億筆數(shù)據(jù),,才可能有一筆數(shù)據(jù)糾錯(cuò)失敗,比業(yè)內(nèi)標(biāo)桿領(lǐng)先一個(gè)數(shù)量級(jí),。
從第一款當(dāng)時(shí)全球性能最強(qiáng)的AI專用芯片含光800,,到高性能RISC-V架構(gòu)處理器玄鐵910,再到首款CPU芯片倚天710,,平頭哥在給自家產(chǎn)品的取名上,,就偏愛用中國上古和武俠中的“神兵利劍”來命名。而這次的鎮(zhèn)岳510,,更是玄鐵所鑄的高性能,、高可靠、高能效及低延時(shí)的鎮(zhèn)岳利劍,!
阿里盤古遇上鎮(zhèn)岳,,必將所向披靡!平頭哥SSD產(chǎn)品負(fù)責(zé)人周冠鋒透露說,,鎮(zhèn)岳510馬上就要進(jìn)入量產(chǎn)階段,,將率先在阿里云數(shù)據(jù)中心部署。這顆取名鎮(zhèn)岳510的芯片,,定位于高端大端口企業(yè)級(jí)SSD,,可應(yīng)用于AI、在線分析,、在線交易,、大數(shù)據(jù)分析、高性能數(shù)據(jù)庫等云上應(yīng)用場(chǎng)景,。
01 首顆SSD芯片是如何煉成的
為什么這個(gè)時(shí)間點(diǎn)推出,?
算力、網(wǎng)力,、存力,,共同構(gòu)筑了云計(jì)算的基礎(chǔ)。在云服務(wù)和AI計(jì)算需求逐漸旺盛的背景下,,芯片的布局不僅關(guān)系著云廠商的成本,,更是企業(yè)生態(tài)發(fā)展的重要一步,。
為了滿足云上業(yè)務(wù)的迅猛發(fā)展,,網(wǎng)絡(luò)正從25GE,、100GE、200GE快速演進(jìn),,并將進(jìn)入400GE,、800GE時(shí)代。而以SSD為代表的存力,,同樣面臨著新的挑戰(zhàn)和訴求,。
SSD是計(jì)算機(jī)系統(tǒng)的核心存儲(chǔ)部件,涵蓋閃存芯片(數(shù)據(jù)的最終存儲(chǔ)地),、內(nèi)存芯片(用于暫存SSD內(nèi)的眾多管理表項(xiàng),、數(shù)據(jù)緩存)以及SSD主控芯片。SSD主控芯片是SSD的大腦,,負(fù)責(zé)主機(jī)交互,、協(xié)議解析與執(zhí)行、數(shù)據(jù)讀寫,、數(shù)據(jù)糾錯(cuò),、數(shù)據(jù)管理、后臺(tái)任務(wù),、帶外管理等,。可以說,,SSD的功能,、性能與可靠性均由其實(shí)現(xiàn)。
SSD每隔三四年會(huì)進(jìn)行一次產(chǎn)品迭代演進(jìn),。之前會(huì)從PCle3.0,、 PCle4.0到今天,2023年是SSD從PCle4.0到PCle5.0的一個(gè)演進(jìn)節(jié)點(diǎn),。
周冠鋒表示:“因此,,平頭哥就提前規(guī)劃了這顆PCle5.0的SSD芯片來應(yīng)對(duì)市場(chǎng)上的這個(gè)趨勢(shì)?!?/p>
鎮(zhèn)岳510,,是一顆怎樣的芯片?
鎮(zhèn)岳510采用平頭哥自研的芯片架構(gòu),,內(nèi)置高性能的玄鐵910 RISC-V多核CPU,,采用平頭哥自研緊耦合芯片架構(gòu),對(duì)SSD任務(wù)進(jìn)行高度抽象,,可固化任務(wù)硬化為加速算子以提升性能,。FTL關(guān)鍵任務(wù)則運(yùn)行于玄鐵910CPU以保持靈活性。
整個(gè)資源架構(gòu)里面大量的采用了硬件加速模塊,可以實(shí)現(xiàn)非常高的性能,,實(shí)現(xiàn)了很高的能效比,。因?yàn)楠?dú)創(chuàng)設(shè)計(jì)了創(chuàng)新的前端IO硬件自動(dòng)處理機(jī)制,由專用硬件模塊自動(dòng)完成,,實(shí)現(xiàn)了業(yè)界領(lǐng)先的超低的時(shí)延(4μs),,比業(yè)界SSD降低30%以上。不僅如此,,鎮(zhèn)岳510芯片內(nèi)實(shí)現(xiàn)了IO/SYS/GC的全鏈路隔離,,極大的降低這些任務(wù)之間的相互干擾,提供了既低又穩(wěn)定的時(shí)延表現(xiàn),。
此外,,鎮(zhèn)岳510內(nèi)置平頭哥自研的高性能LDPC糾錯(cuò)算法,編碼效率逼近香農(nóng)極限,,同時(shí)ErrorFlow相比業(yè)內(nèi)SSD更優(yōu)一個(gè)數(shù)量級(jí),;同時(shí)借助平頭哥自研閃存電壓預(yù)測(cè)算法,可以在各種閃存的不同工況,、壽命,、溫度等條件下,準(zhǔn)確預(yù)測(cè)閃存電壓漂移,,進(jìn)一步降低LDPC解碼器的輸入誤碼率,。其實(shí)現(xiàn)了低至10^-18的UBER,相當(dāng)于每讀取百億億筆數(shù)據(jù),,才可能有一筆數(shù)據(jù)糾錯(cuò)失敗,。
綠色、減碳是云數(shù)據(jù)中心的一貫追求,。以更低的功耗,,提供更高的性能,是SSD的重要挑戰(zhàn),。鎮(zhèn)岳510每秒可處理高達(dá)340萬筆IO,,一枚鎮(zhèn)岳510的性能,相當(dāng)于1萬塊高性能HDD的性能總和,。
此外鎮(zhèn)岳510擁有極高的能效比,,每瓦功耗可提供42萬筆IO訪問。以一個(gè)部署了10萬塊SSD的數(shù)據(jù)中心為例,,相比目前主流的PCIe 4.0SSD,,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,,按照一度電排放0.785千克二氧化碳計(jì)算,,每年可減少二氧化碳排放2千噸,。
平衡靈活性和高效能的關(guān)鍵:軟硬件協(xié)同發(fā)展
SSD主控芯片其實(shí)也是一種SOC, 它內(nèi)部既有硬件模塊,也有CPU核,。事實(shí)上,,SSD主控芯片并不是一種標(biāo)準(zhǔn)化的設(shè)計(jì),每一家公司的設(shè)計(jì)方案都不太相同,。業(yè)界SSD主控芯片的架構(gòu)設(shè)計(jì)有兩大趨勢(shì),一種類似純SOC, 即由軟件主打的設(shè)計(jì)方案,;另一類是軟硬件結(jié)合的設(shè)計(jì)方案,。
鎮(zhèn)岳510屬于后者。
周冠鋒介紹說,,鎮(zhèn)岳510自2021年上半年立項(xiàng)后,,耗費(fèi)了非常長的時(shí)間去反復(fù)論證芯片的架構(gòu)設(shè)計(jì)。芯片設(shè)計(jì)其實(shí)是一個(gè)權(quán)衡的過程,,如果把過多的功能卸載,,使用硬件加速來實(shí)現(xiàn)的話,那么這顆芯片的靈活性就會(huì)比較差,。但如果把過多的功能交由CPU軟件來使用的話,,它的靈活性同樣會(huì)比較差。如果既能通過硬件加速獲得高效的同時(shí),,仍能保留使用CPU來運(yùn)行一些關(guān)鍵的軟件任務(wù),,這樣獲得的靈活性將會(huì)大大提高。
鎮(zhèn)岳510采用的是平頭哥自研的芯片架構(gòu),。這顆芯片支持PCle5.0的主機(jī)接口,,支持DDR5.0的內(nèi)存接口,內(nèi)置了高性能的RISC-V CPU,。此外,,整個(gè)資源架構(gòu)里面采用了比較獨(dú)特的硬件加速模塊,在應(yīng)用中進(jìn)行大量的卸載加速,,能實(shí)現(xiàn)高性能與低能耗,。
所以鎮(zhèn)岳510可以實(shí)現(xiàn)非常高的性能。大批量的硬件加速模塊的使用,,極大的提高了產(chǎn)品的能效比,,達(dá)到每瓦420k IOPS性能。除此之外,,鎮(zhèn)岳510還實(shí)現(xiàn)了非常低的訪問時(shí)延,。這也是因?yàn)槠筋^哥獨(dú)創(chuàng)的設(shè)計(jì)了前端IO的硬件自動(dòng)處理機(jī)制。
在EETOP特別針對(duì)RISC-V的提問中,,周冠鋒最后總結(jié)說到:“RISC-V這顆CPU和它的指令集都非常精簡,,運(yùn)行效率也很高,同時(shí)它還是開源的,所以平頭哥SSD芯片的設(shè)計(jì)團(tuán)隊(duì)最終選擇了我們認(rèn)為一個(gè)最平均,、最平衡的一個(gè)設(shè)計(jì)方案,。”
02 鎮(zhèn)岳510,,為云做了哪些定制
首先,,在傳統(tǒng)的系統(tǒng)方案中,SSD與存儲(chǔ)系統(tǒng)分離設(shè)計(jì),。SSD負(fù)責(zé)底層閃存數(shù)據(jù)排布,,但由于沒有存儲(chǔ)語義而無法達(dá)到最佳排布;SSD負(fù)責(zé)后臺(tái)任務(wù),,但無法判斷最佳啟停時(shí)機(jī),;而存儲(chǔ)系統(tǒng)有存儲(chǔ)語義卻無法排布閃存數(shù)據(jù),有最佳時(shí)機(jī)卻無法啟停SSD后臺(tái)任務(wù),。上下的割裂給整個(gè)存儲(chǔ)系統(tǒng)的性能與壽命帶來了額外消耗,,這被稱為“SSD接口稅”。
解決辦法就是ZNS,。它是一種標(biāo)準(zhǔn)的協(xié)議接口,,2021年5月被收入NVMe2.0協(xié)議中,并得到了SPDK,、Linux以及各設(shè)備商的支持,。ZNS通過將盤內(nèi)FTL層上移至存儲(chǔ)系統(tǒng),達(dá)到了存儲(chǔ)系統(tǒng)與閃存特性的完美匹配,,消減了“SSD接口稅”,。
鎮(zhèn)岳510完美實(shí)現(xiàn)了ZNS協(xié)議,通過靈活的硬件表項(xiàng)加速保持了高IO性能,,而Zone分區(qū)狀態(tài)則交由玄鐵910CPU維護(hù),,保留了對(duì)新協(xié)議的靈活性。此外,,鎮(zhèn)岳510定制了Last Sector 隨機(jī)寫功能,,實(shí)現(xiàn)了小報(bào)文的多次反復(fù)下盤,簡化了ZNS的應(yīng)用難度,。
其次,,數(shù)據(jù)請(qǐng)求可以分為帶寬敏感型與時(shí)延敏感型,不同的請(qǐng)求應(yīng)予以不同的處理策略,,才能達(dá)到業(yè)務(wù)最佳SLA,。NVMe規(guī)范中制定了以隊(duì)列為粒度的標(biāo)準(zhǔn)SQ調(diào)度機(jī)制,但其靈活性較差,,對(duì)于業(yè)務(wù)種類復(fù)雜,、追求靈活可配的云存儲(chǔ)系統(tǒng)來說,,它并不是最佳選擇。
鎮(zhèn)岳510在支持NVMe標(biāo)準(zhǔn)的SQ調(diào)度機(jī)制的同時(shí),,額外定制了基于IO粒度的優(yōu)先級(jí)調(diào)度機(jī)制,,允許系統(tǒng)按IO打標(biāo),優(yōu)先級(jí)種類多達(dá)8級(jí),,結(jié)合云存儲(chǔ)系統(tǒng),,能夠更好的保障延遲敏感型業(yè)務(wù)的服務(wù)質(zhì)量。
此外,,云存儲(chǔ)系統(tǒng)的完整數(shù)據(jù)鏈路,,從計(jì)算端開始,通過網(wǎng)絡(luò)到存儲(chǔ)服務(wù)器,,再通過內(nèi)部互聯(lián)到達(dá)SSD。為了保障數(shù)據(jù)的高可靠,,全鏈路應(yīng)采用語義一致的完整性校驗(yàn),。但NVMe規(guī)范只規(guī)定了以Sector為單位按照T10 DIF/DIX的校驗(yàn)機(jī)制,與存儲(chǔ)系統(tǒng)的語義并不相同,,因此SSD的校驗(yàn)與存儲(chǔ)系統(tǒng)的校驗(yàn)產(chǎn)生了差異,。
鎮(zhèn)岳510以IO為粒度,遵循上層存儲(chǔ)語義進(jìn)行校驗(yàn),,補(bǔ)齊了整個(gè)存儲(chǔ)系統(tǒng)的數(shù)據(jù)鏈路校驗(yàn)的最后一環(huán),。不僅如此,鎮(zhèn)岳510還支持以存儲(chǔ)語義對(duì)內(nèi)部數(shù)據(jù)進(jìn)行后臺(tái)巡檢,,而無需再讀出至服務(wù)器,,節(jié)省了寶貴的PCIe帶寬、服務(wù)器內(nèi)存帶寬與CPU算力,。
周冠鋒介紹說,,因?yàn)樵茝S商,尤其是阿里云擁有全棧的軟件的核心技術(shù),。所以在這種情況下,,平頭哥有機(jī)會(huì)通過阿里云與軟件棧和底層芯片之間做配合,來實(shí)現(xiàn)更好的特性,,更好的實(shí)現(xiàn)云上應(yīng)用性能的提升,。并且,隨著云技術(shù)進(jìn)入深水區(qū),,云開始與底層芯片全方位融合聯(lián)合設(shè)計(jì),,可提供更好的用戶體驗(yàn)。
不過,,鎮(zhèn)岳510的生命力肯定不僅僅在阿里云上止步,。鎮(zhèn)岳510其實(shí)是為云上應(yīng)用做優(yōu)化的,,它不僅僅可以適用于阿里云。因其具備的更強(qiáng)存力,、更高可靠等特點(diǎn),,可通過為云定制,帶來更優(yōu)秀的存儲(chǔ)體驗(yàn),。
周冠鋒表示:“其實(shí)在外部的不同的云環(huán)境下都是適用的,。只是,鎮(zhèn)岳510會(huì)首先在阿里云上上線使用,!”
03 結(jié)束語
平頭哥的業(yè)務(wù)重心是在數(shù)據(jù)中心領(lǐng)域的芯片開發(fā),。數(shù)據(jù)中心領(lǐng)域的芯片,一類是純計(jì)算類芯片,,一類是存儲(chǔ)類芯片,。此前平頭哥推出過多款性能強(qiáng)勁的芯片,如含光800 AI專用推理芯片,、倚天710首款通用CPU芯片等,。但它們都屬于算力芯片,而這一次平頭哥實(shí)現(xiàn)對(duì)自己的突破,,設(shè)計(jì)出自己的第一顆企業(yè)級(jí)SSD芯片,,補(bǔ)齊其在存儲(chǔ)領(lǐng)域的空白。相信對(duì)平頭哥來說,,是一次里程碑式的突破,。
憶平頭哥初創(chuàng)的決心:要為國內(nèi)的芯片行業(yè)貢獻(xiàn)出自己的一份力量。自2019年成立以來,,短短幾年時(shí)間,,平頭哥一次又一次為國產(chǎn)芯片交上力滿意的佳作,刷新業(yè)界對(duì)平頭哥的認(rèn)知,,更刷新大家對(duì)中國芯片企業(yè)實(shí)力的認(rèn)知,!
平頭哥已經(jīng)掌握了SSD主控芯片設(shè)計(jì)的全部技術(shù)。一顆芯片要想有更強(qiáng)的生命力,,就需要對(duì)它的應(yīng)用場(chǎng)景有深入的理解,,才能更好的用在用戶場(chǎng)景下。平頭哥對(duì)阿里巴巴的業(yè)務(wù),,尤其是阿里云業(yè)務(wù)有更深刻的理解,。平頭哥跟阿里云聯(lián)合定制,使得這顆芯片在云上應(yīng)用的時(shí)候,,可以讓整個(gè)存儲(chǔ)系統(tǒng)的性能,、能效和服務(wù)質(zhì)量更好。
對(duì)于平頭哥在SSD領(lǐng)域未來的發(fā)展,,周冠鋒表示:“我們還將繼續(xù)沿著高端企業(yè)級(jí)這條路線進(jìn)行演進(jìn),,不過不會(huì)拓展到消費(fèi)級(jí)和車規(guī)工規(guī)級(jí),。”