你的SSD還能用多久?
十四五規(guī)劃中指出要“加快數(shù)字化發(fā)展,,建設(shè)數(shù)字中國”,。IDC預(yù)測,到2022年,,全球65%的GDP將由數(shù)字化推動,。近幾年新基建、數(shù)字經(jīng)濟(jì)和平臺經(jīng)濟(jì)發(fā)展迅猛,,給數(shù)據(jù)中心提出了新的挑戰(zhàn),。全閃存數(shù)據(jù)中心具有速度快、綠色節(jié)能等優(yōu)勢,,將會是未來數(shù)據(jù)中心的發(fā)展趨勢,,SSD(固態(tài)硬盤)也將會得到更加廣泛的應(yīng)用。
為什么關(guān)注SSD壽命預(yù)測,?
企業(yè)關(guān)注SSD壽命預(yù)測技術(shù),,一是因為SSD的應(yīng)用前景非常廣闊,市場上使用率將越來越高,。二是SSD損壞導(dǎo)致數(shù)據(jù)丟失帶來的損失是巨大的,。三是因為閃存具有擦寫次數(shù)限制的特點(diǎn)。
與傳統(tǒng)機(jī)械硬盤相比,,SSD的優(yōu)勢非常明顯,,如SSD速度更快,數(shù)據(jù)訪問比機(jī)械硬盤快100倍,,吞吐量大100倍,,單盤IOPS大1000倍以上,并且技術(shù)在快速發(fā)展,,如NVMe,、 PCIe將進(jìn)一步釋放SSD的性能;在可靠性表現(xiàn)上,,SSD因質(zhì)量輕,、體積小、防震抗摔性更好,,更加可靠,。再如SSD更節(jié)能,與機(jī)械硬盤相比,,能耗降低70%,。今年的政府工作報告中提出要在2030年之前實(shí)現(xiàn)“碳達(dá)峰”,在2060年之前實(shí)現(xiàn)“碳中和”,,使用SSD能夠大幅降低數(shù)據(jù)中心的能耗,。過去SSD使用率不高的原因主要是其價格昂貴,,現(xiàn)在據(jù)IDC統(tǒng)計:2015年到2020年,SSD平均每年的價格降幅達(dá)到25%,,未來5年也將保持這一趨勢,;2020年,全球范圍內(nèi)企業(yè)級SSD上的支出已經(jīng)超過傳統(tǒng)硬盤,。
全球企業(yè)級機(jī)械硬盤和SSD盤支出對比(單位:百萬美元),,2005-2020
正是由于SSD速度快但價格相對較高,SSD通常用來存放元數(shù)據(jù)或核心數(shù)據(jù),,這部分?jǐn)?shù)據(jù)丟失將會給用戶帶來的損失更加嚴(yán)重,。并且,SSD閃存介質(zhì)具有擦寫次數(shù)限制,,因此SSD使用壽命更值得被關(guān)注和重視,。
SSD壽命預(yù)測 如何實(shí)現(xiàn)
SSD,是由控制芯片和存儲芯片組成的,??刂菩酒荢SD的大腦,用于調(diào)配數(shù)據(jù),、數(shù)據(jù)中轉(zhuǎn)等,,存儲芯片用于存儲數(shù)據(jù)。當(dāng)前主流的存儲芯片為NAND Flash閃存芯片,,NAND采用浮柵晶體管存儲數(shù)據(jù),寫入數(shù)據(jù)時需要先擦除再寫入,,寫操作本質(zhì)是向浮柵注入電荷,,擦除操作是從浮柵挪走電荷,充放電的過程會損耗二氧化硅絕緣層的絕緣能力,,最終無法保證浮柵中存有足夠多的電荷,。因此NAND的擦寫次數(shù)是有限的,閃存完全擦寫一次叫做1次P/E,,閃存的壽命就以P/E作單位,,例如常用的MLC-SSD擦寫次數(shù)為10000次。SSD壽命預(yù)測,,本質(zhì)上就是預(yù)測NAND芯片P/E次數(shù)還可用多長時間,。
SSD結(jié)構(gòu)
硬盤廠商一般都遵循S.M.A.R.T. 標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)保護(hù),S.M.A.R.T. 標(biāo)準(zhǔn)是一種自動的硬盤狀態(tài)檢測與預(yù)警系統(tǒng)和規(guī)范,。SSD S.M.A.R.T.中包含了一些與壽命相關(guān)的指標(biāo),,不同接口、不同廠商的指標(biāo)略有不同,。浪潮自研NVMe SSD遵循NVMe 1.3標(biāo)準(zhǔn),,提供標(biāo)準(zhǔn)的S.M.A.R.T.輸出,。部分廠商SATA接口和PCIe接口壽命相關(guān)指標(biāo)如下表所示:
硬盤接口
硬盤廠商
指標(biāo)名稱
指標(biāo)含義
SATA
Intel
Smart_233 Media Wearout Indicator
介質(zhì)磨損指示
Micron
Smart_202 Percent lifetime remaining
剩余壽命百分比
Samsung
Smart_177 Wear Leveling Count
擦寫次數(shù)計數(shù)
Seagate
Smart_231 SSD Life Left
SSD剩余壽命
PCIe
Inspur等
percentage_used
已使用百分比
各個廠商通用的指標(biāo)為百分比表示的閃存磨損度,SSD壽命預(yù)測基于閃存磨損度,,預(yù)測SSD未來可使用的天數(shù),。同時,該壽命預(yù)測模型能友好的支持浪潮自研PCIe接口SSD,。
SSD壽命預(yù)測使用時間序列預(yù)測技術(shù),,基于硬盤S.M.A.R.T.標(biāo)準(zhǔn)采集預(yù)測所需的歷史時間序列數(shù)據(jù)集,再使用浪潮自研的AI預(yù)測算法,,預(yù)測S.M.A.R.T.指標(biāo)未來變化,,得到SSD剩余壽命天數(shù)。
SSD壽命預(yù)測流程
SSD壽命預(yù)測流程如上圖所示,。整體的預(yù)測流程分為兩個階段,,綠色為離線訓(xùn)練階段,目的是為了確定模型選取規(guī)則,;藍(lán)色為在線預(yù)測階段,,用于在用戶環(huán)境中預(yù)測SSD壽命。
離線訓(xùn)練階段使用大量的SSD全生命周期的S.M.A.R.T.數(shù)據(jù),,人工將磨損度變化曲線形態(tài)標(biāo)記為3類:平穩(wěn)變化,、減速變化和加速變化,再對三種類型的SSD數(shù)據(jù)分別進(jìn)行測試,。測試過程中實(shí)驗了多種數(shù)據(jù)預(yù)處理方式和預(yù)測模型,,比如Prophet、 ARIMA,、 移動平均法(Moving Average, MA),、指數(shù)平滑法(Exponential Smoothing,ES),、神經(jīng)網(wǎng)絡(luò)等,。最終確定模型選取規(guī)則,實(shí)現(xiàn)全生命周期預(yù)測準(zhǔn)確率達(dá)到75%的國際領(lǐng)先水平,。
模型選取規(guī)則
在線預(yù)測階段,,定時采集硬盤磨損度指標(biāo),使用提前定義好的模型選取規(guī)則,,根據(jù)磨損變化數(shù)據(jù)量的大小和變化趨勢,,選擇最合適的時序預(yù)測模型,預(yù)測SSD壽命,。
六重保護(hù)業(yè)務(wù)永遠(yuǎn)在線,,可靠!
在管理軟件層面上,,InView平臺每天定時采集數(shù)據(jù),、預(yù)測,,通過浪潮自研SSD產(chǎn)品S.M.A.R.T.功能,可以客觀呈現(xiàn)產(chǎn)品的Percentage used和Available spare信息,,并展示所管理的SSD是使用壽命,。當(dāng)預(yù)測結(jié)果不足2周時,發(fā)出告警提示用戶,,制定備份數(shù)據(jù)和換盤計劃,,避免因突發(fā)換盤導(dǎo)致業(yè)務(wù)降級,甚至停機(jī)維護(hù),。
智能管理軟件InView界面中對SSD壽命預(yù)測
除了管理軟件,,浪潮存儲還通過核心軟件、器件,、部件,、系統(tǒng)、解決方案層面等,,對業(yè)務(wù)進(jìn)行端到端的整合,,致力于為客戶提供一體化的方案服務(wù),做到故障早知道,、故障無影響,、長期無故障。
未來隨著數(shù)字經(jīng)濟(jì)發(fā)展,,數(shù)據(jù)要素將在企業(yè)數(shù)字化轉(zhuǎn)型中扮演越來越重要的角色,。浪潮存儲將持續(xù)加大企業(yè)級SSD研發(fā)投入,推動集中式全閃,、分布式全閃持續(xù)技術(shù)創(chuàng)新,,聯(lián)合產(chǎn)學(xué)研用等生態(tài)伙伴,合力提供數(shù)據(jù)生命周期解決方案,,助陣企業(yè)提速數(shù)字化轉(zhuǎn)型,釋放數(shù)據(jù)價值,。