從上一篇文章:IO" title="IO">IO系統(tǒng)性能之一:衡量性能的幾個(gè)指標(biāo)的計(jì)算中我們可以看到一個(gè)15k轉(zhuǎn)速的磁盤在隨機(jī)讀寫訪問的情況下IOPS竟然只有140左右,,但在實(shí)際應(yīng)用中我們卻能看到很多標(biāo)有5000IOPS甚至更高的存儲(chǔ)系統(tǒng),,有這么大IOPS的存儲(chǔ)系統(tǒng)怎么來的呢?這就要?dú)w結(jié)于各種存儲(chǔ)技術(shù)的使用了,在這些存儲(chǔ)技術(shù)中使用最廣的就是高速緩存(Cache)和磁盤冗余陣列(RAID" title="RAID">RAID)了,,本文就將探討緩存和磁盤陣列提高" title="提高">提高存儲(chǔ)IO性能的方法,。
高速緩存(Cache)
在當(dāng)下的各種存儲(chǔ)產(chǎn)品中,,按照速度從快到慢應(yīng)該就是內(nèi)存>閃存>磁盤>磁帶了,,然而速度越快也就意味著價(jià)格越高,,閃存雖然說是發(fā)展勢(shì)頭很好,但目前來說卻還是因?yàn)閮r(jià)格問題無法普及,,因此現(xiàn)在還是一個(gè)磁盤作霸王的時(shí)代,。與CPU和內(nèi)存速度相比,磁盤的速度無疑是計(jì)算機(jī)系統(tǒng)中最大的瓶頸了,,所以在必須使用磁盤而又想提高性能的情況下,,人們想出了在磁盤中嵌入一塊高速的內(nèi)存用來保存經(jīng)常訪問的數(shù)據(jù)從而提高讀寫效率的方法來折中的解決,這塊嵌入的內(nèi)存就被稱為高速緩存。
說到緩存,,這東西應(yīng)用現(xiàn)在已經(jīng)是無處不在,,從處于上層的應(yīng)用,到操作系統(tǒng)層,,再到磁盤控制器,,還有CPU內(nèi)部,單個(gè)磁盤的內(nèi)部也都存在緩存,,所有這些緩存存在的目的都是相同的,就是提高系統(tǒng)執(zhí)行的效率,。
當(dāng)然在這里我們只關(guān)心跟IO性能相關(guān)的緩存,,與IO性能直接相關(guān)的幾個(gè)緩存分別是文件系統(tǒng)緩存(File System Cache)、磁盤控制器緩存(Disk Controller Cache)和磁盤緩存(Disk Cache,也稱為Disk Buffer),,不過當(dāng)在計(jì)算一個(gè)磁盤系統(tǒng)性能的時(shí)候文件系統(tǒng)緩存也是不會(huì)考慮在內(nèi)的,,因此我們重點(diǎn)考察的就是磁盤控制器緩存和磁盤緩存。
不管是控制器緩存還是磁盤緩存,,他們所起的作用主要是分為三部分:緩存數(shù)據(jù),、預(yù)讀(Read-ahead)和回寫(Write-back)。
緩存數(shù)據(jù)
首先是系統(tǒng)讀取過的數(shù)據(jù)會(huì)被緩存在高速緩存中,,這樣下次再次需要讀取相同的數(shù)據(jù)的時(shí)候就不用在訪問磁盤,,直接從緩存中取數(shù)據(jù)就可以了。當(dāng)然使用過的數(shù)據(jù)也不可能在緩存中永久保留的,,緩存的數(shù)據(jù)一般那是采取LRU算法來進(jìn)行管理,,目的是將長時(shí)間不用的數(shù)據(jù)清除出緩存,那些經(jīng)常被訪問的卻能一直保留在緩存中,,直到緩存被清空,。
預(yù)讀
預(yù)讀是指采用預(yù)讀算法在沒有系統(tǒng)的IO請(qǐng)求的時(shí)候事先將數(shù)據(jù)從磁盤中讀入到緩存中,然后在系統(tǒng)發(fā)出讀IO請(qǐng)求的時(shí)候,,就會(huì)實(shí)現(xiàn)去檢查看看緩存里面是否存在要讀取的數(shù)據(jù),,如果存在(即命中)的話就直接將結(jié)果返回,這時(shí)候的磁盤不再需要尋址,、旋轉(zhuǎn)等待,、讀取數(shù)據(jù)這一序列的操作了,這樣是能節(jié)省很多時(shí)間的;如果沒有命中則再發(fā)出真正的讀取磁盤的命令去取所需要的數(shù)據(jù),。
緩存的命中率跟緩存的大小有很大的關(guān)系,,理論上是緩存越大的話,所能緩存的數(shù)據(jù)也就越多,,這樣命中率也自然越高,,當(dāng)然緩存不可能太大,畢竟成本在那兒呢。如果一個(gè)容量很大的存儲(chǔ)系統(tǒng)配備了一個(gè)很小的讀緩存的話,,這時(shí)候問題會(huì)比較大的,,因?yàn)樾【彺婢彺娴臄?shù)據(jù)量非常小,相比整個(gè)存儲(chǔ)系統(tǒng)來說比例非常低,,這樣隨機(jī)讀取(數(shù)據(jù)庫系統(tǒng)的大多數(shù)情況)的時(shí)候命中率也自然就很低,,這樣的緩存不但不能提高效率(因?yàn)榻^大部分讀IO都還要讀取磁盤),反而會(huì)因?yàn)槊看稳テヅ渚彺娑速M(fèi)時(shí)間,。
執(zhí)行讀IO操作是讀取數(shù)據(jù)存在于緩存中的數(shù)量與全部要讀取數(shù)據(jù)的比值稱為緩存命中率(Read Cache Hit Radio),,假設(shè)一個(gè)存儲(chǔ)系統(tǒng)在不使用緩存的情況下隨機(jī)小IO讀取能達(dá)到150IOPS,而它的緩存能提供10%的緩存命中率的話,,那么實(shí)際上它的IOPS可以達(dá)到150/(1-10%)=166,。
回寫
首先說一下,用于回寫功能的那部分緩存被稱為寫緩存(Write Cache),。在一套寫緩存打開的存儲(chǔ)中,,操作系統(tǒng)所發(fā)出的一系列寫IO命令并不會(huì)被挨個(gè)的執(zhí)行,這些寫IO的命令會(huì)先寫入緩存中,,然后再一次性的將緩存中的修改推到磁盤中,,這就相當(dāng)于將那些相同的多個(gè)IO合并成一個(gè),多個(gè)連續(xù)操作的小IO合并成一個(gè)大的IO,,還有就是將多個(gè)隨機(jī)的寫IO變成一組連續(xù)的寫IO,,這樣就能減少磁盤尋址等操作所消耗的時(shí)間,大大的提高磁盤寫入的效率,。
讀緩存雖然對(duì)效率提高是很明顯的,,但是它所帶來的問題也比較嚴(yán)重,因?yàn)榫彺婧推胀▋?nèi)存一樣,,掉點(diǎn)以后數(shù)據(jù)會(huì)全部丟失,,當(dāng)操作系統(tǒng)發(fā)出的寫IO命令寫入到緩存中后即被認(rèn)為是寫入成功,而實(shí)際上數(shù)據(jù)是沒有被真正寫入磁盤的,,此時(shí)如果掉電,,緩存中的數(shù)據(jù)就會(huì)永遠(yuǎn)的丟失了,這個(gè)對(duì)應(yīng)用來說是災(zāi)難性的,,目前解決這個(gè)問題最好的方法就是給緩存配備電池了,,保證存儲(chǔ)掉電之后緩存數(shù)據(jù)能如數(shù)保存下來。
和讀一樣,,寫緩存也存在一個(gè)寫緩存命中率(Write Cache Hit Radio),,不過和讀緩存命中情況不一樣的是,盡管緩存命中,,也不能將實(shí)際的IO操作免掉,,只是被合并了而已,。
控制器緩存和磁盤緩存除了上面的作用之外還承當(dāng)著其他的作用,比如磁盤緩存有保存IO命令隊(duì)列的功能,,單個(gè)的磁盤一次只能處理一個(gè)IO命令,,但卻能接收多個(gè)IO命令,這些進(jìn)入到磁盤而未被處理的命令就保存在緩存中的IO隊(duì)列中,。
RAID(Redundant Array Of Inexpensive Disks)
如果你是一位數(shù)據(jù)庫管理員或者經(jīng)常接觸服務(wù)器,,那對(duì)RAID應(yīng)該很熟悉了,作為最廉價(jià)的存儲(chǔ)解決方案,,RAID早已在服務(wù)器存儲(chǔ)中得到了普及,。在RAID的各個(gè)級(jí)別中,應(yīng)當(dāng)以RAID10和RAID5(不過RAID5已經(jīng)基本走到頭了,,RAID6正在崛起中,,看看這里了解下原因)應(yīng)用最廣了。下面將就RAID0,,RAID1,RAID5,,RAID6,,RAID10這幾種級(jí)別的RAID展開說一下磁盤陣列對(duì)于磁盤性能的影響,當(dāng)然在閱讀下面的內(nèi)容之前你必須對(duì)各個(gè)級(jí)別的RAID的結(jié)構(gòu)和工作原理要熟悉才行,,這樣才不至于滿頭霧水,,推薦查看wikipedia上面的如下條目:RAID,Standard RAID levels,,Nested RAID levels,。
RAID0
RAID0將數(shù)據(jù)條帶化(striping)將連續(xù)的數(shù)據(jù)分散在多個(gè)磁盤上進(jìn)行存取,系統(tǒng)發(fā)出的IO命令(不管讀IO和寫IO都一樣)就可以在磁盤上被并行的執(zhí)行,,每個(gè)磁盤單獨(dú)執(zhí)行自己的那一部分請(qǐng)求,,這樣的并行的IO操作能大大的增強(qiáng)整個(gè)存儲(chǔ)系統(tǒng)的性能。假設(shè)一個(gè)RAID0陣列有n(n>=2)個(gè)磁盤組成,,每個(gè)磁盤的隨機(jī)讀寫的IO能力都達(dá)到140的話,,那么整個(gè)磁盤陣列的IO能力將是140*n。同時(shí)如果在陣列總線的傳輸能力允許的話RAID0的吞吐率也將是單個(gè)磁盤的n倍,。
從上一篇文章:IO系統(tǒng)性能之一:衡量性能的幾個(gè)指標(biāo)的計(jì)算中我們可以看到一個(gè)15k轉(zhuǎn)速的磁盤在隨機(jī)讀寫訪問的情況下IOPS竟然只有140左右,,但在實(shí)際應(yīng)用中我們卻能看到很多標(biāo)有5000IOPS甚至更高的存儲(chǔ)系統(tǒng),有這么大IOPS的存儲(chǔ)系統(tǒng)怎么來的呢?這就要?dú)w結(jié)于各種存儲(chǔ)技術(shù)的使用了,,在這些存儲(chǔ)技術(shù)中使用最廣的就是高速緩存(Cache)和磁盤冗余陣列(RAID)了,,本文就將探討緩存和磁盤陣列提高存儲(chǔ)IO性能的方法。
高速緩存(Cache)
在當(dāng)下的各種存儲(chǔ)產(chǎn)品中,,按照速度從快到慢應(yīng)該就是內(nèi)存>閃存>磁盤>磁帶了,,然而速度越快也就意味著價(jià)格越高,,閃存雖然說是發(fā)展勢(shì)頭很好,但目前來說卻還是因?yàn)閮r(jià)格問題無法普及,,因此現(xiàn)在還是一個(gè)磁盤作霸王的時(shí)代,。與CPU和內(nèi)存速度相比,磁盤的速度無疑是計(jì)算機(jī)系統(tǒng)中最大的瓶頸了,,所以在必須使用磁盤而又想提高性能的情況下,,人們想出了在磁盤中嵌入一塊高速的內(nèi)存用來保存經(jīng)常訪問的數(shù)據(jù)從而提高讀寫效率的方法來折中的解決,這塊嵌入的內(nèi)存就被稱為高速緩存,。
說到緩存,,這東西應(yīng)用現(xiàn)在已經(jīng)是無處不在,從處于上層的應(yīng)用,,到操作系統(tǒng)層,,再到磁盤控制器,還有CPU內(nèi)部,,單個(gè)磁盤的內(nèi)部也都存在緩存,,所有這些緩存存在的目的都是相同的,就是提高系統(tǒng)執(zhí)行的效率,。
當(dāng)然在這里我們只關(guān)心跟IO性能相關(guān)的緩存,,與IO性能直接相關(guān)的幾個(gè)緩存分別是文件系統(tǒng)緩存(File System Cache)、磁盤控制器緩存(Disk Controller Cache)和磁盤緩存(Disk Cache,也稱為Disk Buffer),,不過當(dāng)在計(jì)算一個(gè)磁盤系統(tǒng)性能的時(shí)候文件系統(tǒng)緩存也是不會(huì)考慮在內(nèi)的,,因此我們重點(diǎn)考察的就是磁盤控制器緩存和磁盤緩存。
不管是控制器緩存還是磁盤緩存,,他們所起的作用主要是分為三部分:緩存數(shù)據(jù),、預(yù)讀(Read-ahead)和回寫(Write-back)。
緩存數(shù)據(jù)
首先是系統(tǒng)讀取過的數(shù)據(jù)會(huì)被緩存在高速緩存中,,這樣下次再次需要讀取相同的數(shù)據(jù)的時(shí)候就不用在訪問磁盤,,直接從緩存中取數(shù)據(jù)就可以了。當(dāng)然使用過的數(shù)據(jù)也不可能在緩存中永久保留的,,緩存的數(shù)據(jù)一般那是采取LRU算法來進(jìn)行管理,,目的是將長時(shí)間不用的數(shù)據(jù)清除出緩存,那些經(jīng)常被訪問的卻能一直保留在緩存中,,直到緩存被清空,。
預(yù)讀
預(yù)讀是指采用預(yù)讀算法在沒有系統(tǒng)的IO請(qǐng)求的時(shí)候事先將數(shù)據(jù)從磁盤中讀入到緩存中,然后在系統(tǒng)發(fā)出讀IO請(qǐng)求的時(shí)候,,就會(huì)實(shí)現(xiàn)去檢查看看緩存里面是否存在要讀取的數(shù)據(jù),,如果存在(即命中)的話就直接將結(jié)果返回,這時(shí)候的磁盤不再需要尋址,、旋轉(zhuǎn)等待,、讀取數(shù)據(jù)這一序列的操作了,,這樣是能節(jié)省很多時(shí)間的;如果沒有命中則再發(fā)出真正的讀取磁盤的命令去取所需要的數(shù)據(jù)。
緩存的命中率跟緩存的大小有很大的關(guān)系,,理論上是緩存越大的話,,所能緩存的數(shù)據(jù)也就越多,這樣命中率也自然越高,,當(dāng)然緩存不可能太大,,畢竟成本在那兒呢。如果一個(gè)容量很大的存儲(chǔ)系統(tǒng)配備了一個(gè)很小的讀緩存的話,,這時(shí)候問題會(huì)比較大的,,因?yàn)樾【彺婢彺娴臄?shù)據(jù)量非常小,相比整個(gè)存儲(chǔ)系統(tǒng)來說比例非常低,,這樣隨機(jī)讀取(數(shù)據(jù)庫系統(tǒng)的大多數(shù)情況)的時(shí)候命中率也自然就很低,,這樣的緩存不但不能提高效率(因?yàn)榻^大部分讀IO都還要讀取磁盤),反而會(huì)因?yàn)槊看稳テヅ渚彺娑速M(fèi)時(shí)間,。
執(zhí)行讀IO操作是讀取數(shù)據(jù)存在于緩存中的數(shù)量與全部要讀取數(shù)據(jù)的比值稱為緩存命中率(Read Cache Hit Radio),,假設(shè)一個(gè)存儲(chǔ)系統(tǒng)在不使用緩存的情況下隨機(jī)小IO讀取能達(dá)到150IOPS,而它的緩存能提供10%的緩存命中率的話,,那么實(shí)際上它的IOPS可以達(dá)到150/(1-10%)=166,。
回寫
首先說一下,用于回寫功能的那部分緩存被稱為寫緩存(Write Cache),。在一套寫緩存打開的存儲(chǔ)中,操作系統(tǒng)所發(fā)出的一系列寫IO命令并不會(huì)被挨個(gè)的執(zhí)行,,這些寫IO的命令會(huì)先寫入緩存中,,然后再一次性的將緩存中的修改推到磁盤中,這就相當(dāng)于將那些相同的多個(gè)IO合并成一個(gè),,多個(gè)連續(xù)操作的小IO合并成一個(gè)大的IO,,還有就是將多個(gè)隨機(jī)的寫IO變成一組連續(xù)的寫IO,這樣就能減少磁盤尋址等操作所消耗的時(shí)間,,大大的提高磁盤寫入的效率,。
讀緩存雖然對(duì)效率提高是很明顯的,但是它所帶來的問題也比較嚴(yán)重,,因?yàn)榫彺婧推胀▋?nèi)存一樣,,掉點(diǎn)以后數(shù)據(jù)會(huì)全部丟失,當(dāng)操作系統(tǒng)發(fā)出的寫IO命令寫入到緩存中后即被認(rèn)為是寫入成功,,而實(shí)際上數(shù)據(jù)是沒有被真正寫入磁盤的,,此時(shí)如果掉電,緩存中的數(shù)據(jù)就會(huì)永遠(yuǎn)的丟失了,,這個(gè)對(duì)應(yīng)用來說是災(zāi)難性的,,目前解決這個(gè)問題最好的方法就是給緩存配備電池了,,保證存儲(chǔ)掉電之后緩存數(shù)據(jù)能如數(shù)保存下來。
和讀一樣,,寫緩存也存在一個(gè)寫緩存命中率(Write Cache Hit Radio),,不過和讀緩存命中情況不一樣的是,盡管緩存命中,,也不能將實(shí)際的IO操作免掉,,只是被合并了而已。
控制器緩存和磁盤緩存除了上面的作用之外還承當(dāng)著其他的作用,,比如磁盤緩存有保存IO命令隊(duì)列的功能,,單個(gè)的磁盤一次只能處理一個(gè)IO命令,但卻能接收多個(gè)IO命令,,這些進(jìn)入到磁盤而未被處理的命令就保存在緩存中的IO隊(duì)列中,。
RAID(Redundant Array Of Inexpensive Disks)
如果你是一位數(shù)據(jù)庫管理員或者經(jīng)常接觸服務(wù)器,那對(duì)RAID應(yīng)該很熟悉了,,作為最廉價(jià)的存儲(chǔ)解決方案,,RAID早已在服務(wù)器存儲(chǔ)中得到了普及。在RAID的各個(gè)級(jí)別中,,應(yīng)當(dāng)以RAID10和RAID5(不過RAID5已經(jīng)基本走到頭了,,RAID6正在崛起中,看看這里了解下原因)應(yīng)用最廣了,。下面將就RAID0,,RAID1,RAID5,,RAID6,,RAID10這幾種級(jí)別的RAID展開說一下磁盤陣列對(duì)于磁盤性能的影響,當(dāng)然在閱讀下面的內(nèi)容之前你必須對(duì)各個(gè)級(jí)別的RAID的結(jié)構(gòu)和工作原理要熟悉才行,,這樣才不至于滿頭霧水,,推薦查看wikipedia上面的如下條目:RAID,Standard RAID levels,,Nested RAID levels,。
RAID0
RAID0將數(shù)據(jù)條帶化(striping)將連續(xù)的數(shù)據(jù)分散在多個(gè)磁盤上進(jìn)行存取,系統(tǒng)發(fā)出的IO命令(不管讀IO和寫IO都一樣)就可以在磁盤上被并行的執(zhí)行,,每個(gè)磁盤單獨(dú)執(zhí)行自己的那一部分請(qǐng)求,,這樣的并行的IO操作能大大的增強(qiáng)整個(gè)存儲(chǔ)系統(tǒng)的性能。假設(shè)一個(gè)RAID0陣列有n(n>=2)個(gè)磁盤組成,,每個(gè)磁盤的隨機(jī)讀寫的IO能力都達(dá)到140的話,,那么整個(gè)磁盤陣列的IO能力將是140*n。同時(shí)如果在陣列總線的傳輸能力允許的話RAID0的吞吐率也將是單個(gè)磁盤的n倍,。