TCP粘合技術(shù)采用軟件處理方式時(shí),由于大量數(shù)據(jù)包不需要上層解析,,因此提高了系統(tǒng)性能,,但是受軟件處理速度的限制,該技術(shù)仍很難應(yīng)用于大規(guī)模的集群系統(tǒng),。本文提出了一種基于FPGA的TCP粘合技術(shù)的高速實(shí)現(xiàn)機(jī)制,,利用硬件的高速處理特性和流水線技術(shù)來適應(yīng)高速網(wǎng)絡(luò)傳輸?shù)男枰?nbsp;
1 現(xiàn)存的TCP粘合技術(shù)
TCP粘合原理如下:(1)監(jiān)聽客戶端的連接請(qǐng)求,并在客戶端發(fā)出連接請(qǐng)求后(從SYN開始),,建立客戶端到均衡器之間的連接(通過TCP的三次握手協(xié)議完成)。(2)在隨后的請(qǐng)求報(bào)文中分析數(shù)據(jù)并決定真正被訪問的服務(wù)節(jié)點(diǎn),。(3)與服務(wù)節(jié)點(diǎn)建立另一個(gè)連接,,將兩個(gè)連接粘合在一起(Splicing)。其TCP粘合原理示意圖如圖1所示[2],。
2 TCP粘合技術(shù)的硬件實(shí)現(xiàn)
TCP粘合技術(shù)的關(guān)鍵在于,,當(dāng)客戶端發(fā)起連接請(qǐng)求時(shí),系統(tǒng)并不是立即將該請(qǐng)求發(fā)給后端服務(wù)器,,而是偽裝成服務(wù)器與客戶端建立連接,,取得用戶的GET數(shù)據(jù)包。通過對(duì)URL的匹配來找到信息在后端服務(wù)器的位置,,然后再在客戶端與服務(wù)器之間建立連接通信,。
2.1 系統(tǒng)架構(gòu)
TCP粘合系統(tǒng)結(jié)構(gòu)如圖2所示。
該系統(tǒng)中首先由客戶數(shù)據(jù)接收端對(duì)接收到的HTTP報(bào)文進(jìn)行解析,,發(fā)現(xiàn)數(shù)據(jù)包為一個(gè)發(fā)起連接的SYN數(shù)據(jù)包時(shí),,傳給地址管理單元,地址管理就為該連接分配一個(gè)地址空間,,同時(shí)通過映射單元告訴客戶數(shù)據(jù)發(fā)送端與客戶端完成三次握手,,建立連接,。
當(dāng)客戶數(shù)據(jù)接收端接收到GET數(shù)據(jù)包時(shí),將該數(shù)據(jù)包發(fā)送給字符串匹配表,,該表會(huì)將信息在后端服務(wù)器的位置返回給地址管理單元,,地址管理單元將該信息送給數(shù)據(jù)包映射單元,映射單元將該信息寫入相應(yīng)的SSRAM空間中,,同時(shí)通知服務(wù)器發(fā)送端與后端服務(wù)器建立連接,。這樣就完成了一個(gè)TCP的粘合過程。
在客戶端與服務(wù)器的通信過程中,,數(shù)據(jù)包映射單元通過雙方SIP,、DIP信息從SSRAM中查找出對(duì)應(yīng)的替換信息,完成雙方數(shù)據(jù)包的映射,。
在雙方通信結(jié)束時(shí),,由地址管理單元對(duì)雙方使用的地址空間進(jìn)行回收;同時(shí)為防止通信過程中的異常中斷,地址管理單元內(nèi)部還采用了定時(shí)器機(jī)制對(duì)地址空間進(jìn)行監(jiān)測(cè),,根據(jù)定時(shí)器返回結(jié)果回收過時(shí)地址,,防止過時(shí)信息被查用。
2.2 設(shè)計(jì)實(shí)現(xiàn)
在該系統(tǒng)中,,為完成TCP粘合并且保證TCP通信的可靠性,,必須能夠正確識(shí)別接收到的數(shù)據(jù)包類型;同時(shí)由于實(shí)際網(wǎng)絡(luò)數(shù)據(jù)傳輸?shù)难訒r(shí),在一個(gè)客戶端通信過程中可能會(huì)插入很多其他客戶端發(fā)起的新的連接請(qǐng)求,,系統(tǒng)內(nèi)部根據(jù)對(duì)CAM查找返回的地址來區(qū)分不同的數(shù)據(jù)流,,因此要對(duì)內(nèi)部地址空間進(jìn)行有效的釋放回收,為處理網(wǎng)絡(luò)通信異常中斷而導(dǎo)致內(nèi)部地址無法回收而引入定時(shí)器機(jī)制;在數(shù)據(jù)發(fā)送部分,,客戶端數(shù)據(jù)發(fā)送模塊偽裝成服務(wù)器與客戶端完成TCP三次握手協(xié)議;服務(wù)器數(shù)據(jù)發(fā)送模塊則偽裝成客戶端與服務(wù)器完成TCP三次握手協(xié)議,。雙方在通信過程中轉(zhuǎn)發(fā)對(duì)方的數(shù)據(jù)包。
2.2.1 數(shù)據(jù)收發(fā)
對(duì)于系統(tǒng)的發(fā)送接口來說,,所有發(fā)送數(shù)據(jù)包的轉(zhuǎn)發(fā)由數(shù)據(jù)包映射單元完成,,因此發(fā)送接口僅完成簡(jiǎn)單的數(shù)據(jù)包轉(zhuǎn)發(fā)功能。而當(dāng)系統(tǒng)接收到數(shù)據(jù)包時(shí),,要對(duì)數(shù)據(jù)包進(jìn)行協(xié)議解析,,從而決定數(shù)據(jù)包后端處理的方式。在接收部分主要對(duì)三種數(shù)據(jù)包進(jìn)行區(qū)分:(1)雙方發(fā)起連接的SYN數(shù)據(jù)包,。這表示一個(gè)新連接的發(fā)起,,因此交給地址管理單元,為它分配一個(gè)新的地址空間,,同時(shí)要求發(fā)送端返回一個(gè)ACK數(shù)據(jù)包;(2)客戶端發(fā)來的GET數(shù)據(jù)包中含有客戶端所需信息的URL地址,,將該數(shù)據(jù)包送給字符串匹配表以獲得該信息所在后端服務(wù)器的位置;(3)雙方通信的普通數(shù)據(jù)包。該數(shù)據(jù)包交給數(shù)據(jù)包映射單元實(shí)現(xiàn)雙發(fā)的通信,。具體接收的狀態(tài)轉(zhuǎn)換圖如圖3所示,。
2.2.2 地址管理單元
在地址管理的方式上,,在此處利用一個(gè)地址鏈表進(jìn)行管理,如圖4所示,。
每次地址管理單元接收到新的請(qǐng)求連接就從鏈表的頭部取出該可用地址空間,,將新請(qǐng)求的SIP、DIP信息寫入該地址的CAM中,,同時(shí)在該地址對(duì)應(yīng)的SSRAM的頁(yè)面中寫入相關(guān)的信息,,假設(shè)鏈表中取出地址為n,頁(yè)面大小為m,,則SSRAM中對(duì)應(yīng)的頁(yè)面起始地址l為:
l=n×m
當(dāng)?shù)刂饭芾韱卧邮盏阶址ヅ浔矸祷氐暮蠖朔?wù)器位置信息時(shí),,首先通過該數(shù)據(jù)包的SIP、DIP從CAM中查找該數(shù)據(jù)流對(duì)應(yīng)的地址,,通過上述計(jì)算公式找出SSRAM中對(duì)應(yīng)的頁(yè)面,,寫入返回信息。
對(duì)于地址空間的回收,,為防止通信異常中斷而無法回收地址,,在系統(tǒng)中采用定時(shí)器機(jī)制,即在一段時(shí)間后對(duì)SSRAM中的定時(shí)器標(biāo)志位進(jìn)行檢測(cè),,一旦發(fā)現(xiàn)該標(biāo)志位過時(shí)則通知地址管理單元回收地址,。地址管理單元收到某一地址過時(shí)的信息后,將該地址掛在地址管理鏈表尾部,,同時(shí)清除該地址CAM中的SIP,、DIP信息。這樣當(dāng)同一IP發(fā)起新的連接時(shí)就不會(huì)查找到過時(shí)信息,。
2.2.3 數(shù)據(jù)包映射單元
為完成數(shù)據(jù)包的映射,,該部分需要實(shí)現(xiàn)兩個(gè)功能:ACK序列號(hào)轉(zhuǎn)換和雙方轉(zhuǎn)換信息的存儲(chǔ)。
在TCP粘合過程中,,由于TCP粘合系統(tǒng)送給客戶端的ACK序列號(hào)和后端服務(wù)器送給客戶端的ACK序列號(hào)不相同,因此要進(jìn)行ACK序列號(hào)的轉(zhuǎn)換,,同時(shí)要重新計(jì)算數(shù)據(jù)包的TCP/IP校驗(yàn)和,。
現(xiàn)假設(shè)客戶端發(fā)送了請(qǐng)求連接的SYN數(shù)據(jù)包,而客戶端返回給客戶端的SYN序列號(hào)為地址管理單元分配給該連接的地址A0,,而當(dāng)系統(tǒng)和服務(wù)器建立鏈接時(shí)服務(wù)器端返回的SYN序列號(hào)為A1,,則根據(jù)這兩個(gè)序列號(hào)可計(jì)算差值A(chǔ)為:A=A0-A1。
以后通信的過程中,,只要將服務(wù)器發(fā)送給系統(tǒng)的序列號(hào)加上A就能夠轉(zhuǎn)換成為系統(tǒng)送給客戶端的序列號(hào),,這樣就完成了服務(wù)器端向客戶端發(fā)送數(shù)據(jù)的轉(zhuǎn)換,反之就可以完成客戶端向服務(wù)器發(fā)送數(shù)據(jù)的轉(zhuǎn)換,。
對(duì)于數(shù)據(jù)包的校驗(yàn)和轉(zhuǎn)換而言,,由于校驗(yàn)和本質(zhì)上是加法運(yùn)算,,所以只需要在原來的校驗(yàn)和基礎(chǔ)上加上序列號(hào)之差(或減去一個(gè)差值)即可完成校驗(yàn)和的轉(zhuǎn)換。
在同一個(gè)通信過程中,,ACK序列號(hào)轉(zhuǎn)換,、校驗(yàn)和的轉(zhuǎn)換、發(fā)起連接的SYN,、GET數(shù)據(jù)包和定時(shí)器標(biāo)志位等信息都需要存儲(chǔ),,由于每個(gè)數(shù)據(jù)流需要存儲(chǔ)的內(nèi)容較多,單一的地址已經(jīng)無法滿足存儲(chǔ)要求,。此處存儲(chǔ)管理采用頁(yè)面式的管理方式,。將整個(gè)存儲(chǔ)空間分為若干頁(yè)面,每個(gè)數(shù)據(jù)流信息存入一個(gè)頁(yè)面中,。SSRAM的存儲(chǔ)格式如圖5所示,。
3 性能分析
該架構(gòu)已在試驗(yàn)系統(tǒng)上實(shí)現(xiàn),接收端為兩個(gè)GE口,。相對(duì)于采用TCP粘合的應(yīng)用代理服務(wù)器來說(其中代理服務(wù)器CPU Pentium IV 2GHz),,具體的性能對(duì)比如表1所示。
從上表可以看出在最大連接數(shù)方面,,在本系統(tǒng)中采用一個(gè)18Mbit的CAM,,它能夠提供的最大地址空間為288K×144bit,只能支持288K的連接數(shù),。對(duì)于服務(wù)器的最大連接數(shù)來說,,SYN和GET數(shù)據(jù)包需要經(jīng)過軟件協(xié)議解析。因此當(dāng)最大連接數(shù)達(dá)到582K時(shí)CPU的利用率將達(dá)到90%以上[3],,無法再處理新的連接,。從上述分析中可以看出,由于受硬件資源的限制,,硬件系統(tǒng)可以支持的最大連接數(shù)小于代理服務(wù)器,。但是在實(shí)際的網(wǎng)絡(luò)傳輸過程中,一個(gè)HTTP連接持續(xù)的時(shí)間一般為幾百個(gè)毫秒,,在硬件系統(tǒng)達(dá)到每秒21K的連接數(shù)時(shí),,能夠承受的一個(gè)HTTP最大持續(xù)時(shí)間為13秒,遠(yuǎn)遠(yuǎn)大于實(shí)際HTTP連接的持續(xù)時(shí)間,,因此硬件系統(tǒng)支持的最大連接數(shù)是夠用的,。當(dāng)代理服務(wù)器采用千兆網(wǎng)卡來接收數(shù)據(jù)時(shí),由于數(shù)據(jù)需要經(jīng)過上層協(xié)議解析,,因此實(shí)際能夠接收的數(shù)據(jù)量只能夠達(dá)到300Mbps,。假設(shè)每次平均請(qǐng)求512B,則代理服務(wù)器能夠支持的最大每秒連接數(shù)大約為7K;而當(dāng)硬件系統(tǒng)工作在133MHz,內(nèi)部采用32bit總線傳輸時(shí),,整個(gè)系統(tǒng)的帶寬達(dá)到4Gbit,,同時(shí)系統(tǒng)內(nèi)部采用流水線方式,能夠線速處理1Gbps數(shù)據(jù)的接收,,假設(shè)平均每次請(qǐng)求512B,,則硬件系統(tǒng)能夠處理的每秒最大連接數(shù)達(dá)到21K,因此在單位時(shí)間內(nèi)能夠處理的連接數(shù)量會(huì)高于代理服務(wù)器,。
隨著HTTP訪問量的不斷增大,,對(duì)于訪問數(shù)據(jù)包的分流粒度要求越來越細(xì)。本文提出的基于硬件實(shí)現(xiàn)的TCP粘合系統(tǒng),,在TCP粘合技術(shù)的基礎(chǔ)上,,利用硬件的高速處理特性,可以達(dá)到2個(gè)GE口收發(fā)(2Gbps)的線速處理性能,。同時(shí)能夠較好地基于內(nèi)容來區(qū)分?jǐn)?shù)據(jù)流,,從而避免了后端服務(wù)器數(shù)據(jù)的重新分發(fā)。