多年來,,英特爾內(nèi)置于其 CPU 中的視頻解碼/編碼引擎一直主導(dǎo)著市場,因?yàn)樗鼈兲峁┝祟I(lǐng)先的性能和功能,,并且易于使用,。但是定制專用集成電路 (ASIC) 的性能往往優(yōu)于通用硬件,因?yàn)樗鼈儍H針對(duì)一種工作負(fù)載而設(shè)計(jì),。因此,,谷歌轉(zhuǎn)向?yàn)?YouTube 開發(fā)自己的視頻處理任務(wù)專用硬件,并取得了巨大的成效,。
Google 設(shè)計(jì)了自己的新處理器Argos 視頻(轉(zhuǎn))編碼單元 (VCU),,其目的只有一個(gè):處理視頻。高效的新芯片使這家技術(shù)巨頭能夠用自己的芯片替換數(shù)百萬顆英特爾 CPU,。
不過,,英特爾也不會(huì)坐以待斃,可能會(huì)利用其最新技術(shù)來贏回谷歌的專業(yè)視頻處理業(yè)務(wù),。
大量視頻需要新硬件
用戶每分鐘向 YouTube 上傳超過 500 小時(shí)的各種格式的視頻內(nèi)容,。Google 需要將該內(nèi)容快速轉(zhuǎn)碼為多種分辨率(包括 144p、240p,、360p,、480p、720p,、1080p,、1440p、2160p 和 4320p)和數(shù)據(jù)高效格式(例如,,H.264,、VP9 或 AV1),這需要強(qiáng)大的編碼能力,。
從歷史上看,,谷歌有兩種轉(zhuǎn)碼/編碼內(nèi)容的選擇。第一個(gè)選項(xiàng)是英特爾的視覺計(jì)算加速器(VCA),它包含三個(gè) Xeon E3 CPU,,內(nèi)置 Iris Pro P6300/P580GT4e 集成圖形內(nèi)核和先進(jìn)的硬件編碼器,。
第二種選擇是使用軟件編碼和通用英特爾至強(qiáng)處理器。谷歌認(rèn)為,,對(duì)于新興的YouTube工作負(fù)載來說,,這兩種方案都不夠省電--視覺計(jì)算加速器本身相當(dāng)耗電,,而擴(kuò)大至強(qiáng)CPU的數(shù)量基本上意味著增加服務(wù)器的數(shù)量,,這意味著額外的電力和數(shù)據(jù)中心的占用。因此,,谷歌決定采用定制的內(nèi)部硬件,。
谷歌的第一代 Argos VCU 并沒有完全取代英特爾的中央處理器,因?yàn)榉?wù)器仍然需要運(yùn)行操作系統(tǒng)并管理存儲(chǔ)驅(qū)動(dòng)器和網(wǎng)絡(luò)連接,。在很大程度上,,谷歌的 Argos VCU 就像一個(gè)總是需要一個(gè) CPU 的 GPU。
谷歌的 VCU 與我們在 GPU 中看到的流處理器不同,,它集成了十個(gè) H.264/VP9 編碼器引擎,、幾個(gè)解碼器內(nèi)核、四個(gè) LPDDR4-3200內(nèi)存通道(具有 4x32 位接口),、一個(gè) PCIe 接口,、一個(gè) DMA 引擎和一個(gè)用于調(diào)度目的的小型通用內(nèi)核。除了內(nèi)部設(shè)計(jì)的編碼器/轉(zhuǎn)碼器外,,大多數(shù) IP 都從第三方獲得許可,,以降低開發(fā)成本。每個(gè) VCU 還配備了 8GB 的可用 ECC LPDDR4 內(nèi)存,。
谷歌VCU的主要理念是將盡可能多的高性能編碼器/轉(zhuǎn)碼器放入一塊硅片中(同時(shí)保持節(jié)能)),,然后根據(jù)所需的服務(wù)器數(shù)量分別擴(kuò)展VCU的數(shù)量。谷歌在一塊板上放置了兩個(gè)VCU,,然后在每臺(tái)雙插槽英特爾至強(qiáng)服務(wù)器上安裝了10張卡,,大大提高了該公司每個(gè)機(jī)架的解碼/轉(zhuǎn)碼性能。
效率的提高導(dǎo)致從至強(qiáng)的遷移
谷歌表示,,與英特爾Skylake-powered服務(wù)器系統(tǒng)相比,,其基于VCU的機(jī)器在性能/TCO計(jì)算效率方面有高達(dá)7倍(H.264)和33倍(VP9)的改進(jìn)。這一改進(jìn)將 VCU 的成本(與英特爾的 CPU 相比)和三年的運(yùn)營費(fèi)用考慮在內(nèi),,這使得 VCU 成為視頻巨頭 YouTube 的輕松選擇,。
CPU、GPU 和配備 VCU 的系統(tǒng)中的離線雙通道單輸出 (SOT) 吞吐量:
從谷歌分享的性能數(shù)據(jù)來看,,很明顯單個(gè) Argos VCU 僅比 H.264 中的 2 路 Intel Skylake 服務(wù)器快,。但是,由于可以在這樣的服務(wù)器中安裝 20 個(gè) VCU,因此從效率的角度來看VCU 勝出,。但對(duì)于要求更高的 VP9 編解碼器,,谷歌的 VCU 似乎比英特爾的雙路至強(qiáng)快五倍,因此提供了令人印象深刻的效率優(yōu)勢,。
由于谷歌使用Argos VCU已經(jīng)有幾年了,,它顯然用運(yùn)行自己芯片的機(jī)器取代了許多基于Xeon的YouTube服務(wù)器。很難估計(jì)谷歌實(shí)際替換了多少Xeon系統(tǒng),,但一些分析家認(rèn)為,,該技術(shù)巨頭可能將400萬到3300萬顆英特爾CPU替換成了自己的VCU。
由于谷歌的其他服務(wù)需要大量的處理器,,該公司從AMD或英特爾購買的CPU數(shù)量很可能仍然很高,,而且不會(huì)很快減少,因?yàn)楣雀枳约旱臄?shù)據(jù)中心級(jí)系統(tǒng)芯片(SoC)還要等上幾年,。
同樣值得注意的是,,現(xiàn)在為了嘗試使用創(chuàng)新的編碼技術(shù)(如AV1),谷歌甚至需要為YouTube使用通用的CPU,,因?yàn)锳rgos不支持該編解碼,。此外,隨著更有效的編解碼器的出現(xiàn)(而這些編解碼器往往對(duì)計(jì)算能力的要求更高),,谷歌將不得不繼續(xù)使用CPU進(jìn)行初始部署,。具有諷刺意味的是,專用硬件的優(yōu)勢在未來只會(huì)越來越大,。
谷歌已經(jīng)在開發(fā)支持 AV1,、H.264 和 VP9 編解碼器的第二代 VCU,因?yàn)樗枰M(jìn)一步提高其編碼技術(shù)的效率,。目前尚不清楚何時(shí)部署新的 VCU,,但很明顯該公司希望盡可能使用自己的 SoC 而不是通用處理器。
英特爾并未停滯不前
不過,,英特爾并沒有停滯不前,。該公司 基于DG1 Xe-LP的 四芯片 SG1 服務(wù)器卡可以解碼多達(dá) 28 個(gè) 4Kp60 流以及轉(zhuǎn)碼多達(dá) 12 個(gè)同時(shí)流。從本質(zhì)上講,,英特爾的 SG1 與谷歌的 Argos VCU 所做的完全一樣:將視頻解碼和轉(zhuǎn)碼性能與服務(wù)器數(shù)量分開,,從而減少用于視頻應(yīng)用的數(shù)據(jù)中心所需的通用處理器數(shù)量。
憑借即將推出的單塊 Xe-HP GPU,,英特爾將同時(shí)提供 10 個(gè)高質(zhì)量 4Kp60 流的轉(zhuǎn)碼,。請(qǐng)記住,某些 Xe-HP GPU 將擴(kuò)展到四個(gè)區(qū)塊,,并且每個(gè)系統(tǒng)可以安裝一個(gè)以上的 GPU,,英特爾市場領(lǐng)先的媒體解碼和編碼能力只會(huì)變得更加穩(wěn)固,。
總結(jié)
Google 已成功構(gòu)建了出色的 H.264 和支持 VP9 的視頻(轉(zhuǎn))編碼單元 (VCU),與英特爾現(xiàn)有的 CPU 相比,,它可以在視頻編碼/轉(zhuǎn)碼工作負(fù)載方面提供顯著更高的效率,。此外,VCU 使 Google 能夠獨(dú)立于服務(wù)器數(shù)量擴(kuò)展其視頻編碼/轉(zhuǎn)碼性能,。
然而,,英特爾已經(jīng)擁有其 Xe-LP GPU 和 SG1 卡,它們也提供了一些重要的視頻解碼和編碼功能,,因此英特爾仍將在具有繁重視頻流工作負(fù)載的數(shù)據(jù)中心取得成功,。此外,隨著英特爾 Xe-HP GPU 的出現(xiàn),,該公司有望鞏固其在該市場的地位,。