OPPO首個自研芯片背后：DSA的勝利-AET-電子技術應用

OPPO首個自研芯片背后：DSA的勝利

日期： 2021-12-15

作者：李壽鵬

來源：半導體行業(yè)觀察

關鍵詞： OPPO 芯片 DSA

　　2019 年 2 月，圖靈獎獲得者John Hennessy 和 David Patterson發(fā)布了一篇名為《A new golden age for computer architecture》的文章。在文章中他們指出，伴隨著摩爾定律和登納德縮放定律的終結，要想獲得像 20 世紀八九十年代那樣的的性能改進，就需要新的架構方法，以更高效地利用集成電路，而DSA就是他們想要的答案。

　　據(jù)他們在文章中介紹，所謂DSA（domain specific architecture，特定領域架構）是一種針對特定領域定制的可編程處理器，能夠用于加速某些應用程序，實現(xiàn)更好的性能。如現(xiàn)在因為AI大行其道的GPU就是一個基于DSA思路設計的產(chǎn)品。包括谷歌、Tesla和Cerebras在內(nèi)的廠商也針對其特定應用推行他們的DSA芯片。

　　日前，本土手機廠商OPPO也帶來其影像專用NPU——馬里亞納？ MariSilicon X，揭開了公司造芯的神秘面紗。透過這個芯片，我們不但看到了這個手機巨頭在提升用戶體驗方面的“芯”思考，也看到了屬于DSA的又一場勝利。

微信圖片_20211215092024.jpg 　

　　DSA在影像NPU上的實踐

　　自蘋果在2007年推出第一代iPhone以來，智能手機在接下來十年經(jīng)歷了夢幻般的開局。不但芯片性能獲得了大幅度的增長，屏幕的體驗也獲得了跨躍性的提升。但進入最近幾年，手機創(chuàng)新缺乏，這讓手機廠商將目標瞄向了改善拍攝體驗，隨之也給手機芯片的影像處理提出了新的要求。

　　作為一個需要處理多類型任務的芯片，手機主控芯片廠商在設計產(chǎn)品的時候只能在各項設計能力上做平衡。那就意味著在這些通用芯片上的ISP和NPU，在處理圖像或視頻的時候顯得捉襟見肘。

　　近年來，Google在其Pixel手機上使用Pixel Visual Core/Pixel Neural Core 系列硬件加速器證明了AI算法可以提供遠超傳統(tǒng)算法的拍照體驗之后，業(yè)界就開始探索NPU在降噪、HDR+和demosaic領域的應用優(yōu)勢。而OPPO正是通過自定義的芯片來應對這方面的挑戰(zhàn)。

　　OPPO芯片產(chǎn)品高級總監(jiān)姜波也指出，通用芯片要想達成終極體驗目標，面臨一些挑戰(zhàn)：

　　一方面，智能手機在定制傳感器后，有時候需要SoC做相應的配合，但SoC研發(fā)周期非常長，傳感器需要的時間又非常短，這里面的平衡是非常難把控的；

　　另一方面，如果要針對目前市面上現(xiàn)有的傳感器在SoC上做pipeline（鏈路）處理優(yōu)化增強，也意味著需要研發(fā)要做很大的調(diào)整，成本增加不少；

　　此外，當算法和芯片不能做到相互完全開放和緊密耦合，更是無法發(fā)揮出它的最大效益。

　　基于這樣的思考，OPPO發(fā)布了首款影像專用NPU——馬里亞納 MariSilicon X，這正是DSA在影像應用上的一個教科書般的實踐。據(jù)姜波所說，這個芯片由一個自研的影像處理單元MariLumi、一個自研的AI計算單元MariNeuro以及片上內(nèi)存子系統(tǒng)等核心部分組成。得益于這樣的設計，其擁有四個不得不提的特性，分別是極致能耗比、行業(yè)領先的HDR、影像的AI的處理（包括影像算法的處理）都放在RAW上完成以及對定制sensor性能的最大化利用。

　　微信圖片_20211215092050.jpg

　　首先看極致能耗比方面。據(jù)介紹，MariSilicon X擁有18TOPS的算力，這正是DSA獨特具備的優(yōu)勢。11.6TOPS/W的能耗效率更是讓它在擁有強悍的處理能力的同時，功耗表現(xiàn)也不落下風。“按現(xiàn)在實際的算力情況，我們的芯片可以在800毫瓦功耗約束的范圍內(nèi)跑到40fps”，姜波舉例說。

　　微信圖片_20211215092222.jpg

　　其次，OPPO的MariSilicon X支持20 bit RAW，領先于高通最新一代旗艦驍龍8平臺的18bit和聯(lián)發(fā)科的天璣9000，其120db的HDR讓搭配MariSilicon X的手機在拍攝圖片的時候，獲得四倍于當前旗艦的動態(tài)范圍。

　　第三，在影像的AI處理方面，馬里亞納X通過將AI降噪及HDR融合等復雜計算前置到數(shù)據(jù)更加純凈無損的RAW域，在影像信噪比和畫質上遠超傳統(tǒng)YUV域處理方案；

　　據(jù)OPPO測試顯示，在搭配了他們自研的馬里亞納 MariSilicon X的方案中，可以獲得至少8dB的信噪比增強，相當于2.6倍的提升。在4k場景下，更是可以分別在圖像亮部和暗部獲得8dB和12dB增益。換而言之，自研芯片可以讓圖像暗部的信噪比做到4倍的有效提升。

　　最后，來到傳感器的定制；

　　OPPO定制的RGBW傳感器通過融入對光線更敏感的white像素，在保證色彩還原準確的同時提升了傳感器進光量。但在通用型SoC的賦能下，如果想要發(fā)揮這一定制傳感器的優(yōu)勢，第一步要做的就是在傳感器端將RGBW remosaic成傳統(tǒng)的RGGB信息，再傳送給SoC處理。但在這個處理過程中，會丟失一些有用的信息。而為了與通用的SoC配合，又必須要做一些妥協(xié)和損耗才可以用上RGBW。

　　有見及此，OPPO選擇了自研影像專用NPU與定制傳感器配合的方法，讓其產(chǎn)生的原始RAW數(shù)據(jù)與自研芯片有最緊密的耦合和最大限度優(yōu)化。

　　具體而言，在設計圖像處理pipeline的時候，馬里亞納X在提供RGGB鏈路的同時還具備white處理鏈路既能夠獲取良好的顏色信息，又能夠提升信噪比。與傳統(tǒng)RAW相比，帶來的提升是非常顯著的，這也正是DSA的意義。而按OPPO所說，借助兩路pipeline的處理，可以得到7.9倍的信噪比的提升；在紋理細節(jié)上，通過2路的超采樣，也可以獲得1.7倍的解析力的增強。

　　“我們通過自研芯片和定制化傳感器相互的化學反應和相互耦合，真正充分發(fā)揮出傳感器在最初設計時候的最大能力。”姜波強調(diào)。

　　從上述的介紹我們可以看到，OPPO基于DSA的設計能夠將以影像的體驗發(fā)揮得淋漓盡致。而在這背后，其在芯片的定義、IP的設計和工藝的選擇等多個方面的決定都功不可沒。

　　自研IP引領的全面提升

　　熟悉芯片設計的讀者應該知道，在做好了芯片的功能定義和架構規(guī)劃之后，接下來的一個重要環(huán)節(jié)就是選擇IP。常用的方案有第三方IP和自研兩種。出于謹慎考慮，很多新入局芯片設計的廠商都選擇前者。但OPPO卻走了一條相對較難的路。

　　在問到為何作出這個決定時，姜波回應道，在決定研發(fā)馬里亞納 MariSilicon X之后，公司也考慮過一些第三方IP，市場上也有很多IP廠商可以提供NPU。但他們在評估之后發(fā)現(xiàn)，并沒有一個現(xiàn)有NPU可以在其自身的場景和算法下，達到他們認為的最優(yōu)能耗效率。因此他們從頭開始自研做了NPU，這就是MariNeuro IP面世背后的原因，這也讓OPPO首個自研芯片MariSilicon X擁有了強悍的性能。

　　微信圖片_20211215092306.jpg

　　除了MariNeuro之外，OPPO還自研了MariLumi IP，正是這個IP，讓OPPO的馬里亞納 MariSilicon X在圖片的HDR處理方面擁有其他手機芯片旗艦所不具備的實力。

　微信圖片_20211215092320.jpg 　

　　為了讓設備更好地處理這些龐大數(shù)據(jù)，OPPO還給這個芯片配備了片上的內(nèi)存子系統(tǒng)，避免數(shù)據(jù)頻繁讀寫產(chǎn)生的時延和功耗提升。這個Tb級的子系統(tǒng)讓該芯片在處理海量數(shù)據(jù)時依舊游刃有余。這也是OPPO能夠把之前應用于圖像的AI算法應用于實時視頻處理的一個重要原因。

　　又因為OPPO還專門為這個芯片集成了8.5GB/s的獨立DDR帶寬，因此當MariSilicon X跟一個主芯片搭載在一起使用時，整個系統(tǒng)的DDR吞吐率又增加了17%。

　　微信圖片_20211215092336.jpg

　　對于一個芯片來說，架構、處理能力和I/O是決定其性能的關鍵要素。但正如摩爾定律的含義所體現(xiàn)的，芯片的制造工藝才是決定一顆芯片性能的根本。同時，作為一個商用產(chǎn)品，該芯片同時還需要在成本上做權衡。基于上述考慮，OPPO團隊在公司的首顆芯片上選擇了6nm。

　　據(jù)姜波介紹，公司在開始芯片設計的時候評估了各種工藝制程。他坦言，選擇更落后的工藝，在芯片的設計、實現(xiàn)、周期和成本都極具優(yōu)勢，但之所以選擇6nm，主要是基于他們經(jīng)過仿真之后得出結論——即便有自研的MariNeuro和MariLumi IP，但如果選擇落后的工藝（如12nm），做出來的芯片很難達到終端應用所需的極致功耗性能要求。因此他們別無選擇。

　　“從工藝制程來講，6nm應該是臺積電第一個主流的采用EUV的制程。因為有了這個制程，我們非常好地支撐了同級最好的能效比，包括在RAW上的復雜算法處理。”姜波補充。他進一步指出，OPPO的這個6nm芯片上，實現(xiàn)了一次點亮，這足以證明OPPO芯片團隊的實力。這也讓他們成為了國內(nèi)為數(shù)不多可以實現(xiàn)6nm設計的企業(yè)。

　　除此以外，筆者還認為，OPPO的6nm芯片背后其實還有更深層次的含義：

　　一方面，進入到10nm以后，傳統(tǒng)的DUV光刻機已經(jīng)不再能夠滿足芯片繼續(xù)微縮的需求，EUV光刻機便應運而生。從目前的情況看來，如果想繼續(xù)打造更高性能的芯片，懂得設計使用EUV光刻機生產(chǎn)的芯片是一個必備技能，而OPPO團隊在馬里亞納 MariSilicon X芯片的實踐上展現(xiàn)了他們在這個方面的實力，讓他們擁有底氣去探索更多的芯片可能。

　　另一方面，6nm芯片的流片成本較之過往的芯片工藝成本有了大幅度的提升，每流片一次的成本可以以“億”為單位。但OPPO依然能這樣高舉高打，足以體現(xiàn)他們造芯的決心。

　　姜波也強調(diào)，和其他芯片廠商做芯片只是追求終端廠商成本和需求的平衡不一樣，OPPO造芯的目的相對純粹很多，那就是用“加法”思維去“堆料”，以提高用戶體驗為最終目的。他進一步舉例說，當這顆芯片與高通或聯(lián)發(fā)科主芯片一起在手機內(nèi)工作時，并不是為了取代后者的部分功能，而是希望通過增加芯片，增加算力，與它們一起把事情做得更好。

　　寫在最后

　　在文章開頭談到的John Hennessy 和 David Patterson的文章中說到，登納德縮放定律和摩爾定律的終結，把高級、特定領域的語言和架構將架構師從專有指令集的鏈條中釋放出來，這將為計算機架構師帶來一個新的黃金時代。他們同時還指出，未來十年，將會有一場新計算機架構的寒武紀爆炸，這對業(yè)界和學界的架構師們來說將是激動人心的時刻。

　　對于OPPO來說，這也是他們的一個機會。

　　正如姜波所說，MariSilicon X只是OPPO在計算影像上探索的第一步。因為OPPO離消費者比較近，會對用戶痛點以及產(chǎn)品的價值主張比較清晰，所以OPPO在做一些方向選擇的時候，也更容易做決策。而這正是DSA的精髓所在。

　　從日前的一些媒體報道中我們看到，OPPO現(xiàn)在擁有了一個超過2000人的芯片團隊。通過OPPO對MariSilicon X的解讀，筆者有理由相信這家國產(chǎn)手機芯片“新貴”迎來的，不僅僅是黃金十年。讓我們靜候一個更好體驗的時代到來。

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

OPPO首個自研芯片背后：DSA的勝利

日期： 2021-12-15

作者：李壽鵬

來源： 半導體行業(yè)觀察

相關內(nèi)容

來源：半導體行業(yè)觀察