在Google做芯片,是一種什么體驗?
一位Google芯片設(shè)計師回答:就像小朋友走進(jìn)了一家糖果店,。
IT資源~~得不到的永遠(yuǎn)在騷動~~
要么花更長時間,,要么降低對質(zhì)量的追求,,這種無奈的取舍是半導(dǎo)體行業(yè)一直以來的痛。
如果說EDA工具的出現(xiàn)是半導(dǎo)體行業(yè)的第一次革命,幫助芯片設(shè)計人員用更簡單的方法從事設(shè)計工作,以縮短研發(fā)周期,,降低設(shè)計成本。
那么,,云計算可能是第二次產(chǎn)業(yè)革命的開端,。雖然云計算本身已經(jīng)出現(xiàn)十年之久,但直到現(xiàn)在,,也許才能看出一些端倪,。
我們看一下現(xiàn)在的全球半導(dǎo)體行業(yè)上云格局一覽圖(基于最新公開資料整理):
1、 整個半導(dǎo)體產(chǎn)業(yè)鏈核心角色:EDA供應(yīng)商/ Foundry/Fabless無一缺席,,都已經(jīng)開始上云的步伐,。
2、 全球各大云廠商不僅積極擁抱半導(dǎo)體產(chǎn)業(yè),,甚至自己主導(dǎo)設(shè)計開發(fā)云端AI芯片,,在產(chǎn)業(yè)鏈中扮演雙重角色。
3,、 圖上只是根據(jù)公開資料整理出來的半導(dǎo)體云玩家,,更多公司還在冰山之下。這意味著,,不光是上云企業(yè)與本地企業(yè)之間,云上企業(yè)之間的競爭也已經(jīng)暗流涌動,。
如果下面這張圖代表整個半導(dǎo)體行業(yè)對云的接受度,,也許我們已經(jīng)站在跨越鴻溝的邊緣:
云有一個奇妙的特性:花同樣的錢,你可以讓100臺機(jī)器跑1個小時,,也可以讓1臺機(jī)器跑100個小時,,但是不同時間消耗帶來的結(jié)果完全不一樣,可能事關(guān)生死,。
半導(dǎo)體企業(yè)上云并不是直接把本地數(shù)據(jù)中心生態(tài)系統(tǒng)搬到另一個地方,,是一個涉及資產(chǎn)與成本,當(dāng)下與未來的綜合決策,。
而在這場生死之戰(zhàn)中,,在半導(dǎo)體企業(yè)到一朵云或者多云服務(wù)之間,速石的角色是什么,?
我們辛總給我打了個樸實的比方:假如你要打掃家里,,以前你買的是N把掃把,,現(xiàn)在你買的是一個智能掃地機(jī)器人。地是云服務(wù)商掃的,,我們主要是智能機(jī)器那部分,。
嗯,話說得有點糙,,而且簡化得有點過分,,大家意會~~
拒絕意會的,歡迎文末掃碼聯(lián)系小F,,我們用五個詳細(xì)案例告訴你我們是怎么解決半導(dǎo)體行業(yè)三種模式(純云SaaS/混合云+多區(qū)域/EDA云平臺)下不同企業(yè)用云需求的,。
十個上云實踐問題的解答
DAC是集成電路設(shè)計界的大聚會,是全球EDA,、Foundry,、IP提供商的盛會,今年是第35屆了,。
從去年開始,,DAC有了專門的“design on cloud” 部分。如果說去年是云廠商(AWS/Azure/Googlecloud,,包括阿里云)和眾多IT服務(wù)商張開懷抱對芯片公司說:我可以,。
過去一年,有了明顯變化,。
今年6月,,我們看到了不少芯片設(shè)計公司的身影,他們作為過來人出來現(xiàn)身說法,,講自己上云的那點事兒,。
1家Foundry,,1家EDA,,4家Fabless。
上云的模式是什么,?
最開始,,為什么選擇上云?
上云的挑戰(zhàn)主要有哪些,?
你覺得EDA供應(yīng)商準(zhǔn)備好上云了嗎,?
上云的缺點是什么?
對于芯片設(shè)計,云廠商已經(jīng)準(zhǔn)備好了嗎,?
在云上,,一切都需要付錢。怎么控制云上的成本,?
你覺得在云上設(shè)計安全嗎,?
目前為止,,上云的成果是什么?
對后來的上云實踐者有什么建議,?
上云的模式是什么,?
QST:純公有云模式+AWS為主
AFRL:純公有云模式+AWS為主
TSMC:OIP VDE虛擬設(shè)計環(huán)境+ AWS+ Google Cloud+Azure
Cadence:Cadence Cloud Portfolio+AWS+ Google Cloud+Azure
eSilicon:混合云模式逐漸過渡到純公有云模式+Google Cloud
Astera Labs:純公有云模式+AWS
最開始,為什么選擇上云,?
QST:
我們公司是2018年8月成立的,,主要做基于MEMS傳感器的解決方案。
剛成立的時候接到一個客戶需求,,只有6個月的時間就要Tapeout,,根本沒有給我們時間搭本地基礎(chǔ)架構(gòu),所以直接選擇了上云,。當(dāng)然,,結(jié)果非常好,我們成功在規(guī)定期限前完成了任務(wù),。
AFRL:
不要覺得AFRL是一個大公司,,其實我們就是一個獨立的小組,更像一個小公司,。
我在做的這個項目其實是個DOD(國防部)的項目,,我們空軍這塊只是整個芯片項目的PoC。
我們選擇云的原因主要原因是完全搭一套本地設(shè)計環(huán)境周期太長,,流程又長又復(fù)雜,;另一個原因是我們的人員包括了海軍、軍隊,、空軍研究員和小組,,分散各地,搭建一套本地的IT合作環(huán)境讓所有外部人員遠(yuǎn)程登錄非常麻煩,,最好可以有一套無視大家地理位置的解決方案,,讓所有人盡管分散在各地也能在一起順利完成任務(wù)。
TSMC:
我們2018年宣布OIP云端聯(lián)盟成立,。一方面是受AI/5G等大環(huán)境驅(qū)動,另一方面,,我們不可能永遠(yuǎn)有足夠的本地計算資源,,內(nèi)部我們開始用云端方案來協(xié)助芯片設(shè)計,既然我們用了,,我們就覺得也應(yīng)該開放給我們的用戶用,,讓他們能受益,不用受資源所限,,能更快完成他們的設(shè)計,。
歡迎文末掃碼聯(lián)系小F
獲取某Foundry EDA設(shè)計云平臺模式解決方案
Cadence:
2018年發(fā)布Cadence Cloud Portfolio,,臺積電、亞馬遜,、微軟和谷歌都是合作伙伴,。2019年4月,我們發(fā)布了CloudBurst平臺,,6月又發(fā)布了Cloud Passport合作伙伴項目,。
以前跟我的用戶們聊云,基本上一聊到安全就聊不下去了,。但現(xiàn)在這個行業(yè)的新公司大量涌現(xiàn),,都在認(rèn)真考慮云這件事,因為的確幫他們省了一大堆麻煩和注意力,,不用考慮搭建一套工作流,,也不用考慮搭建設(shè)計環(huán)境等等。
所以現(xiàn)在我感覺趨勢是:小公司正在考慮把整個基本架構(gòu)都換成云,,而大一些的公司,,正在評估接下來到底怎么走。是做一個單獨項目,,還是把某項功能放在云上運行,,平衡本地和云的資源,這是一個謹(jǐn)慎的決策,。
我聊的每一個人都表示對云感興趣,,所以我覺得現(xiàn)在的問題在于什么時候上云,而不在于上不上云這件事,。
eSilicon:
2000年成立,,在用傳統(tǒng)方法做了20年ASIC芯片后,eSilicon決定放棄本地,,把整個芯片設(shè)計都搬到云上,。
我們的轉(zhuǎn)變開始于2014年,當(dāng)CEO Jack Harding問了一個問題:計算硬件設(shè)施到底給我們帶來了什么,?那時候我們是租的數(shù)據(jù)中心的機(jī)器,,設(shè)計一枚芯片的過程中,我們至少需要把租用的機(jī)器數(shù)量翻一倍,,這我們實在有點沒法接受,。那時候,我們的團(tuán)隊才真正開始研究到底要怎樣才可以有效使用云資源,。
我們現(xiàn)在的目標(biāo)是:到2020年前,,全面上云,我們將成為一個Serverless的公司,不擁有任何硬件,。
Astera Labs:
我們公司2017年成立的,。關(guān)于上不上云,做決定前,,我們有三個決策原則:
?。薄⑽覀兿氚阉械馁Y源放在創(chuàng)造價值上,;
?。病⒈镜貨]有專門的IT團(tuán)隊,,這也不是我們的強項,;
3,、隨著公司的成長,,我們需要快速迭代。
所以對我們來說,,其實選擇很簡單:
本地+云混合模式:第一時間否決,,既要管本地,還要管云,,雙重頭疼
完全本地模式:專業(yè)的IT團(tuán)隊,,大量的前期投入,只能不斷擴(kuò)張(不能減少),,同樣否決
Synopsys/Cadence平臺:EDA供應(yīng)商限制了我的工具使用范圍,,有限的計算架構(gòu)
純公有云模式:同時具備規(guī)模擴(kuò)張性和彈性,外包支持服務(wù)
最后,,我們選了AWS,,外包IT團(tuán)隊,免去所有頭疼的事情,。
歡迎文末掃碼聯(lián)系小F
獲取芯片設(shè)計公司混合云+SaaS模式上云解決方案
上云的挑戰(zhàn)主要有哪些,?
QST:
6個月的時間就要Tapeout,時間非常緊,。
AFRL:
希望可以有一套不用考慮大家地理位置的解決方案,,讓分散在各地的小組成員能在一個環(huán)境下共同順利完成工作。
TSMC:
安全是一切的基礎(chǔ),。我們花了兩年多時間專心于安全問題,,和我們公司的IT部門一起研究怎么和云廠商合作,檢測所有細(xì)節(jié)?,F(xiàn)在我們有了云安全資質(zhì)計劃,還有一些安全方面的合作伙伴在我們的云聯(lián)盟里。
Cadence:
云一種全新的架構(gòu),。我們在努力朝這個方向前進(jìn),。
eSilicon:
1、對本地芯片設(shè)計工作流最小影響,,最好不影響
2,、降低IP開發(fā)工作負(fù)載的成本
3、運行更多的IP仿真
4,、云上的集成和運維問題
5,、IP安全:公有云上的IP存儲
Astera Labs:
1、本地沒有IT團(tuán)隊,,不想把重心放在核心業(yè)務(wù)之外的工作任務(wù)上
2,、最頭疼的是在云上管理排隊任務(wù)。
3,、大量并行工作任務(wù)意味著大量數(shù)據(jù)管理,,技術(shù)資源成為最大的瓶頸
歡迎文末掃碼聯(lián)系小F
了解我們怎么幫你智能調(diào)度本地及云上資源
你覺得EDA供應(yīng)商準(zhǔn)備好上云了嗎?
TSMC:
我們既和各大云廠商合作,,也跟EDA供應(yīng)商合作.當(dāng)我們嘗試在云上做一些互動式的任務(wù),,因為我們在臺灣,最近的數(shù)據(jù)中心可能在新加坡,,距離有3000公里,,不管你怎么優(yōu)化路由,都會有50-60分鐘延遲,,這會給EDA工具帶來一些壓力,。但積極的一面在于在過去的9個月時間,EDA合作伙伴都非常配合,,找出問題在哪,,怎么優(yōu)化。
我覺得,,以前并沒有所謂的云使用范式或者標(biāo)準(zhǔn),,所以EDA廠商現(xiàn)在沒必要針對云端使用做全面優(yōu)化。直到有一天大家都在用了,,自然就會做了,。整體來說,現(xiàn)在使用上沒什么問題,。這將是我們接下來幾年的共同未來目標(biāo),。
Astera Labs:
EDA工具在云上使用很順利,當(dāng)然,,也有一些改進(jìn)的空間,。比如,,基于云上架構(gòu)做優(yōu)化,能夠更好地利用云上的各種計算資源,,存儲服務(wù)等,。
重點提醒:出錯容忍度低的應(yīng)用可以使用云端可被搶占實例。
上云的缺點是什么?
QST:
因為安全的原因,,所有的東西必須經(jīng)過cadence,,一切問題都必須提交一個工單,不能直接打個電話或者走到辦公室的另一頭找IT部門,,這會增加一些時間成本,。但另一方面這又非常有用,因為一切事情都可以量化,,雖然花了一點時間,,但問題總是會及時得到解決。這花了我們團(tuán)隊幾個月時間來適應(yīng),,但現(xiàn)在一切都很好,。
第二個問題在于,如果你試圖評估到底在云上需要多少資源,,多少用戶,,怎么彈性擴(kuò)張的,這是一個嘗試和學(xué)習(xí)的過程,。
你需要增加你的運維團(tuán)隊,,你需要在不同的國家做擴(kuò)張。我們有團(tuán)隊在臺灣,,有團(tuán)隊在上海,,還有外包團(tuán)隊在印度,硅谷也有員工,,一直在加人,。怎么讓這些人在線,你有多少個接口登陸,,開了多少個服務(wù)器,,這中間有很多要權(quán)衡的東西。
當(dāng)你有一大堆驗證要做,,你能用多少個license,,你能有多少計算資源,你是全部都本地?fù)碛?,還是考慮成本的原因,,減少本地資源,在云上做彈性擴(kuò)張,。這些都需要花時間,。
哪怕你有一個好的IT部門和通過VPN連接的彈性計算資源,,也會遇到同樣的問題。
AFRL:
整體來說,,上云是一個積極的體驗,。
如果你的IT部門不熟悉云架構(gòu),不了解云的運行方式,,這個跨越可能會有點痛苦。它跟在本地完全不一樣,。云的運行方式不一樣,,計費模式不一樣,存儲模式不一樣,。所以你可能可以在云上運行起來,,但如果你只是在云上復(fù)制在本地的一切,你可能沒辦法最大化利用云的價值,。
我建議你最好確保有一個不錯的懂云的團(tuán)隊,。
歡迎文末掃碼聯(lián)系小F
了解為什么我們能幫你最大化利用云的價值
對于芯片設(shè)計,云廠商已經(jīng)準(zhǔn)備好了嗎,?
TSMC:
所有的云廠商都針對EDA工作任務(wù)推出了新的VM類型,,我們不說CPU有多快,我們還要考慮內(nèi)存有多大,,存儲IO有多快多有效,,我們看的是整個服務(wù)包。
我們已經(jīng)對外公布了要在云上做5nm芯片,,這給我們云合作伙伴帶來了很大的壓力,,包括EDA合作伙伴。我們和產(chǎn)業(yè)內(nèi)其他伙伴都在一個生態(tài)系統(tǒng)里,,大家明白我們都需要對方,,所以我們的合作從理解各自的需求,在哪里可以增加價值開始,。
現(xiàn)在我們半導(dǎo)體行業(yè)已經(jīng)吸引了云廠商的關(guān)注,,我們開始試圖與對方合作,提供一些解決方案讓芯片設(shè)計從業(yè)者能夠從中受益,。
在云上,,一切都需要付錢。怎么控制成本,?
Cadence:
我們內(nèi)部也有這樣的經(jīng)歷,,因為我們也在云上做一些開發(fā)工作。我曾經(jīng)和IT部門的同事討論過,,他們通常低估了跟蹤誰在什么時候用了什么服務(wù)這件事,,而當(dāng)賬單來臨的時候,,一個工程師可能跑了上千個任務(wù),他們可能也記不清自己用了些什么,。這是個值得注意的問題,。
關(guān)于這個問題,如果只從成本支出的角度來考慮這個問題,,很可能會得出這個結(jié)論,,最具性價比的方式是在本地?fù)碛心愕姆?wù)器并且100%地使用他們。而我們應(yīng)該要考慮的是成本和收益的平衡問題,。
通常,,我們都從云上獲得了一些商業(yè)好處,更快占領(lǐng)市場,,獲取更多客戶等等,。這不是一個完全的替換關(guān)系,你看看靜態(tài)的歷史數(shù)據(jù),,就能比較出結(jié)果,。
eSilicon:
在ASIC芯片的商業(yè)世界里,成本就是一切,。
過去,,當(dāng)你的工程師要用大量的資源,都是按照過去預(yù)計未來用量?,F(xiàn)在用了云,,很簡單,我們就直接規(guī)定某個人這次只能用一定量的資源,。
歡迎文末掃碼聯(lián)系小F
了解我們怎么幫你優(yōu)化及控制云上成本
你覺得在云上設(shè)計安全嗎,?
QST:
作為一家創(chuàng)業(yè)公司,我對安全的定義有些不一樣,。
我們大部分時間是和AWS合作,。作為一家做創(chuàng)意設(shè)計和IP的公司,你希望保障自己的全部,。但現(xiàn)實情況是,,你不可能確保擁有最優(yōu)秀的IT和最好的安全人員。如果你在本地搭建你的整個設(shè)計系統(tǒng)和環(huán)境,,服務(wù)器都在本地,,我可以跟你保證你的安全措施肯定是很差的,很容易被外部破解,。
如果你的IP在云上開發(fā)和存儲,,比如AWS,比如cadence,,你知道AWS在云上遵循的安全準(zhǔn)則,,肯定比在本地要安全多了,。目前階段,我們完全不擔(dān)心安全這個問題,,但這不意味著如果有一天我們成長壯大之后我們不會改變,。
AFRL:
盡管我們是云懷疑論者。但大的云廠商在云安全上的控制是對外公開的,,每個人都知道你能得到什么,,你能夠?qū)徲嬕磺邪踩募?/p>
像我們這個項目,不同的研究人員分散在不同的地方,,還有外包商等等,,鬼知道他們的IT情況怎么樣,我們把大家拉到一起,,能確保大家在同一個系統(tǒng)里,遵守了同一套準(zhǔn)則,。而不是制定一套準(zhǔn)則,,寄希望于他們能按這個標(biāo)準(zhǔn)實施。誰知道結(jié)果會怎么樣,?
目前為止,,上云的成果是什么?
TSMC:
臺積電的OIP 云端聯(lián)盟現(xiàn)在已經(jīng)跟三大EDA供應(yīng)商:Synopsys/Cadence/Mentor,,以及云廠商AWS/Azure/GoogleCloud正式合作,,運用云端技術(shù)輔助芯片開發(fā)。
已經(jīng)擁有臺積電云端平臺使用經(jīng)驗的SiFive位于美國硅谷與印度Bangalore的團(tuán)隊,,通過云端進(jìn)行設(shè)計,,在不到三個月時間就完成了整套前后端設(shè)計,創(chuàng)下速度上的新高記錄,。
eSilicon:
?。薄⒔?jīng)過測試,,云上的資源比原來本地硬件設(shè)備表現(xiàn)提升了15%,,同時能跑的任務(wù)比原來多了一倍。
?。?、云運維成本跟原來相比大大降低,我們估計了一下如果有一個類似的本地解決方案達(dá)到現(xiàn)在的效果,,大概要花公司幾百萬美元,。
3,、沒有閑置資源,,可以使用更多彈性資源,,無限檔案存儲
4,、加速芯片設(shè)計完成周期,,能完成更多客戶需求
5,、不受本地資源限制,,避免硬件投資
6,、縮短推出市場的時間,,提升設(shè)計結(jié)果質(zhì)量
7,、云上有天然自帶監(jiān)控系統(tǒng)的架構(gòu),,更容易追蹤記錄,進(jìn)行用戶管理和監(jiān)控
?。?、未來發(fā)展機(jī)器學(xué)習(xí)的可能性
Astera Labs:
1,、過去存儲怎么使用都不夠,,現(xiàn)在可以無限擴(kuò)展
2,、工作安排可以排得比以前更多
?。场⑽覀兂浞掷昧嗽瀑Y源的可擴(kuò)展性和最新型的實例類型
?。?、可以根據(jù)不同任務(wù)使用獨立的云資源
5,、我們可以做出更高質(zhì)量的芯片
歡迎文末掃碼聯(lián)系小F
了解我們用戶案例的上云表現(xiàn)
對后來的上云實踐者有什么建議,?
eSilicon:
1、把PDK,、EDA工具和管理服務(wù)在云端做備份,,減少本地和云端數(shù)據(jù)傳輸
2、只選取數(shù)據(jù)結(jié)果的一小部分在云端和本地同步
3,、為了安全,,云上的數(shù)據(jù)暫存區(qū)需要更高頻的清理
4、多云/多區(qū)域的資源整合和調(diào)度,,對使用云上的可被搶占實例很重要,,能降低成本
5、在云上必須使用SSD和高速存儲,提供足夠的擴(kuò)展性和性能
6,、不同的任務(wù)有獨占的分布式文件系統(tǒng),,提供必要的性能和服務(wù)質(zhì)量
7、擁抱云上的彈性資源,,不要用原來使用本地數(shù)據(jù)中心的方式來用云
8,、根據(jù)不同的任務(wù)類型選擇更優(yōu)化的云上資源
9、如果本地就有l(wèi)icense不夠,,任務(wù)排隊的問題,,這會在云上花更多的錢(排隊也花錢)
10、善于使用可被搶占實例等折扣
11,、對數(shù)據(jù)分層,,選擇不同存儲方式:SSD、HD和云上存儲
12,、注意:不同賬戶在云上使用資源是有限額的
Astera Labs:
?。薄⒁欢ㄒ每杀粨屨紝嵗?/p>
?。?、使用成本是一定會被低估的,所以在快/好/便宜三個標(biāo)準(zhǔn)之間,,按自己的情況,選擇兩個就夠了
《六家云廠商價格比較:AWS,、阿里云,、Azure、Google Cloud,、華為云,、騰訊云》的下篇就講六大云廠商的可被搶占實例,建議關(guān)注一下我們,,大約下期發(fā)~~
Cadence:
1,、花足夠的時間理清楚,公司用云的優(yōu)先級是什么,,這些討論/分析/研究接下來會節(jié)約你很多時間,。因為不同人對云的期待可能不一樣,如果沒有達(dá)成一致,,會浪費很多時間,。
2、確定你的使用模式是什么,,是一個完整的項目,,還是一個功能,還是為了合作,。明確這一點,,你能用正確的架構(gòu)來解決你的問題,。
3、不只是在你的公司內(nèi)部,,包括Foundry,,包括工具提供商,第三方IP供應(yīng)商,,會涉及到大量協(xié)作,。