介紹
隨著消費者對智能電話需求的日益增長以及無線平板電腦的廣泛普及,,當今的移動因特網(wǎng)需要連接越來越多的用戶,,從而要求移動網(wǎng)絡(luò)實現(xiàn)顯著的容量增長,。長期演進(4G LTE) 能夠以更低的成本提供更高的頻譜效率與更大的容量,。不斷演進的 LTE-Advanced (LTE-A) 能夠可實現(xiàn)具有更高帶寬、更強吞吐能力與更高級天線技術(shù)的異構(gòu)網(wǎng)絡(luò),。同時,,WCDMA 標準也在不斷演進發(fā)展,具有更高的帶寬以及更強大的吞吐能力,。毋庸置疑,,市場需要推出多標準基站。其結(jié)果是,,部署在基站中的片上系統(tǒng)(SoC) 器件不僅需要支持 LTE,,還需要同時支持WCDMA 及其它原有標準。作為當今無線基站部署所采用無線基站 SoC 的領(lǐng)先供應商,,德州儀器(TI) 在該市場領(lǐng)域擁有長期成功的歷史,。在本白皮書中,我們將與大家分享我們 10 余年積累的“學習周期”體驗和我們最新開發(fā)的無線基站 SoC —— TMS320CTCI6616和TMS320CTCI6618,。
自無線網(wǎng)絡(luò)誕生以來,,其數(shù)據(jù)吞吐能力已實現(xiàn)快速增長。對營運商來說,,最終的衡量標準是頻譜每赫茲承載的比特數(shù),,以及實現(xiàn)特定吞吐能力所需的相關(guān)成本及功耗。一直以來,,在無線標準升級的每一個轉(zhuǎn)折點,,TI 都無一不為基站設(shè)備帶來價值與創(chuàng)新。如今,,TI 的基站 SoC 只需少量電路系統(tǒng)即可處理無線基帶第 1 層 (L1),、第 2 層 (L2) 與傳輸功能。TI 10 余年的豐富經(jīng)驗建立在成功的部署周期之上,,主要體現(xiàn)在在以下方面積累的豐富知識:
1. TI 在最新的半導體工藝技術(shù)節(jié)點上成功推出眾多器件,,不僅能夠?qū)崿F(xiàn)顯著的性能提升,同時還能大幅降低成本及功耗,;
2.
TI 在
DSP 技術(shù)領(lǐng)域擁有穩(wěn)固的領(lǐng)先地位,。毋庸置疑,無線基站需要為全球無線標準的傳輸與接收提供充分的數(shù)字信號處理能力,。TI 擁有強大的實力,,能夠利用其行業(yè)領(lǐng)先的半導體工藝技術(shù)持續(xù)推出數(shù)字處理性能不斷飛速發(fā)展的未來產(chǎn)品。各種優(yōu)勢全面結(jié)合,,即能為市場推出高性價比的解決方案,;
3. TI 始終致力于改進其高性能多內(nèi)核 SoC。雖然無線基站的大多數(shù)功能都能夠由 DSP 執(zhí)行,,但 DSP 最為擅長的則是與目標加速器相結(jié)合來實現(xiàn)各種優(yōu)化目標,,其中包括實現(xiàn)極高的單位頻率吞吐能力、單位功率吞吐能力以及低系統(tǒng)成本等,。在將硬件加速與業(yè)界領(lǐng)先 DSP 相結(jié)合以減輕無線標準的處理方面,,TI 極為成功,能夠以極低的成本與低功耗實現(xiàn)前所未有的吞吐能力,。
TI 基站創(chuàng)新的第三個主要部分是本文的重點所在,,即 TI 為基站 SoC 創(chuàng)建可配置硬件加速器的成功戰(zhàn)略。在決定將無線信號處理鏈上的哪些部分轉(zhuǎn)移到可配置硬件加速模塊中時,,有若干關(guān)鍵問題需要考慮,,其中包括:
1. 無線信號鏈的哪些部分發(fā)生重大變化的可能性最小,,而且哪些應基于成熟的標準之上?
2. 在候選功能中,,設(shè)備制造商能否添加其自己的知識產(chǎn)權(quán) (IP),,以提供高級功能與差異化?
3. 無線信號鏈上的哪個部分具有最高的處理強度(如果在 DSP 的軟件中實施時,,需要最高的 DSP MIPS),?
4. 分配在硬件中的哪些功能可以簡化并加快開發(fā)與測試?
5. 為確保全面的多內(nèi)核能力與峰值加速器性能,,需要何種類型的 SoC 基礎(chǔ)局端,?
要解決上述的第一個問題,需要確保無線處理標準的這些部分(無論仍處于開發(fā)中還是處于實驗階段)都將由 DSP 負責處理,,這樣營運商或 OEM 廠商才能實現(xiàn)解決方案的差異化,。在對各種信號鏈功能及使用模型的 MIPS 要求進行分析后,就可以確定哪些功能應被移入硬件加速器,,從而在降低成本和加快投產(chǎn)進度方面獲得顯著優(yōu)勢,。
除了各種基于硬件的加速器外,TI 還創(chuàng)建了一種可確保實現(xiàn)高效率零復制數(shù)據(jù)流的創(chuàng)新型 KeyStone 架構(gòu),,從而能夠在內(nèi)核,、加速器以及外設(shè)之間實現(xiàn)非阻塞的系統(tǒng)互連。此外,,該架構(gòu)還能確保協(xié)處理器得到充分利用,。它還可以減少中斷及軟件上下文環(huán)境的切換次數(shù),以最大限度地實現(xiàn)所有內(nèi)核的最佳利用,,從而使所有系統(tǒng)組件都能得到全面利用,。
確定系統(tǒng)優(yōu)化的機會
確定新基站 SoC 設(shè)計方法的第一步,是考慮新一代基站的預期性能要求并理解其對SoC 設(shè)計的影響,。
TCI6618 具備一系列針對新一代基站的用例目標參數(shù),。由于 TI TCI6488 是目前應用于基站的領(lǐng)先 SoC,因而其是一種非常適用于基線分析的器件,。
下列各參數(shù)基于 LTE 系統(tǒng)中 TCI6488 器件的性能:
天線:2x2 發(fā)送與接收
帶寬:20MHz
數(shù)據(jù)率:150 Mbps 下行,,75 Mbps 上行
LTE 物理層概覽
LTE 物理層需要對每個物理層通道進行高強度的信號處理。主要的物理層通道如下:
下行通道:
PDSCH:物理下行共享通道
PDCCH:物理下行控制通道
上行通道:
PUSCH:物理上行共享通道
PUCCH:物理上行控制通道
PRACH:物理隨機訪問通道
對于每個數(shù)據(jù)和控制通道而言,,可將物理層處理分為兩個主要的功能模塊:比特率與 IQ 采樣處理,。
圖 1 顯示的 PDSCH 信號鏈由如下方面構(gòu)成:
IQ 采樣處理 — 處理 LTE 物理資源,將其映射到天線的不同層并轉(zhuǎn)換為 OFDM 符號以用于空中傳輸,。
比特率處理 — 處理來自 L2 的傳輸模塊,,通過計算循環(huán)冗余校驗 (CRC) 并將其附加給傳輸模塊來啟動處理進程。如果傳輸模塊大于 6,144 位的最大允許代碼模塊尺寸,則執(zhí)行代碼模塊分段,。在進行通道編碼前,,要進行新的 CRC 計算并將其附著于每個代碼模塊上。
圖1 介紹了 LTE 下行鏈路中的主要功能模塊,。
圖 1 - FDSCH 信號處理鏈
PUSCH 是 PDSCH 的反向過程,,同樣含有下列 IQ 樣本與比特率處理:
IQ 樣本處理 —— 處理接收到的 OFDM 符號物理資源,。這涉及通道估算與最大比率合并 (MRC) /多輸入,、多輸出 (MIMO) 均衡,以從各個天線分離用戶數(shù)據(jù),。
比特率處理 —— 為在 L2 內(nèi)實現(xiàn)進一步處理而進行的通道解調(diào),、解多路復用、錯誤校正與解碼,。
圖 2 所示為 PUSCH 的信號處理鏈:
圖2 - PUSCH 信號處理鏈
分析 TMS320TCI6488 中的 LTE 物理層處理
TCI6487/8 是 TI 最新系列的多內(nèi)核 SoC,,由三個 C64x+TM CPU 內(nèi)核構(gòu)成。采用這種 SoC 的運營商已有數(shù)百家,,年出貨量數(shù)百萬片,。通過分析 TCI6488 的 LTE 性能,可以深入了解如何構(gòu)建新一代的高性能 SoC,。圖 3 所示為在 TCI6488 上采用 2x2 MIMO,、150Mbps 下行吞吐速率及 75Mbps 上行吞吐速率時,20 MHz LTE 的周期占用數(shù)及分布,。
圖 3 - TCI6488 上的 LTE 物理層處理
從圖上可以明顯看出,,F(xiàn)FT/IFFT、PDSCH 比特率處理,、PUSCH 比特率處理與 PUCCH 占用了總 DSP 周期中的大部分,。
為進一步改進總體系統(tǒng)性能,滿足新一代 LTE 系統(tǒng)的要求,,必須設(shè)計出具備良好均衡性且可擴展的架構(gòu),,以便最大限度地發(fā)揮 SoC 的多內(nèi)核計算性能。這就要求最大限度地提高系統(tǒng)的互連吞吐量,,并將存儲器存取與數(shù)據(jù)傳輸時延降到最小,。
通過對 LTE 要求的總處理周期進行分析,我們發(fā)現(xiàn)通過增強 DSP 內(nèi)核的信號處理能力,,不僅能夠減少處理周期的總數(shù)量,,而且還能增大系統(tǒng)容量、提升性能,。最新推出的 C66x DSP 內(nèi)核通過將 C64x+ 的乘/累加 (MAC) 能力銳升四倍可實現(xiàn)這一目標,。此外,新內(nèi)核還同時集成了定點與浮點功能,并可為矢量處理與矩陣處理提供新的指令,。
如快速傅里葉變換 (FFT) 與快速傅里葉逆變換 (IFFT) 等特定函數(shù)需要在 LTE 信號鏈上的許多地方執(zhí)行,,并且用于在時域與頻域之間進行數(shù)據(jù)轉(zhuǎn)換。FFT 與離散傅立葉變換 (DFT) 已屬成熟算法,,因此它們有可能作為硬件加速的候選以用于釋放 CPU 周期,,這樣 DSP 內(nèi)核就可用于執(zhí)行客戶差異化功能。
LTE 的上行與下行比特率處理及其他無線技術(shù)包含眾多標準算法,,適用于調(diào)制,、解調(diào)、交錯,、解交錯,、速率匹配、解速率匹配,、加擾與去擾等運算,。TI 新型比特率協(xié)處理器 (BCP) 是一種可為多種標準釋放所有比特率處理功能的加速器,它可大幅度提升系統(tǒng)容量,,從而簡化軟件編程,、減少系統(tǒng)時延。
這些就是可以在 TCI6616 及 TCI6618 基站 SoC 中實現(xiàn)創(chuàng)新與性能飛躍提升的系統(tǒng)優(yōu)化機會的示例,。
TI KeyStone 架構(gòu)
KeyStone 多內(nèi)核 SoC 架構(gòu)是業(yè)界同類架構(gòu)中率先可提供基礎(chǔ)局端以確保所有內(nèi)核都能得到充分利用的架構(gòu),。KeyStone 可實現(xiàn)對所有處理內(nèi)核,、外設(shè),、協(xié)處理器及 I/O 的非阻塞訪問??蓪崿F(xiàn)這類多內(nèi)核能力的部分 KeyStone 創(chuàng)新技術(shù)包括:多內(nèi)核導航器,、TeraNet、多內(nèi)核共享存儲控制器 (MSMC) 及超鏈接,。
TI 多內(nèi)核導航器是一種基于分組的創(chuàng)新型管理器,,能夠在提取不同子系統(tǒng)間連接的同時,控制 8,192 個隊列,。它可為實現(xiàn)通信,、數(shù)據(jù)傳輸及工作管理提供統(tǒng)一接口。通過采用“一次性完成,,零復制”的設(shè)計理念,,多內(nèi)核導航器能夠以更少的中斷及更低的軟件復雜度實現(xiàn)更高的系統(tǒng)性能。
舉例來說,,多內(nèi)核導航器能夠進行任務調(diào)度,,且在無需外部管理的情況下即能指示下一個空閑 DSP 內(nèi)核讀取并處理任務,。這樣通過提供下列功能,,即可簡化 SoC 軟件架構(gòu),,進而提升基站的性能:
動態(tài)資源/負載共享
減輕與子系統(tǒng)間通信相關(guān)的 CPU 開銷/延遲
基于硬件的任務優(yōu)先級排序
動態(tài)負載平衡
針對所有 IP 模塊(軟件,、I/O 及加速器)的通用通信方法
多內(nèi)核導航器能夠在無 CPU 干預的情況下控制數(shù)據(jù)流,可從移動數(shù)據(jù)中釋放 CPU 周期并將片上通信速率提升至每秒 2,000 萬條消息,。此外,其還能夠使用更為簡單的軟件架構(gòu)以縮短開發(fā)周期并提高資源利用率,。
TeraNet 能夠提供層級交換結(jié)構(gòu),可在 SoC 內(nèi)為數(shù)據(jù)傳輸提供超過 2 Tbit 的總帶寬,。這樣幾乎可確保不會出現(xiàn)內(nèi)核與協(xié)處理器沒有數(shù)據(jù)可處理的情況,,從而使他們在任何需要的位置和時間都可以發(fā)揮其最大的處理功效,。由于交換結(jié)構(gòu)采用了層級架構(gòu)而非扁平縱橫式結(jié)構(gòu),因此總體功耗能在空閑狀態(tài)下實現(xiàn)大幅度下降且能以最低時延實現(xiàn)高性能,,從而充分滿足新一代基站的這種關(guān)鍵要求,。
多內(nèi)核共享存儲控制器 (MSMC) 是一種可增強性能的獨特架構(gòu)。MSMC 可以讓內(nèi)核在不占用任何 TeraNet 帶寬的情況下直接訪問共享存儲器,。MSMC 可以協(xié)調(diào)內(nèi)核及其他 IP 模塊對共享存儲器的訪問,,以避免發(fā)生存儲器爭用的情況發(fā)生。DDR3 外部存儲器接口 (EMIF) 可直接連接至 MSMC,,從而降低因發(fā)生外部存儲器存取而導致的時延,,并為基站應用提供所需的高速訪問與支持。
超鏈接具有 50Gbps 的總吞吐能力,,是一種互連機制,,能夠以極少的協(xié)議實現(xiàn)與其它 KeyStone,、FPGA 及 ASIC 器件的高速通信與連接,。其可為主器件上的配套器件提供透明的存儲器映射訪問,從而不僅可大幅簡化軟件編程,,同時還能為 OEM 廠商提供實現(xiàn)可擴展解決方案的無縫路徑,。
全新 DSP 內(nèi)核
TCI66x SoC 解決方案包含性能顯著增強的全新處理內(nèi)核。其是業(yè)界首款同時集成了定點和浮點功能的基站 DSP 內(nèi)核,。增強的性能可幫助 OEM 廠商構(gòu)建極富差異化功能的軟件,,從而滿足高級操作人員的要求,。
TMS320C66x 內(nèi)核
作為 TI 的新一代定點及浮點 DSP,新型 C66x 內(nèi)核具備集成了 8 個功能單元和 64 個通用 32 位寄存器的高級 VLIW 架構(gòu),。全新系列器件基于 TI 前代 C64x+ 內(nèi)核架構(gòu)之上,,擁有屢獲殊榮的指令集架構(gòu)和眾多功能強大的特性,如每個周期能夠執(zhí)行 8 個指令,,從而可實現(xiàn)高度的并行性能,。
全新的 C66x DSP 內(nèi)核實現(xiàn)眾多特性改進,其中包括:
原生浮點處理,,可逐指令地與定點實現(xiàn)無縫協(xié)作,。通過以業(yè)界領(lǐng)先的定點 DSP 速度提供原生浮點支持,實現(xiàn)了浮點處理領(lǐng)域的重大進步,;
MAC 實現(xiàn)了 4 倍的性能提升,,每周期可提供 32 個 16x16 位 MAC;
專為復雜算法,、線性代數(shù)和矩陣運算而精心優(yōu)化,;
全流水線雙精度浮點乘法器;
減少雙精度乘法時延,。
所有這些改進都能大幅提升 L1 和 L2 的總體處理性能,。4G 基站解決方案具備 MIMO 和波束成形等算法,可充分利用多天線信號處理實現(xiàn)性能提升,。這些算法通常需要矩陣逆轉(zhuǎn)技術(shù),,從本質(zhì)上來說非常容易遭受與定點處理相關(guān)的量化及擴展問題的影響。這些多天線技術(shù)仍在不斷演進發(fā)展,,具備可幫助客戶實現(xiàn)差異化功能的實施靈活性至關(guān)重要,。將最新的 C66x 增強功能用于矩陣運算和浮點支持,能夠同時顯著提高系統(tǒng)的速度和準確度,,從而為移動電話用戶帶來更精彩的體驗,。
采用 C66x 內(nèi)核增強 MIMO 接收機
我們同時在 LTE 和 LTE-A 中采用了眾多高級接收機算法。例如,,在 LTE-A 新技術(shù)中可實現(xiàn)更先進的多用戶 MIMO (MU-MIMO) 預編碼方案,。此外,單用戶 MIMO (SU-MIMO) 還可支持更高的數(shù)據(jù)速率,。增強型 C66x 內(nèi)核不僅可幫助設(shè)計團隊在上述領(lǐng)域?qū)崿F(xiàn)差異化特性,,而且最終還能幫助他們實現(xiàn)操作人員所需的高級特性。
MIMO 解碼在算法上非常復雜,,往往需要使用客戶 IP 來提升效率和性能,。復雜度隨天線數(shù)量的增加而相應增加。雖然大多數(shù)專家都一致認為第二種傳輸天線至少在最近幾年都不會獲得廣泛使用,,但當前的系統(tǒng)仍以 2xN(2 路傳輸,,N 路接收)配置為主,。實施 MIMO 接收機算法的方式有很多種,其中包括較低復雜側(cè)的線性 MMSE 和較高復雜端的球狀解碼,。在 OEM 廠商測試不同算法的時候,,進行高效率的軟件實施使他們能夠在部署 LTE 系統(tǒng)的同時適配并測試不同的構(gòu)想方案。這種高靈活性在基礎(chǔ)局端部署的最初幾年非常關(guān)鍵,,直到新的網(wǎng)絡(luò)落實,,工程師才能更好地理解問題所在。
C66x 架構(gòu)具備擴展指令集,,可用于加速 DSP 內(nèi)核的 MIMO 處理,。浮點可以實現(xiàn)高效的矩陣反轉(zhuǎn)算法,從而較定點實施相比能夠?qū)崿F(xiàn)更高的性能,,而且與硬件加速相比能夠?qū)崿F(xiàn)更高的靈活性,。通過充分發(fā)揮浮點功能和 4 倍的 MAC 性能改進,C66x DSP 內(nèi)核中的 MIMO 處理量與前代 DSP 相比降低了 5 倍,。
全新的加速功能
通過分析 LTE 和 WCDMA 系統(tǒng)要求,,我們已確定了一些需要改進的功能,并按重要性進行如下排序:
FFT/IFFT/DFT
下行鏈路比特率處理
上行鏈路比特率處理
上行鏈路控制通道接收機
MIMO 接收機
WCDMA 傳輸碼片率 IQ 采樣處理 (TAC)
WCDMA 接收碼片率 IQ 采樣處理 (RAC)
此外,,4G 較高的數(shù)據(jù)速率和高速 3G 系統(tǒng)都需要大量的改進才能完成 turbo 解碼功能,。
TCI6616 AccelerationPacs
為了更好地滿足高速發(fā)展的 3G 和 4G 市場需求,TI 為 TCI6616 開發(fā)了眾多新的加速器,。
傳輸碼片率協(xié)處理器 (TAC)
TAC 能為多達 256 個下行鏈路 WCDMA 用戶執(zhí)行傳輸碼片率擴展運算。該加速器可將符號率處理的數(shù)據(jù)作為輸入,,然后再將芯片擴展序列輸出到基站的各個天線輸出端,。
TAC 能夠執(zhí)行下列運算:
符號調(diào)制
開環(huán)分集處理,其中包括空間時間傳輸分集 (STTD) 和時間交換傳輸分集 (TSTD)
閉環(huán)處理,,其中包括閉環(huán)分集,、用于 HSDPA 的 MIMO、下行鏈路功率控制,、上行鏈路功率控制,、隨機訪問采集指示傳輸、E-DCH 相對授權(quán)和混合 ARQ 指示傳輸
各個通道的增益應用
支持壓縮模式
擴展和加擾
功耗測量
媒體流失調(diào)和延遲
波束成型
媒體流匯總
TCA 支持所有 WCDMA 下行鏈路通道:
P-SCH:主同步通道
S-SCH:次同步通道
P-CPICH:主通用導頻通道
S-CPICH:次通用導頻通道
P-CCPCH:主通用控制物理通道
PICH:傳呼指示器通道
AICH:采集指示器通道
HS-SCCh:高速共享控制通道
HS-PDSCH:高速物理下行鏈路共享通道
E-AGCH:E-DCH 絕對授權(quán)通道
E-RGCH:E-DCH 相對授權(quán)通道
E-HICH:E-DCH 混合 ARQ 指示器通道
MICH:MBMS 指示器通道
DPCH:專用物理通道
F-DPCH:部分專用物理通道
如 RNC 和 Node-B 之間的 NBAP(Node-B 應用部分)協(xié)議所示,,TAC 可實現(xiàn)靈活的通道配置和重配置,。
接收加速器協(xié)處理器 (RAC) RAC 能為多達 256 個 WCDMA 用戶執(zhí)行上行鏈路碼片率解擴運算。其包含基于矢量的高靈活性可配置關(guān)聯(lián)引擎,,能夠支持大量的同步關(guān)聯(lián),。
RAC 支持下列模式的運算:
FD:用于生成原始符號的徑解擴
FT:用于執(zhí)行 EOL(過早、按時,、延遲)測量的徑跟蹤
FPE:用于執(zhí)行徑干擾關(guān)聯(lián)的徑功耗估算
PM:在天線上執(zhí)行脈沖響應曲線以進行徑探測的路徑監(jiān)控器
PD:在簽名上執(zhí)行脈沖響應曲線以進行前導碼檢測
SPE:執(zhí)行寬帶媒體流功耗測算的媒體流功耗估算功能
下面是 RAC 支持的上行鏈路物理通道:
DPCCH:專用物理控制通道
DPDCH:專用物理數(shù)據(jù)通道
HS-DPCCH:高速專用物理控制通道
E-DPCCH:增強型專用物理控制通道
E-DPDCH:增強型專用物理數(shù)據(jù)通道
PRACH:物理隨機訪問通道
Turbo 解碼器 3 (TCP3d)
Turbo 解碼器 3 協(xié)處理器 (TCP3d) 是前代 Turbo 解碼器 2 的改進版本,。TCP3d 可支持 WCDMA,、TD-SCDMA、LTE 和 WiMAX,,是一種在上行鏈路處理中對 Turbo 代碼進行解碼的可配置外設(shè),。TCP3d 的輸入是系統(tǒng)位和校驗位的軟決策,而輸出既可為軟決策,,也可為硬決策,。為了最大限度地減少與使用該協(xié)處理器相關(guān)的開銷,TCP3d 可生成 Turbo 交錯表,,并能在除執(zhí)行解碼之外還支持基于代碼模塊的 CRC 計算,。其結(jié)果是 TCP3d 的開銷比 TCP2 低 7 倍。TCP3d 在 TCI6616 上的吞吐量在 6 次迭代后為 389Mbps,。
Turbo 編碼器 (TCP3e)
Turbo 編碼器協(xié)處理器3 (TCP3e) 是用于 Turbo 代碼編碼的協(xié)處理器,,可支持 WCDMA、TD-SCDMA,、LTE 和 WiMAX,。輸入 TCP3e 的是信息位,輸出的則是編碼后的系統(tǒng)位和校驗位,。它支持基于代碼模塊的 CRC,、turbo 編碼和 turbo 交錯表生成,最大吞吐能力為 643Mbps,。
快速傅立葉轉(zhuǎn)換協(xié)處理器 (FFTC)
快速傅立葉轉(zhuǎn)換協(xié)處理器 (FFTC) 可實施用于 LTE 和 WiMAX 的 FFT/iFFT 和 DFT/iDFT,。多內(nèi)核導航器 (Multicore Navigator) 使數(shù)據(jù)能夠直接在協(xié)處理器端進行輸入和輸出路由,并傳輸?shù)?I/O,。此外,,其還能執(zhí)行周期性的前綴移除和插入以及頻率轉(zhuǎn)換,從而進一步降低 DSP 上的處理負載,。FFTC 的吞吐能力為每秒 12.72 億個副載波,。
圖 4 - TCI6616 方框圖
全面集成 —— TCI6616
圖 4 顯示了 TCI6616 的方框圖。TCI6616 具有創(chuàng)新型 KeyStone 架構(gòu),、增強型 C66x 內(nèi)核并新增了 LTE 和 WCDMA 協(xié)處理器,,能夠為無線基站應用實現(xiàn)較其他 SoC 高 5 倍的性能提升。
TCI6618 AccelerationPacs
TCI6618 為 TCI6616 增添了加速特性,,可將 LTE 性能翻番,。由于 TCI6618 能夠與 TCI6616 實現(xiàn)引腳兼容,因而 OEM 廠商可通過選擇系統(tǒng)適用的器件輕松靈活地進行平臺優(yōu)化,。
由于 LTE 系統(tǒng)能夠處理比 3G 系統(tǒng)高得多的數(shù)據(jù)速率,,因而加速測重于對比特率的處理。
比特率協(xié)處理器
比特率協(xié)處理器 (BCP) 是一種多標準的協(xié)處理器,,其能夠大幅減輕 DSP 的所有比特率處理任務,,從而使信號鏈的位處理部分無需占用任何 DSP 周期,。它能夠顯著簡化了軟件設(shè)計,并能實現(xiàn)極低的系統(tǒng)時延,。BCP 可執(zhí)行以下功能:
• 調(diào)制/解調(diào)
• 交錯/解交錯
• 速率匹配/解速率匹配
• 加擾/解擾
• LTE 的 PUCCH 解碼
• Turbo 和卷積編碼
• CRC 連接和校驗
BCP 不僅能夠針對 MIMO 均衡實現(xiàn) turbo 干擾消除,,而且還實現(xiàn)了高性能PUCCH format 2 解碼。當 LTE 達到最大下行鏈路 2.2 Gbps 的吞吐量,、上行鏈路 1.1 Gbps 的吞吐量時,,BCP 可減輕大約 15 GHz 的DSP MIPS。對于 WCDMA 而言,,最大下行鏈路吞吐量可達 800 Mbps,,最大上行鏈路吞吐量達 400 Mbps。
圖 5 - BCP 體系架構(gòu)
在 BCP 內(nèi)部,,數(shù)據(jù)可通過一個內(nèi)部交換結(jié)構(gòu)從一個子模塊流入另一個子模塊,。分組 DMA 流量管理器可通過 128 位的 BCP 導航器或直接 I/O 接口將流量從 BCP 進行輸入與輸出路由。BCP 以分組為單位進行數(shù)據(jù)處理,,并能同時處理不同的標準,。當將任務請求發(fā)送至 BCP 時,該任務首先被置入 BCP 導航器隊列中,。BCP 調(diào)度程序依據(jù)任務優(yōu)先級選擇需要處理的任務,。接著,由子模塊處理該任務,。最后,,可將 BCP 結(jié)果寫入緩沖器,并將描述符置入完整的隊列上有待進一步處理,。因為極少需要軟件的介入,,因此對 DSP 的周期需求顯著減少,同時 LTE 處理時延也會大幅降低,。
我們在此將介紹另一種可簡化 DSP 處理需求的方法,通過諸如連續(xù)或并行干擾消除(SIC 或 PIC)等高級接收機技術(shù)來提升接收機的 MIMO 性能,。這些算法需要功能強大的比特率協(xié)處理器才能高效地實現(xiàn),。解碼算法的迭代特征要求對數(shù)據(jù)進行多次解碼、處理,、重新編碼和解碼,,這對一般普通的系統(tǒng)而言可謂巨大的計算負擔,但對于 TCI6618 卻能輕松處理,。
Turbo PIC/SIC 的性能改進意義重大,。例如,在 2x2 MIMO 方案中,,一個調(diào)制為 QPSK 的典型的城域信道中,,turbo PIC/SIC 能產(chǎn)生超過 3 dB 的信噪比 (SNR) 性能增益,,從而與一般的接收機方法相比可提升高達 40% 的頻譜利用率。這不僅對運營商的意義重大,,同時也是 TCI6618 與其他產(chǎn)品的重要差別點,。
圖 6 顯示了 Turbo 干擾消除的數(shù)據(jù)流。BCP 和 FFTC 可從反饋路徑分擔絕大多數(shù)的 Turbo 均衡周期,。
圖 6 - Turbo 干擾消除數(shù)據(jù)流
控制信道解碼器
作為 LTE 物理上行鏈路控制信道,,PUCCH 可承載上行鏈路的控制信息,例如調(diào)度請求,、確認,、重傳請求、信道狀態(tài)信息以及信道質(zhì)量指示 (CQI) 等信息,。信道信息解碼會消耗很大的處理資源,。(見圖 3)
PUCCH CQI 通過 Reed Muller (20, A) 模塊代碼進行編碼。各種不同類型的算法均可對此信息進行解碼,。一種非常實用的基于 MRC 的算法可在軟件內(nèi)實施,,但其性能不高。BCP 針對 PUCCH format 2,、2a,、2b 實現(xiàn)了高級的聯(lián)合信道均衡和解碼算法。這與其他更為基礎(chǔ)性的算法相比,,可實現(xiàn)更高的性能,。圖 7 顯示了分別采用 TCI6488 和 TCI6618 的實施周期比較。在該例中,,我們對帶 5 個資源模塊的系統(tǒng)進行了仿真,,每個系統(tǒng)均有 12 個 UE,并且使用 Reed Muller (20, 13) 進行編碼,。在具備雙天線的情況下,,對于從 DSP 內(nèi)核上的軟件到硬件加速器的傳輸處理中,BCP 承擔了 98% 的總 PUCCH format 2 處理量,。
與典型算法相比,,使用聯(lián)合檢測算法能將信噪比 (SNR) 性能提高 1 到 3 分貝。這種增強的性能不僅將顯著改進鏈路預算,,而且還能減少 UE 的干擾,,并提高下行頻譜利用率,從而提高整個 LTE 系統(tǒng)的性能,,以為移動用戶帶來更精彩的體驗,。
全面集成 —— TCI6618
除了 BCP 協(xié)處理器無與倫比的性能外,TCI6618 還添加了額外的 FFTC 和TCP3d 協(xié)處理器,能夠?qū)崿F(xiàn) SoC 功能的完美平衡,。因此,,在 6 個迭代中,F(xiàn)FTC 的總吞吐量為 1,908 Mbps,,TCP3d 的總吞吐量則為 582 Mbps,。與 TCI6616 相比,TCI6618 憑借均衡 CPU 內(nèi)核和協(xié)處理器 將 LTE 的能力提升了 2 倍以上,。TCI6618 通過 2x2 MIMO 天線配置且利用高級接收機算法,,可以支持兩個 20MHz 的 LTE區(qū),下行吞吐量總計可達 300Mbps,,而上行吞吐量總計則可達 150Mbps,。
圖 7 - TCI6618 可實現(xiàn)高級 PUCCH 接收機
圖 8 顯示了 TCI6618 的方框圖:
圖 8 - TCI6618 方框圖
憑借 KeyStone 架構(gòu)、高級 C66x 內(nèi)核以及新型 BCP 等高吞吐量加速器,,TCI6618 與此前系列的 SoC 器件相比,,可實現(xiàn)顯著的性能提升。圖 9 顯示了以圖 3 為基礎(chǔ)而生成的柱狀圖,,闡述了 TCI6488 與 TCI6618 兩者之間在 DSP 周期方面的比較結(jié)果,。運行條件仍然是 20 MHz 的 LTE、2X2 MIMO,、150 Mbps 的下行吞吐量以及 75 Mbps 的上行吞吐量,。
圖 9 - TCI6618 在 LTE 上的性能飛躍
我們從該圖中看到,大約有 90% 的 TCI6488 DSP 處理任務被移至協(xié)處理器,,從而實現(xiàn)了數(shù)量級的改進,!
圖 10 顯示了 LTE 下行處理 (PDSCH) 的詳細結(jié)構(gòu)圖,其中使用協(xié)處理器承擔了幾乎 95% 的處理任務,。
圖 10 - TCI6618 中的 PDSCH 處理
圖 11 顯示了 LTE 上行鏈路方框圖及相關(guān)的協(xié)處理,,其中大約 90% 的處理均由硬件加速器負責。
圖 11 - TCI6618 中的 PUSCH 處理
這些圖清晰地表明,,BCP 可顯著提高 LTE 的性能,。由于所有比特率處理均被自動路由到 BCP,因而可大大簡化軟件設(shè)計并降低時延,。在這樣的數(shù)據(jù)速率(150 Mbps 的下行/ 75 Mbps 的上行)下運行,,處理時延還不足 70 微秒。
BCP 不僅可以為 LTE 實現(xiàn)上述優(yōu)勢,,而且也能為 WCDMA 分擔比特率處理任務。與針對碼片級擴頻/解擴的 RAC 與 TAC 結(jié)合使用,,可實現(xiàn) HSDPA 信道幾乎完全在硬件中處理,。圖 12 顯示了 TCI6618 中的 HS-PDSCH 信號處理鏈。
圖 12 - TCI6618 中的 HSDPA HS-PDSCH 處理
TCI6618 能夠支持如下方案:具備 6 個使用 2x2 MIMO 的 HSDPA 單元,,且每個單元的下行吞吐量為 42 Mbps,。在該例中,,有超過相當于 9 GHz 的 DSP處理任務被分配到專為 HS-PDSCH 信道設(shè)計的硬件中處理。
同樣,,對于 WCDMA 上行信道處理,,圖 13 顯示了 HSUPA E-DPDCH 處理的信號鏈與周期分布。
圖 13 - TCI6618 中的 HSUPA E-DPDCH 處理
結(jié)論
業(yè)界最佳的
TMS320TCI6618 與 TMS320TCI6616 SoC 經(jīng)過精心設(shè)計,,可支持無線數(shù)據(jù)的發(fā)展變革,,以及從以語音為中心到以數(shù)據(jù)為中心的處理的演變過度。新的比特率協(xié)處理器 (BCP) 及 KeyStone 架構(gòu)可為無線基站提供可實現(xiàn)最高性能的 SoC,。集成定點與浮點功能的 C66x 內(nèi)核能夠為市場上功能最強大的 DSP 提供系統(tǒng)所需的靈活性,。TI 借助多年來在無線基站基礎(chǔ)局端領(lǐng)域積累的廣博的專業(yè)知識和豐富的系統(tǒng)和現(xiàn)場經(jīng)驗成就了卓越的設(shè)計方法,能夠?qū)崿F(xiàn)業(yè)界最可靠,、最高級的解決方案,。在基于協(xié)處理器實現(xiàn)的加速功能和在 DSP 內(nèi)核中實現(xiàn)的靈活處理功能之間,TMS320C6618/6 架構(gòu)實現(xiàn)了完美的平衡,,不僅能夠為多樣化的基站市場實現(xiàn)所需的差異化功能,,而且還能繼續(xù)幫助備選解決方案實現(xiàn)巨大的性能改進。
如欲了解更多詳情,,敬請訪問 www.ti.com/c66multicore,。