OIL代碼自動(dòng)生成技術(shù)過(guò)程中的部分研究-AET-電子技術(shù)應(yīng)用

OIL代碼自動(dòng)生成技術(shù)過(guò)程中的部分研究

日期： 2009-06-03

作者：徐健峰，張正蘭，張　明

關(guān)鍵詞： 遞歸用戶輸入代碼自動(dòng)生成技術(shù) 語(yǔ)法分析詞法分析

??? 摘要：針對(duì)OSEK標(biāo)準(zhǔn)的應(yīng)用設(shè)計(jì)了一個(gè)從OIL代碼到C代碼的自動(dòng)生成系統(tǒng)，該系統(tǒng)允許用戶輸入OIL配置文件信息，讀取用戶的輸入轉(zhuǎn)換為標(biāo)準(zhǔn)的C程序，返回給用戶，在具體應(yīng)用的時(shí)候，文法限制嚴(yán)格。該系統(tǒng)結(jié)合代碼自動(dòng)生成的過(guò)程，提出了一些具體的解決過(guò)程，消弱了對(duì)文法輸入的限制，提高了對(duì)文法的適應(yīng)能力。
??? 關(guān)鍵詞: 代碼自動(dòng)生成；OIL；LL(K)

??? 代碼自動(dòng)生成是當(dāng)今自動(dòng)化程序設(shè)計(jì)的一個(gè)熱點(diǎn)，代碼自動(dòng)生成技術(shù)就是幫助程序員完成系統(tǒng)底層的、重復(fù)性代碼的自動(dòng)生成，減少軟件開(kāi)發(fā)中枯燥且重復(fù)的編碼工作，使得程序員將更多的時(shí)間花在系統(tǒng)架構(gòu)研究、軟件工程學(xué)習(xí)等方面，從而提高軟件系統(tǒng)健壯性、可擴(kuò)展性以及可維護(hù)性和生產(chǎn)率，縮短項(xiàng)目開(kāi)發(fā)時(shí)間，節(jié)約項(xiàng)目的開(kāi)發(fā)成本，降低項(xiàng)目開(kāi)發(fā)風(fēng)險(xiǎn)，提高軟件公司的信譽(yù)度，贏得市場(chǎng)主導(dǎo)地位，使公司獲得最大回報(bào)率。OIL配置文件是對(duì)OSEK標(biāo)準(zhǔn)的描述文件，OSEK/VDX是應(yīng)用在模塊和靜態(tài)實(shí)時(shí)操作系統(tǒng)上的標(biāo)準(zhǔn)，由主要的汽車制造商和供應(yīng)商、研究機(jī)構(gòu)以及軟件開(kāi)發(fā)商發(fā)起。在具體的開(kāi)發(fā)過(guò)程中，往往要根據(jù)OIL文件的描述來(lái)進(jìn)行具體的編碼，將代碼自動(dòng)生成技術(shù)應(yīng)用于OIL文件上，可以減少程序員的大量手工開(kāi)發(fā)，節(jié)省了大量的人力物力，具有相當(dāng)廣泛的工業(yè)應(yīng)用前景。本文設(shè)計(jì)的系統(tǒng)接受用戶輸入的OIL配置文件，然后經(jīng)過(guò)系統(tǒng)的分析生成相應(yīng)的C代碼，實(shí)現(xiàn)了從配置文件到具體程序的自動(dòng)化，節(jié)省了大量的人力物力，并且在嵌入式開(kāi)發(fā)的時(shí)候可以繼承到嵌入式開(kāi)發(fā)環(huán)境中，提供了很大的便捷性。
1 OIL代碼自動(dòng)生成系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
1.1 OIL代碼自動(dòng)生成系統(tǒng)的功能描述
??? 本文中代碼自動(dòng)生成系統(tǒng)的設(shè)計(jì)模塊如圖1所示。

??? OIL代碼自動(dòng)生成系統(tǒng)的輸入模塊主要是提供兩種方式讓用戶輸入OIL配置文件：一是用戶輸入完OIL配置文件后提供保存功能，此時(shí)將用戶輸入的配置文件保存到用戶制定的文件夾內(nèi)；二是提供選擇功能，讓用戶選擇已經(jīng)保存好的配置文件或者是使用其他工具生成的配置文件，將文件讀取進(jìn)系統(tǒng)。
??? 當(dāng)用戶確定輸入的配置文件并點(diǎn)擊生成按鈕后，此時(shí)由分析模塊對(duì)用戶輸入的配置文件進(jìn)行分析，系統(tǒng)根據(jù)系統(tǒng)規(guī)定好的產(chǎn)生式規(guī)則進(jìn)行判定，首先對(duì)配置文件進(jìn)行分詞，系統(tǒng)根據(jù)輸入好的正則表達(dá)式提供有窮自動(dòng)機(jī)的功能，對(duì)用戶的配置文件進(jìn)行詞法分析，將用戶輸入的字符串分割成符合OIL規(guī)范的字符集作為下一步語(yǔ)法分析的輸入，此時(shí)得到的文件應(yīng)該是具有標(biāo)記的字符串集合。隨后的語(yǔ)法分析模塊對(duì)詞法分析得到的結(jié)果進(jìn)行分析，根據(jù)預(yù)先設(shè)定的正則表達(dá)式來(lái)判定句子是否符合語(yǔ)法規(guī)則，采用LL(K)進(jìn)行產(chǎn)生式匹配，并且在匹配后建立相對(duì)應(yīng)的語(yǔ)法樹(shù)，為后面的C代碼生成打基礎(chǔ)。此后再進(jìn)行語(yǔ)義分析，通過(guò)對(duì)語(yǔ)法樹(shù)進(jìn)行分析，得到帶有注釋的語(yǔ)法樹(shù)，方便后面的轉(zhuǎn)換模塊進(jìn)行遍歷。
??? 轉(zhuǎn)換模塊的工作主要是收集要生成的C程序中必要的數(shù)據(jù)，例如CPU的信息、消息間的相互聯(lián)系、以及中斷和警告的信息等，通過(guò)對(duì)這些必要信息的記錄來(lái)實(shí)現(xiàn)從配置文件到C程序的數(shù)據(jù)的映射，通過(guò)對(duì)前面OIL語(yǔ)法樹(shù)的遍歷得到這些數(shù)據(jù)。
??? 結(jié)果輸出模塊是主要是進(jìn)行模板構(gòu)造，對(duì)轉(zhuǎn)換模塊中得到的需要的數(shù)據(jù)和設(shè)定的模板相結(jié)合，然后輸出，得到最后要生成的C程序。
1.2 OIL代碼自動(dòng)生成系統(tǒng)的核心工作流程
??? OIL代碼自動(dòng)生成系統(tǒng)的工作流程如圖2所示，圖2描述出了整個(gè)系統(tǒng)的核心工作流程：從用戶輸入代碼到輸入模塊，一直到輸出C代碼返回給用戶。

??? (1) 詞法掃描。詞法掃描程序?qū)υ闯绦蜻M(jìn)行掃描，從中收集到有意義的字符序列，收集到記號(hào)中。
??? (2) 語(yǔ)法分析。程序依據(jù)文法規(guī)則，從掃描程序中獲取記號(hào)形式的源代碼，完成程序結(jié)構(gòu)的語(yǔ)法分析，從而確定整個(gè)輸入串是否構(gòu)成一個(gè)語(yǔ)法上正確的程序，并輸出語(yǔ)法樹(shù)。
??? (3) 語(yǔ)義分析。審查源程序有無(wú)語(yǔ)義錯(cuò)誤，并為代碼生成收集必要的信息。
??? (4) 代碼優(yōu)化程序。對(duì)于語(yǔ)義分析形成的注釋樹(shù)進(jìn)行遍歷，取得需要的數(shù)據(jù)。
??? (5) 代碼生成部分。根據(jù)前面取得的信息將信息以符合C程序的形式組織起來(lái)形成C代碼。
2 OIL代碼自動(dòng)生成系統(tǒng)中關(guān)鍵技術(shù)的研究
??? 本系統(tǒng)采用的是自上而下的LL(K)分析方法，所以本系統(tǒng)可以接受的文法必須是一個(gè)正確的、上下文無(wú)關(guān)文法，該文法不僅能夠正確完整地反映出OIL的語(yǔ)法，并且應(yīng)該符合自頂向下分析的要求，這個(gè)就要求該系統(tǒng)能夠處理以下幾種情況：
??? (1) 如何處理出現(xiàn)二義性；
??? (2) 克服左遞歸弊端；
??? (3) 如何確定LL(K)中K的值以保證正確識(shí)別文法和效率之間的統(tǒng)一。
??? 文法的二義性是指對(duì)于同一句子有兩種不同的語(yǔ)法樹(shù)，則稱該句子是二義性的，稱產(chǎn)生該句子的文法為二義性文法。解決二義性的方法有兩種：一種是設(shè)置一種規(guī)則，該規(guī)則指出在二義性的情況下哪種語(yǔ)法樹(shù)是正確的，例如在ELSE問(wèn)題上面，規(guī)定每個(gè)ELSE和最近的沒(méi)有分配的IF匹配，這種方法的優(yōu)點(diǎn)是無(wú)需修改文法就可以克服文法的二義性，缺點(diǎn)是此時(shí)語(yǔ)言的語(yǔ)法結(jié)構(gòu)就不能由文法單獨(dú)決定了；另外一種方法就是對(duì)存在二義性的文法進(jìn)行改寫(xiě)，如果一個(gè)二義產(chǎn)生式右部有非終結(jié)符出現(xiàn)一次以上，可以利用產(chǎn)生式引入消除，如產(chǎn)生式A→a BβBγ，可以變換為A→a BβA′，A′→Bγ.如果多候選產(chǎn)生式的右部有一個(gè)是二義性的，那么每個(gè)右部都要作為這個(gè)代換部分移除,例如A→aAβAγ|a₁|a₂|…|a_n,轉(zhuǎn)換為A→aA′βAγ| A′, A′→A′|a₁|a₂|…|a_n,消去其中的無(wú)用產(chǎn)生式后得到，A→aA′βAγ| A′, A′→a₁|a₂|…|a_n。如果一個(gè)產(chǎn)生式有多個(gè)二義性產(chǎn)生式，可以用上述方法重復(fù)變換。
　　左遞歸是指當(dāng)一個(gè)上下文無(wú)關(guān)文法G=(V_N ,V_T , P, S),其中V_N、V_T、P、S分別表示非終結(jié)符集、終結(jié)符集、產(chǎn)生式和開(kāi)始字符，當(dāng)文法如下：(1)A→Aa|β，其中A∈V_N, a, b∈V^*，此時(shí)認(rèn)為這是直接左遞歸，(2)A→Ba，B→Aβ|γ，其中A∈V_N , α, β, γ∈V^*，此時(shí)稱為間接左遞歸，當(dāng)出現(xiàn)左遞歸的時(shí)候，由于本文采用的是LL(K)文法是采用從左到右的掃描方法，當(dāng)掃描到(1)中的A或者(2)中的B時(shí)，此時(shí)無(wú)法確定LL(K)掃描中的FIRST集，會(huì)導(dǎo)致掃描失敗。對(duì)于兩步以上的左遞歸(2)可以轉(zhuǎn)換為直接左遞歸形式A→Aβa |γa，然后利用下面的算法消除。此算法可以消除所有無(wú)循環(huán)推導(dǎo)和空產(chǎn)生式的文法中的左遞歸：
　　(1) 以某種順序排列非終結(jié)符A₁,A₂,...A_N。
　　(2) For i = 1 to n do begin
????? 　　　For j = 1 to i-1 do begin
??????????????????? 用產(chǎn)生式A_i→δ₁γ/δ₂γ/…/δ_kγ代替每個(gè)形如A_i→A_jγ的產(chǎn)生式，其中A_j→δ₁/δ2/…/δ_k是當(dāng)前A_j的所有產(chǎn)生式
　????? 　　End
??? 消除A_j產(chǎn)生式中的直接左遞歸
??? End
??? 在使用LL(K)算法的時(shí)候，如何確定步長(zhǎng)是一個(gè)很關(guān)鍵的問(wèn)題，如果步長(zhǎng)過(guò)大，那么每次掃描的時(shí)候向前看的單詞數(shù)過(guò)多，會(huì)引起編譯效率的下降；如果步長(zhǎng)過(guò)小，當(dāng)兩個(gè)非終結(jié)符具有相同的FIRST(K)值會(huì)導(dǎo)致識(shí)別的失敗。一般來(lái)說(shuō)，選取K值為1的時(shí)候能滿足通常的識(shí)別要求，但是在某些特定的情況下可能導(dǎo)致識(shí)別失敗，不能保證系統(tǒng)的健壯性，例如在以下的情況下使用LL(1)就不能滿足要求:
??? (1) 當(dāng)出現(xiàn)A→αβ₁|αβ₂|…|αβ_n的時(shí)候，此時(shí)如果要對(duì)產(chǎn)生式進(jìn)行展開(kāi)的話，采用LL(1)無(wú)法確定展開(kāi)后應(yīng)該采用那個(gè)產(chǎn)生式。
??? (2) 當(dāng)出現(xiàn)左遞歸的時(shí)候或者步長(zhǎng)為K的時(shí)候才能區(qū)別的產(chǎn)生式。
??? (3) 當(dāng)根據(jù)以下規(guī)則進(jìn)行詞法分析：
??? Float：（DIGIT）+’.’+(DIGIT)*+；浮點(diǎn)型
??? ARRAY: （DIGIT）+’..’+(DIGIT)+;數(shù)組
??? 當(dāng)在這種情況下，由于兩個(gè)產(chǎn)生式都無(wú)法確定前面的DIGIT的個(gè)數(shù)，只有當(dāng)掃描到“.”或者“..”的時(shí)候才能確定該使用哪個(gè)產(chǎn)生式，因此此時(shí)無(wú)法使用LL(1)進(jìn)行確定。
??? 當(dāng)出現(xiàn)(1)的情況時(shí)，此時(shí)采取提取公因子的方式對(duì)產(chǎn)生式進(jìn)行改寫(xiě)，例如(1)中的產(chǎn)生式可以改寫(xiě)為如下格式A→αA',A'→β₁|β₂|…|β_n的形式進(jìn)行轉(zhuǎn)化，此時(shí)采用LL(1)可以成功進(jìn)行掃描，如果公因子比較長(zhǎng)的話可以采取上述辦法進(jìn)行多重轉(zhuǎn)化。
??? 對(duì)于左遞歸的情況上述已經(jīng)提到過(guò)解決方法了，對(duì)于步長(zhǎng)為K才能區(qū)別的情況下，此時(shí)可以將步長(zhǎng)調(diào)整到K進(jìn)行掃描，但是使用固定K值采用LL(K)的方法進(jìn)行掃描的時(shí)候，會(huì)要求對(duì)終結(jié)符的FIRST集進(jìn)行計(jì)算，這樣對(duì)許多無(wú)需使用LL(K)的情況造成了資源的浪費(fèi)，使得掃描的效率降低。
??? 當(dāng)出現(xiàn)情況(3)的時(shí)候無(wú)論將K值定為多長(zhǎng)都有可能出現(xiàn)K值不夠大而形成掃描失敗的情況，此時(shí)應(yīng)該采取步長(zhǎng)不確定的方式來(lái)進(jìn)行掃描：當(dāng)剛剛開(kāi)始掃描的時(shí)候確定K的初始值為1，當(dāng)掃描失敗的時(shí)候，如果確定失敗的原因是由以上第三種情況導(dǎo)致的話，此時(shí)對(duì)K的值加1進(jìn)行掃描，如果失敗再次加1直到掃描成功。根據(jù)對(duì)OIL的語(yǔ)法進(jìn)行觀察，當(dāng)K值定為3的時(shí)候就能解決99%以上的掃描失敗問(wèn)題。對(duì)于少數(shù)為4的情況下可以采取提取公因子的情況進(jìn)行轉(zhuǎn)化。
??? 采用遞歸下降分析程序掃描失敗后會(huì)返回失敗的節(jié)點(diǎn)，這種返回原節(jié)點(diǎn)的方式稱為回溯，在編譯過(guò)程中這樣的現(xiàn)象被認(rèn)為是一種極大降低效率的現(xiàn)象，因此要盡力避免回溯的出現(xiàn)。為了避免回溯的出現(xiàn)，在每次選擇產(chǎn)生式的時(shí)候采取預(yù)測(cè)分析的方法，即禁止回溯，當(dāng)需要確定使用產(chǎn)生式的時(shí)候采取預(yù)測(cè)的方法，使用預(yù)測(cè)的產(chǎn)生式，如果失敗則報(bào)錯(cuò)，這樣就避免了回溯的出現(xiàn)。預(yù)測(cè)是使用預(yù)測(cè)函數(shù)來(lái)實(shí)現(xiàn)的，預(yù)測(cè)函數(shù)就是確定下一個(gè)待輸入的字符是否在當(dāng)前產(chǎn)生式A的預(yù)測(cè)函數(shù)中predict(A)中，如果在的話，就選擇產(chǎn)生式A，預(yù)測(cè)函數(shù)就是產(chǎn)生式A的向前看K個(gè)單詞，下列產(chǎn)生式A→X₁X₂X₃…X_N,如果向前看的單詞K個(gè)數(shù)為1的話,則此產(chǎn)生式的預(yù)測(cè)函數(shù)的定義為如下：

???
??? 如果兩個(gè)右部產(chǎn)生式的預(yù)測(cè)函數(shù)有非空交集的時(shí)候，還需要往前看K個(gè)字符，以上的方法一般表現(xiàn)為一個(gè)分析表，表的行表示非終結(jié)符，表的列表示終結(jié)符，表和列的交叉點(diǎn)就是當(dāng)非終結(jié)符遇到該終結(jié)符該使用哪個(gè)產(chǎn)生式去進(jìn)行擴(kuò)展。
??? 本文探討了代碼自動(dòng)生成技術(shù)的一些步驟，并提供了OIL代碼自動(dòng)生成技術(shù)的系統(tǒng)模型。文中提出了一些在OIL代碼自動(dòng)生成詞法分析和語(yǔ)法分析過(guò)程中遇到的實(shí)際問(wèn)題加以討論并提出了實(shí)際的解決辦法，為下一步語(yǔ)義注入提供了基礎(chǔ)。本系統(tǒng)的實(shí)際開(kāi)發(fā)遵循了MVC開(kāi)發(fā)方式，保證了先進(jìn)性，并且為代碼自動(dòng)生成技術(shù)提供了一些可以參考的思路。
參考文獻(xiàn)
[1]?LOUNDER K C. 編譯原理及實(shí)踐[M]. 馮博琴, 馮嵐，譯. 北京：機(jī)械工業(yè)出版社, 2000.
[2]?陳火旺, 劉春林. 程序設(shè)計(jì)語(yǔ)言編譯原理(第3 版)[M]. 北京：國(guó)防工業(yè)出版社, 2001.
[3]?呂映芝, 張素琴. 編譯原理[M]. 北京：清華大學(xué)出版社, 1998.
[4]?APPEL A W, PALSBERG? J. Modern compiler implementation in java[M]. 高等教育出版社, 2003.
[5]?APPEL A W. 現(xiàn)代編譯原理C 語(yǔ)言描述[M] . 趙克佳, 黃春, 沈志宇,譯. 北京:人民郵電出版社出版,2006.

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

OIL代碼自動(dòng)生成技術(shù)過(guò)程中的部分研究

日期： 2009-06-03

作者：徐健峰，張正蘭，張 明

相關(guān)內(nèi)容

作者：徐健峰，張正蘭，張　明