文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190478
中文引用格式: 馮楠,,張黎. 一種基于MDP理論的武器火控系統(tǒng)精度可靠性增強方法研究[J].電子技術應用,2019,,45(7):56-58,,62.
英文引用格式: Feng Nan,Zhang Li. Research on accuracy and reliability enhancement method of weapon fire-control system based on MDP theory[J]. Application of Electronic Technique,,2019,,45(7):56-58,62.
0 引言
武器火控系統(tǒng)精度由火控系統(tǒng)和導彈制導系統(tǒng)兩個方面的精度組成,,慣導系統(tǒng)可以提供火控系統(tǒng)所需接收的導航信息,,并且又是導彈制導系統(tǒng)的重要組成部分,因而慣導系統(tǒng)的可靠性對保證火控系統(tǒng)的精度起著重要的作用,。慣導系統(tǒng)的可靠性主要取決于其中慣性儀表的可靠性,,所以為了提高可靠性,最早采用的方法是提高單個元器件的可靠性,,即設計具有大的平均無故障時間(MTBF)的元器件,。這一方法要求更高的加工工藝及更好的加工材料,并且對系統(tǒng)可靠性的提高極為有限,。因此,,采用冗余技術[1-11]使系統(tǒng)滿足可靠性的要求成為行之有效的方法。這種高可靠性不是建立在嚴格要求元器件和生產(chǎn)工藝的質量上,,而是建立在“冗余”的設計上,,允許系統(tǒng)內部存在故障,通過容錯設計消除故障的影響,,使系統(tǒng)仍能給出正確的結果,。敖銀輝等人[1]對基于連續(xù)時間MDP模型的維護策略產(chǎn)出的效益進行闡述,。本文通過結合MDP(Markov Decision Process)馬爾可夫決策過程算法理論的研究成果,考慮所設計INU(Inerrtial Navigation Unit)慣性導航設備的可靠度與期望節(jié)約成本總體指標意義下,,采用霍華特(Howard)策略迭代法給出求解最優(yōu)INU冗余度的計算方法[2],。
1 可靠度指標及計算方法
在可靠性理論中,可靠度是指系統(tǒng),、元件等在規(guī)定的條件下和規(guī)定的時間內正常工作的概率[3-4],,記為R(t)或R0(t)。
文獻[3]指出,,相對于INU而言,,配置結構的最基本原則是線性不相關,即要求任意2個傳感器的測量軸不共線,,任意3個傳感器的測量軸不共面,。從而,對于INU中陀螺儀冗余配置,,只要有3個以上單自由度陀螺儀能正常工作,,INU就能準確輸出。假設N個陀螺儀是同類型,、統(tǒng)計獨立的,,而系統(tǒng)其他部件都是理想的,可得N個單自由度陀螺儀冗余INU的可靠度R(t)為,;
由于安裝平臺復雜,,實際應用中對INU需要定期檢測維修,這里假設檢測維修時間間隔為0.5年,,陀螺儀平均無故障時間(MTBF)為1萬小時,,則根據(jù)式(3)可計算得到陀螺儀單元在維修間隔時間內的可靠度為:
2 基于MDP的INU可靠度增強模型
2.1 MDP算法描述
考慮MDP中最基本的離散時間馬爾可夫決策過程(DTMDP)。DTMDP考慮的是五元組[12-13]:{S,,A(i),,pij(a),r(i,,a),,V,i,,j∈S,,a∈A(i)},各元的含義為:
(1)S稱為系統(tǒng)的狀態(tài)空間,,是系統(tǒng)所有可能的狀態(tài)所組成的非空狀態(tài)集,,它可以是有限的、可列的或任意非空集。
(2)對狀態(tài)i∈S,,A(i)是在狀態(tài)i處非空的可用的決策集。
(3)當系統(tǒng)在決策時刻點t處于狀態(tài)i,,采取決策a∈A(i)時,,則系統(tǒng)在下一決策時刻點t+1時處于狀態(tài)j的概率為pij(a),它與決策時刻t無關,。
(4)當系統(tǒng)在決策時刻點t處于狀態(tài)i,,且采取決策a∈A(i)時,系統(tǒng)于本階段獲得的報酬為r(i,,a),。
(5)V為準則函數(shù),也稱目標函數(shù),。MDP常見的決策目標函數(shù)有總報酬準則,、無限折扣準則以及無限平均準則等。
系統(tǒng)在t時刻的決策規(guī)則πi是一概率分配函數(shù),,它決定可行決策集A(i)中各個決策取為實際決策a的概率,,策略π是指一個決策規(guī)則列π={πi}。文中采用MDP中常見的Markov策略[6],。
2.2 MDP模型描述
根據(jù)INU冗余結構配置的特點,,把考慮INU即時可靠度與期望節(jié)約成本總體指標最大意義下最優(yōu)INU冗余度的整個選擇過程進行狀態(tài)分解,并表示為以下馬氏決策過程的參數(shù)形式:
(1)決策時刻與周期
前述分析中,,假設檢測維修時間間隔為0.5年,,由于此檢測維修時間間隔已包含在單個陀螺儀的可靠度R0(t)中,因此可以無量綱時間t來描述,,如取t=0,,1,2,,…,,且僅在這些時刻觀察系統(tǒng)的狀態(tài)。例如,,第一個階段所經(jīng)歷的時間為時間區(qū)間[0,,1]。
(2)狀態(tài)與決策集
INU冗余結構中,,以在某一觀察時刻INU中正常工作的陀螺儀個數(shù)為狀態(tài)變量參數(shù),。設第k階段觀察到的所有可能狀態(tài)所組成的集合為X(k),即X(k)={x1(k),,x2(k),,…,xn(k)},其中xi(k)(i=0,,1,,…,6,;k=1,,2,…,,∞)表示在第k階段初INU中處于正常工作狀態(tài)的陀螺儀個數(shù)i的期望值?,F(xiàn)有公開文獻中,INU冗余結構中單個自由度陀螺的最多冗余配置通常為5或6個[7-8],,所以這里狀態(tài)選擇最大期望值為6,,所有期望狀態(tài)均列于表1。
在第k階段初始狀態(tài)為i時,,所采取的決策記為ak(i),,Ak={ak(i)}為第k階段初始狀態(tài)為i時的決策集合。令決策集A(i)={0,,1,,2,3},,即ak(i)可選擇0,、1、2,、3,,分別表示在k時刻INU中增加0、1,、2,、3個冗余度。
狀態(tài)0的決策集為獨點集A(0)={3},,表示增加3個冗余度,,以使INU滿足系統(tǒng)準確輸出的最低要求;同理,,狀態(tài)1的可用決策集為A(1)={2},,狀態(tài)2的可用決策集為A(2)={1}。狀態(tài)3的可用決策集A(3)={0,,1,,2,3},。為保證各時刻狀態(tài)i期望值不大于7,,狀態(tài)4的可用決策集A(4)={0,1,2},,狀態(tài)5的可用決策集為A(5)={0,,1},狀態(tài)6的可用決策集為A(6)={0},。
式中,,z為單個陀螺儀的代價權值,表示增加陀螺將增加系統(tǒng)成本,;P0表示INU在檢測時間間隔內能夠使系統(tǒng)準確輸出的概率,y為P0的相應報酬權值,。表1中給出了僅考慮期望節(jié)約成本的報酬取值,。
(4)目標函數(shù)
決策目標函數(shù)定為無限階段折扣模型,且折扣因子為β=0.9,。系統(tǒng)決策優(yōu)化準則即是在滿足系統(tǒng)準確輸出要求的前提下,,使INU即時可靠度與期望節(jié)約成本總體指標期望值最大[12-13]。
3 試驗分析性能評價
策略迭代(policy iteration)算法也稱為策略空間逼近法,,它是求解折扣MDP的一個有效方法[9-11],。策略迭代法分兩步進行,即策略求值與策略改進,。策略求值就是要求出最優(yōu)INU冗余度策略的一組相對值,,策略改進就是要確定每次迭代的最優(yōu)決策。每個階段的最優(yōu)決策不斷迭代,,直到第k步與第k+1步迭代有Ak=Ak+1時計算結束,,則Ak為最優(yōu)INU冗余度策略,此時INU冗余度即為最低要求的INU冗余度,。
假設INU冗余結構中陀螺可靠度遵守二項分布,,根據(jù)式(1)、式(4)可得在各狀態(tài)下采取不同決策的狀態(tài)轉移概率,,見表1,。狀態(tài)轉移概率根據(jù)表1可以更加直接地了解決策選擇過程。
根據(jù)2.2節(jié)建立的模型,,利用策略迭代算法,,編制了最優(yōu)INU冗余度選擇算法的MATLAB程序。利用這個算法,,可對考慮INU即時可靠度與期望節(jié)約成本總體指標意義下的目標函數(shù)T(z,,P0)進行求解,計算出在不同的回報函數(shù)權值影響下,,應該確定的系統(tǒng)最優(yōu)INU冗余度,。下面通過實際驗證證明本文提出的算法的合理性。
3.1 只考慮系統(tǒng)準確輸出情況下的期望節(jié)約成本,令y=0,,z=-1
將表1中計算條件代入程序,,得到策略迭代運算結果如下:
初始策略:F1=[0 0 0 0 0 0 0]
第一次迭代結果:F2=[3 2 1 0 0 0 0]
第二次迭代結果:F3=[3 2 1 0 0 0 0]
由計算知,經(jīng)過2次迭代,,INU冗余度策略集合F2=F3,,因此F*=[3 2 1 0 0 0 0]是考慮INU期望節(jié)約成本意義下,INU長期運行下的最優(yōu)配置策略,,即INU結構中有3個陀螺儀,,恰好滿足系統(tǒng)準確輸出最低要求,驗證了算法的合理性,。
3.2 考慮INU即時可靠度與期望節(jié)約成本總體指標,,令y=100,z=-1
將計算條件代入程序,,可以得到策略迭代運算結果如下:
初始策略:F1=[0 0 0 0 0 0 0]
第一次迭代結果:F2=[3 2 1 1 0 0 0]
第二次迭代結果:F3=[3 2 1 1 0 0 0]
由計算知,,經(jīng)過2次迭代,INU冗余度策略集合F2=F3,,因此F*=[3 2 1 1 0 0 0]是考慮INU即時可靠度與期望節(jié)約成本總體指標意義下,,INU長期運行下的最優(yōu)配置策略,即INU結構中有4個陀螺儀,。
綜合上述兩種不同優(yōu)化指標,,可見提高INU可靠度要求后,算法得出INU冗余結構相對單純考慮成本指標時須增加INU冗余度,,從而算法可為INU冗余結構設計提供合理的建議,。
4 結論
本文在分析INU可靠度指標和計算方法的基礎上,構建了INU冗余度馬氏決策控制模型,,利用策略迭代算法進行驗證分析得出:基于INU即時可靠度與期望節(jié)約成本總體指標或單獨指標意義下,,運用馬氏決策控制模型得出的最優(yōu)INU冗余度是節(jié)約成本最高或可靠度與期望節(jié)約成本總體指標最高的,且能夠滿足系統(tǒng)準確輸出的要求,。驗證分析中的具體數(shù)據(jù)是通過實際情況真實獲得的,,因此用該模型計算出的結果具有較高的參考價值,能夠為SINS冗余可靠性設計提供建議,。
參考文獻
[1] 敖銀輝,,王翠芬.基于連續(xù)時間MDP模型和隨機決策的維護周期[J].電子技術應用,2016,,42(3):123-126.
[2] 馮玎,,林圣,張奧,,等.基于連續(xù)時間馬爾可夫退化過程的牽引供電設備可靠性預測方法研究[J].中國電機工程學報,,2017,,37(7):1937-1946.
[3] 吳彩華,馬建朝,,魏海濤,,等.基于Markov鏈的軟件可靠性早期評估研究[J].空軍預警學院學報,2014,,28(3):199-202.
[4] 周圍正,,李學峰.單機五陀螺捷聯(lián)慣導系統(tǒng)重構算法研究[J].航天控制,2017,,35(2):3-7.
[5] 程建華,,董金魯.一種對稱斜置式四陀螺慣導冗余配置方案[J].傳感器與微系統(tǒng),2015,,34(2):16-19,,27.
[6] 杜海東,曹軍海,,吳緯,等.基于仿真的復雜系統(tǒng)可靠性冗余分配優(yōu)化設計[J].系統(tǒng)仿真學報,,2016,,28(3):648-653.
[7] 王虎軍.冗余技術提高PLC控制系統(tǒng)可靠性的研究[J].計算機測量與控制,2015,,23(12):4016-4018.
[8] 李興偉,,白博,周軍.多模冗余可重構計算機可靠性研究[J].計算機測量與控制,,2017,,25(7):309-312,316.
[9] 張志偉.機載電子設備冗余設計與可靠性分析[J].光電技術應用,,2017,,32(3):66-69.
[10] 劉玉寶,秦貴和.面向可靠性冗余優(yōu)化的自適應差分進化算法[J].吉林大學學報,,2016,,54(1):70-76.
[11] 王躍鋼,楊家勝,,文超斌,,等.一種針對冗余配置捷聯(lián)慣導的導彈初始對準算法[J].導彈與航天運載技術,2014(1):65-69.
[12] 郁湧,,黃宇鑫,,陳浩.基于構件的可信軟件系統(tǒng)冗余機制及可靠性分析[J].計算機系統(tǒng)應用,2018,,27(1):66-71.
[13] 王杜偉,,陶軍.基于半馬爾可夫過程容錯導航系統(tǒng)可靠性分析的化簡[J].自動化與儀器儀表,,2015(1):154-156.
作者信息:
馮 楠1,張 黎2
(1.92941部隊41分隊,,遼寧 葫蘆島125000,;2.61905部隊,遼寧 沈陽110000)