文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場景下基于深度強化學(xué)習(xí)的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,,41(6):43-49.
0 引言
目前我國交通環(huán)境日益復(fù)雜,,現(xiàn)有交通體系的服務(wù)能力難以滿足城市居民的出行期望,城市面臨日益嚴(yán)峻的交通管理挑戰(zhàn),。研究者們希望借助交通數(shù)字孿生技術(shù),,通過數(shù)據(jù)驅(qū)動,、精準(zhǔn)建模,,實現(xiàn)交通的模擬,、預(yù)測診斷和優(yōu)化[1]。然而在交通仿真模擬層次,,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實交通的多變狀況,。在人-車-路的核心體系中,天氣氣候,、交通管制,、突發(fā)事故等影響因子將時刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2]。
在當(dāng)前的交通數(shù)字孿生系統(tǒng)中,,現(xiàn)有的路徑分配方法主要分為兩類,,第一類為用于實現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,如經(jīng)典的蟻群算法,、Floyd算法,、A-Star、粒子群算法,、Dijkstra及其改進(jìn)算法等,,本質(zhì)為基于圖論中重要的最短路徑問題所提出的各種方案,也即在一個加權(quán)有向圖中,,按一定要求尋找一條權(quán)重總和最短的路徑[3],。如Xu[4]等基于二叉樹結(jié)構(gòu),通過雙向搜索方法加快搜索效率,,作為A-Star改進(jìn)算法,;Lee[5]等基于遺傳算法實現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化。在路網(wǎng)信息發(fā)生變化時,,該類算法難以做出及時反饋,。如果需要滿足動態(tài)路徑規(guī)劃的需求,則需要施加額外的更新優(yōu)化和重規(guī)劃機制,。第二類指的是通過機器學(xué)習(xí),、時空神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)等技術(shù)來實現(xiàn)路徑分配,。這一類更加強調(diào)數(shù)據(jù)的搜集,、分析和處理,通過提取海量歷史數(shù)據(jù)的價值信息,,為解決路徑規(guī)劃問題提供了一個新的思路[6],。
本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強化學(xué)習(xí)的感知型路徑分配算法,首先通過改進(jìn)版Dijkstra算法為所有車輛分配初始路徑,,路網(wǎng)中的車輛在不斷感知當(dāng)前位置,、行駛軌跡以及目標(biāo)路網(wǎng)中各路段的車流等信息后,,通過DDQN(Double DQN)將自動選擇是否重新進(jìn)行全局的路徑規(guī)劃,實現(xiàn)路徑更新,。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,,本文提出的規(guī)劃方案填補了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,,優(yōu)化了深度學(xué)習(xí)型方法的資源損耗,,同時基于強化學(xué)習(xí)模型在長期收益方面的優(yōu)越性,本文模型更加滿足路徑分配模型對當(dāng)今城市路網(wǎng)交通出行的各種需求,。
本文詳細(xì)內(nèi)容請下載:http://forexkbc.com/resource/share/2000004534
作者信息:
曹 歡
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,,安徽 合肥230026)