《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 設(shè)計應(yīng)用 > 交通場景下基于深度強化學(xué)習(xí)的感知型路徑分配算法
交通場景下基于深度強化學(xué)習(xí)的感知型路徑分配算法
信息技術(shù)與網(wǎng)絡(luò)安全 6期
曹 歡
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,,安徽 合肥230026)
摘要: 路徑分配問題是交通數(shù)字孿生系統(tǒng)的重要研究方向之一,,其重點是綜合考量行駛需求的動態(tài)變化以及路網(wǎng)信息的實時改變,實現(xiàn)高效合理的路徑規(guī)劃?,F(xiàn)階段一些經(jīng)典的分配算法如粒子群,、Dijkstra等算法及其優(yōu)化模型僅能達(dá)到全局靜態(tài)最優(yōu),忽略了現(xiàn)實交通中的復(fù)雜變化,。而逐漸推出的各種深度學(xué)習(xí)算法雖能進(jìn)行全面的時空預(yù)測,,但受限于海量歷史數(shù)據(jù)的歸納分析以及較高的運算成本,難以大規(guī)模應(yīng)用,。鑒于此,,提出了一種靜態(tài)分配算法與深度強化學(xué)習(xí)算法結(jié)合的感知型路徑分配算法,在行駛中依據(jù)實時路網(wǎng)信息和車輛當(dāng)前狀態(tài),實現(xiàn)全局路徑動態(tài)再分配及更新,,相關(guān)算法的精度和效率在仿真實驗中得到驗證,。
中圖分類號: TP181
文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.008
引用格式: 曹歡. 交通場景下基于深度強化學(xué)習(xí)的感知型路徑分配算法[J].信息技術(shù)與網(wǎng)絡(luò)安全,2022,,41(6):43-49.
Perceptual path allocation algorithm based on deep reinforcement learning in traffic scene
Cao Huan
(School of Information Science and Technology,,University of Science and Technology of China,Hefei 230026,,China)
Abstract: Path allocation problem is one of the important research directions of traffic digital twin system. Its focus is to comprehensively consider the dynamic changes of driving demand and the real-time changes of road network information, so as to realize efficient and reasonable path planning. At present, some classical allocation algorithms such as particle swarm optimization, Dijkstra and their optimization models can only achieve global static optimization, ignoring the complex changes in real traffic. Although various depth learning algorithms gradually introduced can carry out comprehensive spatio-temporal prediction, they are difficult to be applied on a large scale due to the inductive analysis of massive historical data and high operation cost. In view of this, this paper proposes a perceptual path allocation algorithm based on the combination of static allocation algorithm and deep reinforcement learning algorithm. During driving, the global path is dynamically redistributed and updated according to the real-time road network information and the current state of vehicles. The accuracy and efficiency of the proposed algorithm are verified in the simulation experiment.
Key words : path allocation,;deep reinforcement learning;road network,;traffic perception

0 引言

目前我國交通環(huán)境日益復(fù)雜,,現(xiàn)有交通體系的服務(wù)能力難以滿足城市居民的出行期望,城市面臨日益嚴(yán)峻的交通管理挑戰(zhàn),。研究者們希望借助交通數(shù)字孿生技術(shù),,通過數(shù)據(jù)驅(qū)動,、精準(zhǔn)建模,,實現(xiàn)交通的模擬,、預(yù)測診斷和優(yōu)化[1]。然而在交通仿真模擬層次,,現(xiàn)有的路徑分配模塊不能反映出現(xiàn)實交通的多變狀況,。在人-車-路的核心體系中,天氣氣候,、交通管制,、突發(fā)事故等影響因子將時刻影響駕駛員的判斷以及路網(wǎng)的狀態(tài)[2]。

在當(dāng)前的交通數(shù)字孿生系統(tǒng)中,,現(xiàn)有的路徑分配方法主要分為兩類,,第一類為用于實現(xiàn)靜態(tài)全局路徑最優(yōu)的傳統(tǒng)算法,如經(jīng)典的蟻群算法,、Floyd算法,、A-Star、粒子群算法,、Dijkstra及其改進(jìn)算法等,,本質(zhì)為基于圖論中重要的最短路徑問題所提出的各種方案,也即在一個加權(quán)有向圖中,,按一定要求尋找一條權(quán)重總和最短的路徑[3],。如Xu[4]等基于二叉樹結(jié)構(gòu),通過雙向搜索方法加快搜索效率,,作為A-Star改進(jìn)算法,;Lee[5]等基于遺傳算法實現(xiàn)蟻群算法中的參數(shù)調(diào)節(jié)優(yōu)化。在路網(wǎng)信息發(fā)生變化時,,該類算法難以做出及時反饋,。如果需要滿足動態(tài)路徑規(guī)劃的需求,則需要施加額外的更新優(yōu)化和重規(guī)劃機制,。第二類指的是通過機器學(xué)習(xí),、時空神經(jīng)網(wǎng)絡(luò)、強化學(xué)習(xí)等技術(shù)來實現(xiàn)路徑分配,。這一類更加強調(diào)數(shù)據(jù)的搜集,、分析和處理,通過提取海量歷史數(shù)據(jù)的價值信息,,為解決路徑規(guī)劃問題提供了一個新的思路[6],。

本文的中心工作是研究了一種基于傳統(tǒng)路徑算法與深度強化學(xué)習(xí)的感知型路徑分配算法,首先通過改進(jìn)版Dijkstra算法為所有車輛分配初始路徑,,路網(wǎng)中的車輛在不斷感知當(dāng)前位置,、行駛軌跡以及目標(biāo)路網(wǎng)中各路段的車流等信息后,,通過DDQN(Double DQN)將自動選擇是否重新進(jìn)行全局的路徑規(guī)劃,實現(xiàn)路徑更新,。與現(xiàn)有的經(jīng)典路徑規(guī)劃方法相比,,本文提出的規(guī)劃方案填補了傳統(tǒng)模型在路況變化下的泛化性、拓展性不足,,優(yōu)化了深度學(xué)習(xí)型方法的資源損耗,,同時基于強化學(xué)習(xí)模型在長期收益方面的優(yōu)越性,本文模型更加滿足路徑分配模型對當(dāng)今城市路網(wǎng)交通出行的各種需求,。




本文詳細(xì)內(nèi)容請下載http://forexkbc.com/resource/share/2000004534





作者信息:

曹  歡

(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,,安徽 合肥230026)




微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。