文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190159
中文引用格式: 曾祥坤,,張俊輝,石拓,,等. 基于主題提取模型的交通違法行為文本數(shù)據(jù)的挖掘[J].電子技術(shù)應用,,2019,45(6):41-45.
英文引用格式: Zeng Xiangkun,Zhang Junhui,,Shi Tuo,,et al. Text data of traffic illegal acts mining based on latent dirichlet allocation model[J]. Application of Electronic Technique,2019,,45(6):41-45.
0 引言
目前全球每年有近130萬人死于交通事故,,另有2 000~5 000萬人因交通事故而導致傷殘[1],。面對嚴峻的交通安全形勢,對交通事故數(shù)據(jù)分析挖掘,,尋找隱含其中的影響因素,,對改善城市交通環(huán)境、減少交通事故的發(fā)生具有重要意義,。
歐美等發(fā)達國家早在20世紀70年代已建立了交通事故信息系統(tǒng),,其規(guī)范的數(shù)據(jù)記錄模式及配套的數(shù)據(jù)分析處理技術(shù)己達到了較為成熟的水平。我國的交通事故信息系統(tǒng)在數(shù)據(jù)的規(guī)范化及信息挖掘利用方面尚處于起步階段,,公安部交通管理局的交通事故數(shù)據(jù)庫為提高數(shù)據(jù)的分析和處理效率,,多以提供標準化編碼的數(shù)據(jù)為主。針對記錄事故發(fā)生過程的文本類數(shù)據(jù)雖然包含大量有用的信息,但由于缺乏有效的挖掘和分析手段,,得不到充分的利用,。同時,由于受交通民警語言表達差異影響,,同一類型交通事故成因描述也不盡相同,,只達到語義相同,導致對交通事故規(guī)律的研究還停留在定性分析或組成比較的層面上,,嚴重影響了交通事故統(tǒng)計分析的客觀性和科學性,。己有的研究表明,對文本數(shù)據(jù)的分析可以挖掘出更多的潛在信息,,可用來修正結(jié)構(gòu)化數(shù)據(jù)分析所得結(jié)果的客觀性,,從而達到更好地服務于事故分析的效果[2-8]。此外,,F(xiàn)RANKS B[9]的研究表明,,在數(shù)據(jù)挖掘過程中,70%~80%的時間用于數(shù)據(jù)的結(jié)構(gòu)化整理,,而用來分析數(shù)據(jù)的時間僅僅占到20%~30%,。
本文研究的目的在于更好地挖掘文本數(shù)據(jù)中的潛在信息,在提高信息識別精度的同時節(jié)省信息處理的時間,。
1 交通事故文本數(shù)據(jù)描述
文本預處理是文本挖掘的第一步,,也是文本挖掘較為重要且費時的一步。漢語文本的預處理技術(shù)主要包括中文分詞,、特征提取和特征表示,。建立一個相對完整的標準化信息描述語義集合是進行文本數(shù)據(jù)挖掘前的關(guān)鍵[2],本文依據(jù)《道路交通事故信息代碼》(GA16-2010)[10]標準中提取道路交通事故時間,、傷亡人數(shù),、事故形態(tài)、事故認定原因,、交通違法行為等7個屬性項目,,以驗證該語義集合的有效性及可行性,構(gòu)建了一套綜合描述道路交通事故基本信息的標準化語義集合,,參見表1,。
2 LDA主題模型
隨著計算機網(wǎng)絡的日益普及,文本數(shù)據(jù)呈現(xiàn)爆炸式增長,,在海量數(shù)據(jù)中對文本進行分類,,成為快速了解輿論信息的一個重要手段,并且被廣泛應用到許多領(lǐng)域,,包括:數(shù)字圖書館,、網(wǎng)頁分類,、垃圾電子郵件過濾等[1]。文本聚類(Text clustering)作為一種無監(jiān)督的機器學習方法[11],,已經(jīng)成為對文本信息進行有效的組織,、摘要和導航的重要手段。其中LDA(Latent Dirichlet Allocation)模型對主題和主題對應的特征詞加上了先驗分布,,是一種無監(jiān)督的概率主題模型,。每個主題下都分布著出現(xiàn)概率較高的詞語,這些詞都與這個主題有很強的相關(guān)性,,利用這種相關(guān)性能在一定程度上解決一詞多義,、同義詞等問題[2],可以用來識別大規(guī)模文本集或語料庫中潛藏的主題信息,,其效果優(yōu)于混合主題模型(multinomial mixture)[12-13]等其他主題劃分方法,。近兩年來,國外學者開始將LDA模型用于文獻計量領(lǐng)域主題研究并取得了較好的效果[14-18],。同時研究發(fā)現(xiàn),,LDA模型在新興領(lǐng)域潛在主題分析上更能顯現(xiàn)優(yōu)勢[15],更加適用于交通事故中所體現(xiàn)的主題分析,。因此,,本文提出了一種基于LDA主題模型的文本聚類和聚簇描述方法,運用gensim主題建模工具,,建立交通事故規(guī)律LDA分析模型,,挖掘隱藏在交通事故定責統(tǒng)計文本內(nèi)的不同主題與影響因素之間的關(guān)系。
2.1 LDA模型數(shù)據(jù)處理原理
概率主題模型:隱含狄利克雷分布(Latent Dirichlet Allocation,,LDA)由BIEI D M、NG A Y和JORDAN M I于2003年提出,,是一種主題模型,,它可以將文檔集中每篇文檔的主題以概率分布的形式給出,從而通過分析一些文檔抽取出它們的主題(分布)出來后,,便可以根據(jù)主題(分布)進行主題聚類或文本分類,。它是一種典型的詞袋模型,即一篇文檔是由一組詞構(gòu)成的,,詞與詞之間沒有先后順序的關(guān)系,。本文以國家交通事故信息采集規(guī)范為依據(jù),以北京市一般程序處理的交通事故數(shù)據(jù)作為研究對象進行文本數(shù)據(jù)分析,。在LDA模型中,,一篇文檔生成的過程為:
(1)從狄利克雷分布中取樣生成文檔m的主題分布,即為第m條交通事故記錄的關(guān)鍵詞組列表,,首先會對主題的分布做一個先驗假設(shè)(如正態(tài)分布或均勻分布),,根據(jù)假設(shè)與取樣的契合度,,最終找到一個最大似然的分布α。
(2)從主題的多項式分布θm中取樣生成文檔m第n個詞的主題zm,,n,,用于對似然的分布做驗證。
(3)從狄利克雷分布β中取樣生成主題zm,,n對應的詞語分布,,k∈[1,K],,不斷去嘗試和逼近真實的分布,。
(4)從詞語的多項式分布中采樣最終生成詞語wm,n,,m∈[1,,M],n∈[1,,N],,最終得到了更客觀的關(guān)鍵詞分列表。
綜上所述:LDA采用了變分法的原理找到一個近似真實分布的分布,,是一個生成統(tǒng)計模型,,即:生成分布->統(tǒng)計->再生成分布->再統(tǒng)計……,如圖1所示,。
2.2 應用LDA模型處理數(shù)據(jù)結(jié)果
Gensim是一款開源的第三方Python工具包,,用于從原始的非結(jié)構(gòu)化的文本中,無監(jiān)督地學習到文本隱層的主題向量表達,。它支持包括TF-IDF,、LSA、LDA和Word2vec在內(nèi)的多種主題模型算法,,支持流式訓練,,并提供了諸如相似度計算、信息檢索等一些常用任務的API接口,。因此,,可根據(jù)主題建模的思想,建立車輛交通事故影響因素主題分析模型,,根據(jù)車輛交通事故影響因素之間的關(guān)聯(lián)度,,確定交通事故因素主題,并確定各因素的重要程度,,實現(xiàn)對車輛交通事故規(guī)律的客觀公正評價,。使用jieba分詞建立開放文本的Word2vec模型,即使用爬蟲技術(shù)收集互聯(lián)網(wǎng)上公開的新聞文章文本,,以這些文本為依據(jù)建立詞向量模型,,然后刪除現(xiàn)有樣本數(shù)據(jù)中的停止詞(使用頻率較高且對文本主題分析沒有幫助的詞語),。
本文選用2012年~2018年2月期間北京市一般程序處理交通事故數(shù)據(jù)中記錄駕駛員風險駕駛違法行為(一個交通事故可包含多項駕駛員違法行為)的2萬余條文本數(shù)據(jù)為對象,經(jīng)過工具包處理后,,得到有效樣本14 299個,,使用Word2vec模型對其進行分詞,建立事故因素語料庫reason corpus,,在reason corpus中記錄了詞向量的索引編號和出現(xiàn)頻次,,如圖2所示。
使用reason corpus語料庫建立LDA 模型,,將關(guān)鍵字分布轉(zhuǎn)換為主題分布,,即可得到道路交通事故影響因素主題列表。
由于LDA模型是以概率分布的方式建立起的主題模型,,因此DA每次運行產(chǎn)生的結(jié)果都會略有不同,,在樣本量較小的情況下,這個問題尤為突出,,可以通過增大對樣本數(shù)據(jù)的迭代次數(shù),,讓模型結(jié)果盡可能地客觀。通過實驗發(fā)現(xiàn),,在目前14 299個樣本數(shù)據(jù)的條件下,,迭代次數(shù)超過100次時,迭代出的結(jié)果就不會有太大變化,,這里將迭代100次后的主題作為分析結(jié)果,,如圖3所示,圖中所表示的主題格式為“相關(guān)系數(shù)*關(guān)鍵字”,。
圖3中分析得到的主圖結(jié)果的排列順序為:具備更高LDA意義得分的結(jié)果更靠前[10],。從結(jié)果集中可以通過篩選出相關(guān)系數(shù)大于0.1的關(guān)鍵字,歸納出如下重要權(quán)重關(guān)鍵字:
(1)駕駛,、駕駛證,、機動車;
(2)變更,、車道、行駛,、機動車,;
(3)車型道、分界線,;
(4)超過,、中型、汽車,;
(5)逆向行駛,、機動車,;
(6)妨礙、駕車,、時有,、駕駛;
(7)行駛,、非機動車,、道路;
(8)20%,、未達,、10%、載貨,;
(9)機動車,、營運、駕駛,;
(10)發(fā)生,、機動車、故障,、事故,、按規(guī)定、標志,。
一共自動生成100個主題模型,,這里限于篇幅,僅截取前10個,。
2.3 模型評估
Gensim推薦使用Coherence Model用于對主題模型進行評價,,該模型評價主題一致性度測量值常用指標有4個:u_mass、c_v,、c_uci,、c_npmi,這里選用u_mass,,因其運行效率高,,測試結(jié)果如表2所示。在選擇25個主題時,,u_mass出現(xiàn)極小值,,所以聚類出的合理主題約為25個,符合評估條件,。
3 交通事故文本數(shù)據(jù)處理結(jié)果分析
提高車輛交通事故預防水平,,必須緊緊抓住影響車輛交通事故的優(yōu)先支配因素,探索行之有效的防范對策,。從上述計算結(jié)果可以看出,,北京地區(qū)的車輛交通事故影響因素主要涉及以下方面:是否取得駕駛證,、正確變更車道線、逆向行駛和超速等違規(guī)駕駛,,其中無證駕駛,、超速、逆向行駛是目前公安機關(guān)重點打擊的重要違法行為,,分析結(jié)果基本與實際相符,,具體分析如下。
(1)交通事故主要和駕駛及駕駛證有關(guān)(見第1組重要權(quán)重關(guān)鍵字),。在交通事故責任認定時主要指無駕駛證,、酒后或者醉酒、吸毒駕駛機動車車輛上道路行駛,,這類駕駛員缺少正規(guī)培訓或者思路不清晰,,發(fā)生交通事故往往伴隨超速行為,目前交通事故定責中很少精確測量事故發(fā)生時的瞬間車速,,常用較保守的利用路面摩擦力方法計算車速,。管理部門可以結(jié)合實際,監(jiān)管這類危險駕駛和駕駛證相關(guān)的信息,,在交通執(zhí)法過程中對無證駕駛的問題需重點關(guān)注,。
(2)交通事故主要和變更車道有關(guān)(見第2組、3組重要權(quán)重關(guān)鍵字),。正確變更車道線是目前造成交通事故的又一主要原因,,主要指駕駛員在道路上行駛隨意變更車道,由于北京地區(qū)交通狀況復雜,,車道標識成為制約交通安全的一個重點和難點問題,,深層次體現(xiàn)在車道標志標線不完善、不清晰導致駕駛員選擇道路時產(chǎn)生失誤,,表象是駕駛員過錯,,目前交通事故定責中應該直接體現(xiàn)出來,交通事故責任認定書也應該不斷完善,,增添道路因素責任選項,。
(3)交通事故主要與超車有關(guān)、逆向行駛,、妨礙駕駛有關(guān)(見第4組,、第5組、第6組重要權(quán)重關(guān)鍵字),。主要指不同車輛不遵守交通標線指示,借道行駛或跨越車道行駛,,導致交通事故頻發(fā),,部分深層次原因是一些公交車道時段或者標線設(shè)置不合理,,部分原因是駕駛員懷有僥幸違法心理風險駕駛。在交通執(zhí)法的過程中,,可以進一步追蹤導致駕駛員風險駕駛的更進一步原因,,進而從源頭上預防交通事故發(fā)生。交通事故受時間的影響較大,,還可以積累更多的數(shù)據(jù),,以時間維度分割后,再向下鉆取時間維度內(nèi)的事故影響因素,。
后面影響因素在這里就不再繼續(xù)歸納總結(jié),。
4 結(jié)論
交通事故統(tǒng)計數(shù)據(jù)少、事故成因復雜,,本文使用文本挖掘理論,,借助主題建模工具,建立交通事故LDA模型,,分析交通事故統(tǒng)計信息中駕駛員違法駕駛的文本數(shù)據(jù),,從而得到以下結(jié)論:
(1)通過對原有文本信息的文本處理分析,結(jié)果表明交通事故信息采集規(guī)范中規(guī)定的交通違法行為用文本信息表述,,可以進一步歸類主題,,可以對其信息的結(jié)構(gòu)進行優(yōu)化處理,為進一步的數(shù)據(jù)挖掘搭建更好的信息處理平臺,。
(2)對事故系統(tǒng)中文本信息挖掘分析,,發(fā)現(xiàn)道路設(shè)計因素和路面標志標線在交通事故中占有重要的位置,但是事故統(tǒng)計選項內(nèi)容側(cè)重于駕駛員違法統(tǒng)計,,可以對國家交通事故統(tǒng)計的信息予以補充,。
(3)構(gòu)建的一套含有駕駛員識別道路交通標志標線規(guī)則、交通事故發(fā)生時車速,、駕駛員違法心理需求的交通事故信息語義庫可作為一個橋梁連接不同的數(shù)據(jù)庫,,使交通事故數(shù)據(jù)庫的非結(jié)構(gòu)化的文本信息更加直觀和真實,從而提高信息的綜合利用價值,,為捕捉交通事故特征及研究事故發(fā)生機理創(chuàng)造有利的條件,。
(4)由于文本信息表達不統(tǒng)一、特征屬性不易清楚定義和界定,,計算機根據(jù)標準語義庫來自動識別文本信息時仍會出現(xiàn)遺漏現(xiàn)象,,因此在標準語義庫的基礎(chǔ)上構(gòu)建同義詞詞庫是增加數(shù)據(jù)庫查詢精度的重要手段。未來還可構(gòu)建使用在線版的主題提取模型,,不斷完善和豐富詞向量空間,,使得分詞會越來越準確。
參考文獻
[1] 宗強.基于數(shù)量化理論的道路交通事故預測研究[D].蘭州:蘭州交通大學,2015.
[2] STIGLIANI I,,RAVASI D.Organizing thoughts and connecting brains:Material practices and the transition from individual to group-level prospective sensemaking[J].Academy of Management Journal,,2012,55(5):1232-1259.
[3] TILCSIK A,, MARQUIS C.Punctuated generosity:how megaevents and natural disasters affect corporate philanthropy in U.S.communities[J].Administrative Science Quarterly,,2013,58(1):111-148.
[4] 傅貴.安全管理學——事故預防的行為控制方法[M].北京:科學出版社,,2013.
[5] 陳國權(quán),,趙慧群,蔣璐.團隊心理安全,、團隊學習能力與團隊績效關(guān)系的實證研究[J].科學學研究,,2008,26(6):1283-1292.
[6] 鐘開斌.從災難中學習:教訓比經(jīng)驗更寶貴[J].行政管理改革,,2013(6):35-39.
[7] 胡劍波,,鄭磊.航空維修安全監(jiān)察的安全性分層監(jiān)督控制模型與分析[J].安全與環(huán)境工程,2016,,23(6):135-142.
[8] 馬阿瑾.高速公路交通事故持續(xù)時間和影響范圍研究[D].西安:長安大學,,2013.
[9] FRANKS B.Taming the big data tidal wave:finding opportunities in huge data streams with advanced analytics[M].Hoboken,NJ:Wiley Publishing,,2012.
[10] 中華人民共和國公安部.GA 16--2010道路交通事故信息代碼[S].北京:中國標準出版社,,2010.
[11] 王鵬,高鋮,,陳曉美.基于LDA模型的文本聚類研究[J].情報科學,,2015,33(1):63-68.
[12] 苗蕊,,劉魯.科學家合作網(wǎng)絡中的社區(qū)發(fā)現(xiàn)[J].情報學報,,2011,30(12):1312-1318.
[13] MISRA H,,YVON F,,CAPP?魪 O,et al.Text segmentation:a topic modeling perspective[J].Information Processing & Management,,2011,,47(4):528-544.
[14] DING Y.Topic-based page rank on author cocitation networks[J].Journal of the American Society for Information Science and Technology,2011,,62(3):449-466.
[15] SUGIMOTO C R,,LI D,RUSSELL T G,,et al.The shifting sands of disciplinary development:Analyzing north american library and information science dissertations using latent dirichlet allocation[J].Journal of the American Society for Information Science and Technology,,2011,62(1):185-204.
[16] GRIFFITHS T L,STEYVERS M.Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of America,,2004,,101(Suppl 1):5228-5235.
[17] LI S,LI J,,PAN R.Tag-weighted topic model for mining semis tructured documents[C].Proceedings of the Twenty-Third International Joint Conference on Artificial Intelligence.AAAIPress,2013:2855-2861.
[18] ROSEN-ZVI M,,CHEMUDUGUNTA C,,GRIFFITHS T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),,2010,,28(1):4.
作者信息:
曾祥坤1,張俊輝2,,3,,石 拓1,邵可佳4
(1.北京警察學院,,北京102202,;
2.北京交通大學 綜合交通運輸大數(shù)據(jù)應用技術(shù)交通運輸行業(yè)重點實驗室,北京100044,;
3.北京市公安局公安交通管理局,,北京100037;4.馬上消費金融股份有限公司,,北京100102)