文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.200284
中文引用格式: 高凡,,王富章,張銘,,等. 基于TF-IDF進(jìn)化集成分類器的鐵路安全故障文本分類[J].電子技術(shù)應(yīng)用,,2021,47(4):71-76,,81.
英文引用格式: Gao Fan,,Wang Fuzhang,Zhang Ming,et al. Text classification of railway safety fault based on TF-IDF evolutionary integrated classifier[J]. Application of Electronic Technique,,2021,,47(4):71-76,81.
0 引言
安全問題歷來是鐵路運(yùn)輸?shù)闹攸c(diǎn)關(guān)注問題,在鐵路安全監(jiān)控體系中,,為減少運(yùn)營過程中可能存在的安全隱患,,減少設(shè)備故障,保障系統(tǒng)穩(wěn)定運(yùn)行,,安全人員根據(jù)日常巡檢,、專項(xiàng)巡檢、重大節(jié)假日排查等計(jì)劃定期到現(xiàn)場檢查存在的安全生產(chǎn)故障隱患,,并將問題記錄為文本形式存儲,。管理人員依據(jù)這些問題記錄,分析,、總結(jié)與整改問題,。在長期形成的海量的安全問題文本文件中,采用文本分類技術(shù)將安全問題自動歸類,,輔助管理人員更好地掌握與處理安全問題,在鐵路安全領(lǐng)域的重要性日漸凸顯,。
一般來說,,文本分類過程有以下3個步驟[1]:預(yù)處理、文本表示和文本分類,。其中,,文本預(yù)處理包括分詞、去除停頓詞、去除不規(guī)則數(shù)據(jù)等,。文本表示即將提取的文本特征轉(zhuǎn)換為計(jì)算機(jī)可處理的數(shù)據(jù)類型(通常用向量表示),。文本表示方法包括詞袋模型(BOW)、詞頻-逆向文件頻率(Term Frequency-Inverse Document Frequency,,TF-IDF),,以及基于深度學(xué)習(xí)的Word2vec表示方法等[2]。在構(gòu)造分類器時使用的技術(shù)大體包括單個的基分類器,、集成分類器以及深度學(xué)習(xí)模型[3],。集成分類器主要包含Bagging和Boosting兩種,Bagging的主要算法是隨機(jī)森林,,Boosting的主要算法是梯度提升樹,。在深度學(xué)習(xí)領(lǐng)域,有基于深度信念網(wǎng)絡(luò),、卷積神經(jīng)網(wǎng)絡(luò)[4-5],、循環(huán)神經(jīng)網(wǎng)絡(luò)等完成文本分類任務(wù)[6]。
目前,,國內(nèi)學(xué)者在鐵路文本分析領(lǐng)域研究較多,。王廣采用貝葉斯網(wǎng)絡(luò)的預(yù)測模型和自適應(yīng)增強(qiáng)算法(Adaptive Boosting,AdaBoost)的預(yù)測模型實(shí)現(xiàn)天氣相關(guān)的鐵路道岔故障預(yù)測[7],;趙陽等以故障文本信息為依據(jù),,針對高鐵信號車載設(shè)備,提出貝葉斯結(jié)構(gòu)學(xué)習(xí)算法(HDBN_SL)[8],;李佳奇等將面向Agent的分布式人工智能技術(shù)引入到信號設(shè)備故障診斷系統(tǒng)中[9],;楊連報(bào)針對信號故障不平衡數(shù)據(jù),采用SVM-SMOTE算法對TF-IDF轉(zhuǎn)換后的小類別文本向量數(shù)據(jù)隨機(jī)生成,,分別采用基分類器和集成分類對數(shù)據(jù)進(jìn)行分類[10],。本文處理安全問題為事故故障發(fā)生前人員檢查時發(fā)現(xiàn)的風(fēng)險(xiǎn)、隱患內(nèi)容,,通常包括安全問題發(fā)生的時間,、地點(diǎn)、問題描述等關(guān)鍵要素[11],,所以針對每一類安全問題,,存在特定的關(guān)鍵詞,本文在文本特征抽取上采用TF-IDF表示,,針對Bagging集成分類器的基礎(chǔ)上,,采用遺傳算法優(yōu)化,提升分類準(zhǔn)確性[12],。
本文詳細(xì)內(nèi)容請下載:http://forexkbc.com/resource/share/2000003467
作者信息:
高 凡1,,王富章1,,張 銘1,趙俊華2,,李高科1
(1.中國鐵道科學(xué)研究院,,北京100081;2.北京經(jīng)緯信息技術(shù)有限公司,,北京100081)