《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 邏輯模型樹算法性能分析與改進(jìn)研究
邏輯模型樹算法性能分析與改進(jìn)研究
2014年微型機(jī)與應(yīng)用第21期
張藝梅1,,丁香乾2,,賀 英3,王麗麗4,,徐 碩4
(1.中國海洋大學(xué) 信息科學(xué)與工程學(xué)院,,山東 青島 266100; 2.中國海洋大學(xué) 信息工程中心,,山東 青島 266071,; 3.青島大學(xué) 自動化工程學(xué)院,山東 青島 266071,; 4.山東臨沂煙草有限公司,,山東 臨沂 276000)
摘要: 邏輯模型樹(LMT)算法是基于樹歸納和邏輯回歸的一種分類算法。為驗證LMT算法的優(yōu)勢,,利用3個UCI標(biāo)準(zhǔn)數(shù)據(jù)集建模,,將LMT算法與其他決策樹方法進(jìn)行對比分析。針對LMT算法在建立邏輯回歸模型時會導(dǎo)致較高的計算復(fù)雜性的問題,,研究利用赤池信息量準(zhǔn)則改進(jìn)LMT算法,,提升算法時間性能,避免模型過度擬合,。在UCI標(biāo)準(zhǔn)數(shù)據(jù)集和煙葉綜合質(zhì)量評價數(shù)據(jù)中應(yīng)用改進(jìn)的LMT算法進(jìn)行建模驗證,,結(jié)果表明,該改進(jìn)方法在模型精度和召回率方面基本優(yōu)于其他決策樹方法,時間性能比改進(jìn)前提升50%左右,,能較好地評價煙葉綜合質(zhì)量,。
Abstract:
Key words :

  摘 要邏輯模型樹(LMT)算法是基于樹歸納和邏輯回歸的一種分類算法。為驗證LMT算法的優(yōu)勢,,利用3個UCI標(biāo)準(zhǔn)數(shù)據(jù)集建模,,將LMT算法與其他決策樹方法進(jìn)行對比分析。針對LMT算法在建立邏輯回歸模型時會導(dǎo)致較高的計算復(fù)雜性的問題,,研究利用赤池信息量準(zhǔn)則改進(jìn)LMT算法,,提升算法時間性能,避免模型過度擬合,。在UCI標(biāo)準(zhǔn)數(shù)據(jù)集和煙葉綜合質(zhì)量評價數(shù)據(jù)中應(yīng)用改進(jìn)的LMT算法進(jìn)行建模驗證,,結(jié)果表明,該改進(jìn)方法在模型精度和召回率方面基本優(yōu)于其他決策樹方法,,時間性能比改進(jìn)前提升50%左右,,能較好地評價煙葉綜合質(zhì)量。

  關(guān)鍵詞: 邏輯模型樹,;UCI標(biāo)準(zhǔn)數(shù)據(jù)集,;煙葉綜合質(zhì)量評價數(shù)據(jù);赤池信息量準(zhǔn)則,;模型精度,;召回率

0 引言

  決策樹分類法是一種簡單而廣泛使用的分類技術(shù),是數(shù)據(jù)挖掘分類算法的一個重要方法,,可以用于分析數(shù)據(jù),,同樣也可以用作預(yù)測。決策樹法作為一種決策技術(shù),,已被廣泛地應(yīng)用于企業(yè)的投資決策之中,,它是隨機(jī)決策模型中最常見、最普及的一種規(guī)策模式和方法,,能有效地控制決策帶來的風(fēng)險[1],。決策樹易于理解和實(shí)現(xiàn),能同時處理數(shù)據(jù)型和常規(guī)屬性,,能夠在相對短的時間內(nèi)對大型數(shù)據(jù)源做出可行且效果良好的結(jié)果[2],。線性邏輯回歸和樹歸納是兩種常用的決策樹分類方法。但線性邏輯回歸在擬合簡單模型時會導(dǎo)致低方差和高偏差,;而樹歸納會導(dǎo)致低偏差和高方差[3],。因此,將兩種分類方法相結(jié)合,,提出邏輯模型樹方法,,不僅能分類,,而且能得到類概率估計, 能夠直接體現(xiàn)數(shù)據(jù)的特點(diǎn),并且參數(shù)少,,應(yīng)用方便,,模型準(zhǔn)確度較高。

  鑒于LMT算法的以上優(yōu)點(diǎn),,研究將其應(yīng)用在煙草企業(yè)煙葉綜合質(zhì)量評價中。目前,,在煙草企業(yè)中,,煙葉的質(zhì)量主要根據(jù)化學(xué)成分值和評吸專家的評吸來綜合判定。在判定過程中,,各位專家要經(jīng)過反復(fù)討論來判定每種煙葉的質(zhì)量層次,,以便煙草原料研究人員在配方使用前對煙葉進(jìn)行初步篩選。為減少煙葉質(zhì)量層次判定的討論時間,,本文利用改進(jìn)的LMT算法對煙葉數(shù)據(jù)進(jìn)行建模并預(yù)測煙葉的質(zhì)量層次,。在實(shí)際應(yīng)用中,提高了煙草原料研究人員的工作效率,。

  1 LMT算法基本原理

  1.1 LMT簡介

  LMT算法是由Niels Landwehr,、Mark Hall 和 Eibe Frank在2003年第十四屆關(guān)于機(jī)器學(xué)習(xí)歐洲會議上提出的[4]。邏輯模型樹是由葉子上帶有邏輯回歸函數(shù)的標(biāo)準(zhǔn)決策樹結(jié)構(gòu)構(gòu)成的,。這個方法采用LogitBoost算法在樹的節(jié)點(diǎn)上建立邏輯回歸函數(shù)[5],,并使用CART算法進(jìn)行剪枝[6]。本文利用AIC準(zhǔn)則改進(jìn)LMT算法[7],,以減少決策樹的邏輯回歸模型的計算復(fù)雜度,,從而減少訓(xùn)練時間。

  1.2 LogitBoost算法

  Logitboost算法是改進(jìn)的Boosting算法,。其基本思想是:基于現(xiàn)有樣本數(shù)據(jù)集構(gòu)建一個基礎(chǔ)的“弱分類器”,,反復(fù)調(diào)用該“弱分類器”,通過對每輪中錯判的樣本賦予更大的權(quán)重,,使其更關(guān)注那些難判的樣本,,經(jīng)過多輪循環(huán),最后采用加權(quán)的方法將各輪的“弱分類器”合成“強(qiáng)分類器”,,從而得到較高精度的預(yù)測模型[8],。

  1.3 CART算法

  CART算法選擇具有最小基尼指數(shù)值的屬性作為測試屬性, 并采用一種二分遞歸分割技術(shù),, 將當(dāng)前樣本集分為兩個子樣本集,, 使得生成的決策樹的每一個非葉節(jié)點(diǎn)都有兩個分枝。最后生成的決策樹是結(jié)構(gòu)簡潔的二叉樹,,用獨(dú)立的驗證數(shù)據(jù)集對訓(xùn)練集生長的樹進(jìn)行剪枝,,不易產(chǎn)生數(shù)據(jù)碎片,。CART剪枝算法使用獨(dú)立于訓(xùn)練樣本集的測試樣本集對子樹的分類錯誤進(jìn)行計算, 找出分類錯誤最小的子樹作為最終的分類模型[9],。

  1.4 LMT算法步驟

  LMT算法步驟描述如下:

 ?、?建立根節(jié)點(diǎn);

 ?、?建立邏輯模型樹:

 ?、?初始化

  權(quán)重Wij=1/n,i=1,…,n,j=1,…,J

  分類器Fj(x)=0;概率估計pj(x)=1/J

 ?、?利用五折交叉驗證得到最佳迭代次數(shù)M

 ?、?進(jìn)行迭代, m=1,…,M

  a.分別計算作業(yè)應(yīng)變量和權(quán)重

  1.png

  b.采用加權(quán)最小二乘法擬合弱分類器函數(shù)fmj(X) :

  2.png

  c.計算每一輪的3.png

 ?、?輸出最終的分類器4.png,,根據(jù)正負(fù)對樣品判別歸類;

 ?、?繼續(xù)分裂樣本,,并對分裂樣本的數(shù)據(jù)子集再重復(fù)步驟⑵建樹,直至停止分裂,;

 ?、?利用CART算法對其進(jìn)行修剪。

  1.5 AIC準(zhǔn)則

  本研究中使用泛化誤差的樣本內(nèi)估計赤池信息量準(zhǔn)則來替換原算法中交叉驗證選取最佳迭代次數(shù)來改進(jìn)LMT算法[10],。赤池信息量準(zhǔn)則(Akaike Information Criterion),,又稱為AIC準(zhǔn)則。赤池建議,,當(dāng)欲從一組可供選擇的模型中選擇一個最佳模型時,,可選擇AIC為最小的模型。赤池信息量準(zhǔn)則的方法是尋找可以最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型[11],。

  AIC提供了當(dāng)使用可能性損失函數(shù)時的泛化誤差估計,,其定義為:

  missing image file

  其中,d是迭代次數(shù),,lik為模型的極大似然函數(shù),,N是訓(xùn)練實(shí)例個數(shù)。隨著d的增長,,等式的第一項下降(因為LogitBoost完成擬牛頓算法,,接近最大似然函數(shù)對數(shù)),第二項總是會增加,。因此,,選最佳迭代次數(shù)是最小化AIC時的迭代次數(shù)d。

  使用AIC標(biāo)準(zhǔn)來防止模型過度擬合,,訓(xùn)練時間比原LMT算法快很多[7],。研究中默認(rèn)AIC最小迭代是50次,。

2 實(shí)驗分析

  2.1 分析環(huán)境

  研究利用Weka軟件對數(shù)據(jù)進(jìn)行建模。Weka的全名是懷卡托智能分析環(huán)境,,是一款免費(fèi)的,、非商業(yè)化的、基于JAVA環(huán)境的開源機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件,。Weka作為一個公開的數(shù)據(jù)挖掘工作平臺,,集合了大量能承擔(dān)數(shù)據(jù)挖掘任務(wù)的機(jī)器學(xué)習(xí)算法,包括對數(shù)據(jù)進(jìn)行預(yù)處理,、分類,、回歸、聚類,、關(guān)聯(lián)規(guī)則以及在新的交互式界面上的可視化[12]。

  2.2 數(shù)據(jù)描述

  UCI標(biāo)準(zhǔn)數(shù)據(jù)集:UCI數(shù)據(jù)庫是加州大學(xué)歐文分校提出的用于機(jī)器學(xué)習(xí)的數(shù)據(jù)庫,,這個數(shù)據(jù)庫目前共有187個數(shù)據(jù)集,,其數(shù)目還在不斷增加,UCI數(shù)據(jù)集是一個常用的標(biāo)準(zhǔn)測試數(shù)據(jù)集,,從中挑選iris,、segment、glass三個標(biāo)準(zhǔn)數(shù)據(jù)集進(jìn)行建模預(yù)測,。

  煙葉數(shù)據(jù):該煙葉實(shí)驗數(shù)據(jù)由全國各省不同等級的入庫煙葉組成,,包括產(chǎn)地、等級,、質(zhì)量層次,、各化學(xué)成分值和各感官評價分?jǐn)?shù)等,其中質(zhì)量層次數(shù)據(jù)是各位專家根據(jù)經(jīng)驗和評吸情況通過共同討論綜合決定的,。實(shí)驗中,,訓(xùn)練建模數(shù)據(jù)選擇全國各省數(shù)據(jù)355條,測試數(shù)據(jù)分別選擇云南省上部煙數(shù)據(jù)16條,、云南省中部煙數(shù)據(jù)28條,。

  2.3 實(shí)驗步驟

  針對UCI標(biāo)準(zhǔn)數(shù)據(jù)集,分別用LMT算法及其他決策樹對比算法建模,,對結(jié)果進(jìn)行比較分析,,然后用改進(jìn)的LMT算法對數(shù)據(jù)集進(jìn)行建模,與原LMT算法結(jié)果進(jìn)行對比分析,。

  針對煙葉數(shù)據(jù),,首先剔除含有缺失值的煙葉,然后對輸出屬性數(shù)據(jù)即質(zhì)量層次數(shù)據(jù)進(jìn)行離散化,,由于有多種描述煙葉各方面的指標(biāo),,本研究通過特征指標(biāo)選擇,,選取施木克值、總糖,、雜氣,、香氣質(zhì)、余味,、香氣量,、刺激性、濕潤程度作為建模特征指標(biāo)數(shù)據(jù),,最后利用改進(jìn)的LMT算法對其建模預(yù)測,,并分析結(jié)果。

  2.4 實(shí)驗驗證

  實(shí)驗一:不同的算法在UCI標(biāo)準(zhǔn)數(shù)據(jù)集中的結(jié)果

001.jpg

  取iris,、segment,、glass 3個不同的標(biāo)準(zhǔn)數(shù)據(jù)集,數(shù)據(jù)集的信息如表1所示,。對3個標(biāo)準(zhǔn)數(shù)據(jù)集分別用LMT,、Logistic、J48,、NBTree 4種算法進(jìn)行建模分類,,其性能結(jié)果分別如表2、表3,、表4所示,。

  從表2、表3,、表4中可以看出,,LMT算法的TP Rate、精度,、召回率均比LogitBoost,、J48、NBTree算法高,,而且LMT建模的樹規(guī)模最小,,說明LMT算法在保證建模準(zhǔn)確率的前提下,通過邏輯模型使樹更易被解釋,,但缺點(diǎn)是由于計算復(fù)雜度高導(dǎo)致耗時過長,。針對這一問題,利用AIC準(zhǔn)則對LMT算法改進(jìn),,提高時間性能,。

  實(shí)驗二: AIC準(zhǔn)則對LMT算法的影響

  針對3個UCI標(biāo)準(zhǔn)數(shù)據(jù)集,使用AIC準(zhǔn)則和不使用AIC準(zhǔn)則分別進(jìn)行建模,,其性能結(jié)果如表5所示,。

004.jpg

  從表5中可以看出,,使用AIC準(zhǔn)則后,對3個數(shù)據(jù)集進(jìn)行建模,,TP Rate,、精度、召回率,、時間性能均有不同幅度的提升,,說明使用AIC準(zhǔn)則可以對LMT算法進(jìn)行有效的改進(jìn)。

  實(shí)驗三:利用改進(jìn)的LMT算法對煙葉數(shù)據(jù)進(jìn)行建模預(yù)測

  先用NBTree算法對355條全國各省不同等級煙葉的化學(xué)成分?jǐn)?shù)據(jù)和評吸質(zhì)量分?jǐn)?shù)來建模,,模型的精度和時間性能結(jié)果并不理想,。再用改進(jìn)的LMT算法對煙葉數(shù)據(jù)建模,然后利用模型分別將16條云南省上部煙數(shù)據(jù),、28條云南省中部煙數(shù)據(jù)對各煙葉的質(zhì)量層次進(jìn)行預(yù)測,,其結(jié)果如表6所示。

005.jpg

  從表6中可以看出,,改進(jìn)的LMT算法對云南省的兩個部位的煙葉預(yù)測結(jié)果較為理想,。由于質(zhì)量層次數(shù)據(jù)是由專家討論綜合決定,存在一定的人為因素,,所以準(zhǔn)確率較標(biāo)準(zhǔn)數(shù)據(jù)集略低,但在實(shí)際應(yīng)用中,,該算法建模預(yù)測能較好地評價煙葉綜合質(zhì)量,。因為中部煙數(shù)據(jù)量多,建立的模型更加完備,,因此預(yù)測較上部煙更為準(zhǔn)確,。

3 結(jié)束語

  本文介紹了LMT算法的基本原理,針對LMT算法的時間性能問題,,利用AIC準(zhǔn)則通過改進(jìn)選取最佳迭代次數(shù)的方式,,使時間性能大幅度提升。通過對比LMT算法與其他算法對標(biāo)準(zhǔn)數(shù)據(jù)集建模的結(jié)果發(fā)現(xiàn),,LMT算法在模型精度上優(yōu)于其他算法,,模型精度高,結(jié)果易于解釋,,并且改進(jìn)的LMT算法使時間性能提升50%左右,。使用改進(jìn)的LMT算法對煙葉數(shù)據(jù)建模預(yù)測,結(jié)果表明改進(jìn)的LMT算法對模型的準(zhǔn)確率有相應(yīng)的提高,,而且能夠有效地提高時間性能,。實(shí)驗表明改進(jìn)的LMT算法較其他算法更適用于評價煙葉綜合質(zhì)量。該模型在企業(yè)實(shí)際應(yīng)用的結(jié)果表明,,可以在入庫片煙質(zhì)量評價過程中快速,、有效地依據(jù)化學(xué)成分和感官指標(biāo)判定煙葉的綜合質(zhì)量,,減少專家評吸次數(shù),并且為原料在不同檔次卷煙配方中的可用性提供信息支撐,。

參考文獻(xiàn)

  [1] 田苗苗. 數(shù)據(jù)挖掘之決策樹方法概述[J]. 長春大學(xué)學(xué)報, 2005,14(6): 48-51.

  [2] 陳誠. 基于AFS理論的模糊分類器設(shè)計[D]. 大連:大連理工大學(xué), 2009.

  [3] Perlich C, Provost F, Simonoff J S. Tree induction vs. logistic regression: a learning-curve analysis[J]. The Journal of Machine Learning Research, 2003, (4): 211-255.

  [4] Landwehr N, Hall M, Frank E. Logistic model trees[J]. Machine Learning, 2005, 59(1/2):161-205.

  [5] Friedman J, Hastie T, Tibshirani R. Special invited paper. additive logistic regression: A statistical view of boosting[J]. Annals of statistics, 2000,28(2): 337-374.

  [6] Breiman L, Friedman H, Olshen J A. Classification and Regression Trees[M]. New York:Wadsworth,1984.

  [7] Sumner M, Frank E, Hall M. Speeding up logistic model tree induction[M].Knowledge Discovery in Databases: PKDD 2005, Springer Berlin Heidelberg, 2005.

  [8] 富春楓,荀鵬程,趙楊,等. logitboost 及其在判別分析中的應(yīng)用[J]. 中國衛(wèi)生統(tǒng)計, 2006,23(2):98-100.

  [9] 季桂樹,陳沛玲,宋航. 決策樹分類算法研究綜述[J]. 科技廣場, 2007(1):9-12.

  [10] Akaike H. Information theory and an extension of the maximum likelihood principle[M].Breakthroughs in statistics, Springer New York, 1992.

  [11] De Ridder F, Pintelon R, Schoukens J, et al. Modified AIC and MDL model selection criteria for short data records[J]. Instrumentation and Measurement, IEEE Transactions on, 2005, 54(1): 144-150.

  [12] 陸遠(yuǎn)蓉. 使用數(shù)據(jù)挖掘工具Weka[J]. 電腦知識與技術(shù), 2008,1(6):988-993.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。