《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于C5.0決策樹算法的考試結(jié)果預(yù)測(cè)研究
基于C5.0決策樹算法的考試結(jié)果預(yù)測(cè)研究
潘峰
(國(guó)家稅務(wù)總局稅務(wù)干部進(jìn)修學(xué)院,,江蘇 揚(yáng)州 225007)
摘要: 隨著終身學(xué)習(xí)體系的逐步構(gòu)建,,基于互聯(lián)網(wǎng)的遠(yuǎn)程學(xué)習(xí)模式應(yīng)用不斷普及,各種網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)也不斷累積大量的學(xué)員學(xué)習(xí)和考試方面的數(shù)據(jù),。采用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析,,可以充分挖掘網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)存量數(shù)據(jù)的價(jià)值?;贑5.0決策樹算法,,采用軟件工具對(duì)研究數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,,可以針對(duì)如何改善學(xué)習(xí)方法,、提升學(xué)習(xí)效果、改善平臺(tái)的服務(wù)模式等提出很好的改進(jìn)建議,。
Abstract:
Key words :

  潘峰

 ?。▏?guó)家稅務(wù)總局稅務(wù)干部進(jìn)修學(xué)院,江蘇 揚(yáng)州 225007)

  摘要:隨著終身學(xué)習(xí)體系的逐步構(gòu)建,,基于互聯(lián)網(wǎng)的遠(yuǎn)程學(xué)習(xí)模式應(yīng)用不斷普及,,各種網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)也不斷累積大量的學(xué)員學(xué)習(xí)和考試方面的數(shù)據(jù)。采用數(shù)據(jù)挖掘技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行分析,,可以充分挖掘網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)存量數(shù)據(jù)的價(jià)值,。基于C5.0決策樹算法,,采用軟件工具對(duì)研究數(shù)據(jù)進(jìn)行分析,,發(fā)現(xiàn)了影響考試結(jié)果的諸多因素及其重要性,可以針對(duì)如何改善學(xué)習(xí)方法,、提升學(xué)習(xí)效果,、改善平臺(tái)的服務(wù)模式等提出很好的改進(jìn)建議。

  關(guān)鍵詞:決策樹,;考試結(jié)果,;預(yù)測(cè)

1網(wǎng)絡(luò)學(xué)習(xí)與考試

  基于Internet的網(wǎng)絡(luò)學(xué)習(xí)是目前比較流行的遠(yuǎn)程學(xué)習(xí)模式,它打破了傳統(tǒng)學(xué)習(xí)的時(shí)空環(huán)境限制,,有利于構(gòu)建終身學(xué)習(xí)體系,。網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的學(xué)習(xí)內(nèi)容以Web頁面的形式呈現(xiàn),具有費(fèi)用低廉,、資源更新快,、交互性強(qiáng)等特點(diǎn),,學(xué)員可以隨時(shí)隨地安排自己的學(xué)習(xí)時(shí)間,提高學(xué)習(xí)效率,。

  網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)除了提供在線學(xué)習(xí)功能,,往往還提供隨堂練習(xí)、課程作業(yè),、課程考試等考試功能,。對(duì)學(xué)習(xí)者學(xué)習(xí)狀況的評(píng)估將直接影響他們對(duì)網(wǎng)絡(luò)學(xué)習(xí)的態(tài)度、積極性和效果[1],?!皩W(xué)而時(shí)習(xí)之”,通過網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的考試功能進(jìn)行自我練習(xí)(考試),、參加有組織的考試可以有效促進(jìn)學(xué)員學(xué)習(xí),,提高學(xué)習(xí)效果和針對(duì)性。

2決策樹與C5.0算法

  決策樹的分析結(jié)果形似一棵倒置的樹,,所以稱為決策樹,。決策樹算法是一種逼近離散函數(shù)值的方法[2],它通過構(gòu)造決策樹來發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)涵的分類規(guī)則,。決策樹構(gòu)造的輸入是一組帶有類別標(biāo)記的例子,,構(gòu)造的結(jié)果是一棵二叉樹或多叉樹[3],由上到下依次為根節(jié)點(diǎn),、內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn),。決策樹通過對(duì)訓(xùn)練樣本的學(xué)習(xí)建立分類規(guī)則,依據(jù)此規(guī)則實(shí)現(xiàn)對(duì)新樣本的分類,,屬于有監(jiān)督的學(xué)習(xí)方法[4],。

  決策樹的類別包括分類決策樹和回歸決策樹,其中,,分類決策樹目標(biāo)變量為分類型數(shù)值,其輸出變量的眾數(shù)就是分類結(jié)果,。決策樹的分類過程是基于邏輯的,,每一個(gè)葉節(jié)點(diǎn)都對(duì)應(yīng)于一條布爾規(guī)則。樹的生長(zhǎng)過程(即建立決策樹的過程)就是把數(shù)據(jù)不斷進(jìn)行切分的過程,,每一次切分力求分成的各組之間的差異最明顯,。各種決策樹算法使用了不同的剪枝策略,它們的主要區(qū)別是對(duì)這種“差異”明顯程度的衡量方式,。

  決策樹的構(gòu)建過程是一個(gè)遞歸的過程,,所以需要確定停止條件。最直觀的方式是當(dāng)每個(gè)子節(jié)點(diǎn)只有一種類型的記錄時(shí)停止,,但往往會(huì)導(dǎo)致過度擬合(樹的節(jié)點(diǎn)太多),。另一種方法是設(shè)置當(dāng)前節(jié)點(diǎn)中的記錄數(shù)最小閾值,,將置信度最大的分類作為當(dāng)前葉節(jié)點(diǎn)的分類。

  作為一種分類決策樹模型算法,,C5.0可以生成決策樹或規(guī)則集,。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,,然后根據(jù)另一個(gè)字段再次拆分,,這一過程重復(fù)進(jìn)行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據(jù),。熵是對(duì)樣本不確定性的一種度量[5],。一個(gè)系統(tǒng)越是有序,信息熵就越低,;反之,,一個(gè)系統(tǒng)越是混亂,信息熵就越高,。

3C5.0決策樹算法在考試結(jié)果預(yù)測(cè)中的應(yīng)用

  3.1數(shù)據(jù)挖掘工具

  SPSS Clementine是SPSS公司收購取得的數(shù)據(jù)挖掘工具,。SPSS Clementine 12.0結(jié)合商業(yè)技術(shù)可以快速建立預(yù)測(cè)性模型,幫助用戶改進(jìn)決策過程,。Clementine廣泛支持Kmeans模型,、C5.0決策樹、神經(jīng)網(wǎng)絡(luò)等各種預(yù)測(cè)模型,。

  3.2數(shù)據(jù)準(zhǔn)備

  本文研究的數(shù)據(jù)對(duì)象為某網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)導(dǎo)出的2015年課程學(xué)習(xí)和課程考試情況數(shù)據(jù)(學(xué)員學(xué)習(xí)課程與考試結(jié)果),;數(shù)據(jù)格式為“課程學(xué)習(xí)與考試情況”Excel表;操作系統(tǒng)采用Windows 7 Professional 32 bit,;硬件配置:內(nèi)存為4 GB,。

  該學(xué)習(xí)平臺(tái)目前擁有注冊(cè)學(xué)員近2 000人,提供標(biāo)準(zhǔn)格式課件點(diǎn)播服務(wù),,還提供課程同步模擬考試服務(wù),。“課程學(xué)習(xí)與考試情況”表記錄了用戶學(xué)習(xí)過的課程的次數(shù),、時(shí)間,,還記錄了該課程同步模擬考試的結(jié)果,具體字段為“所屬部門”,、“用戶名”,、“姓名”、“課程名稱”,、“考核狀況”,、“學(xué)習(xí)次數(shù)”、“學(xué)習(xí)總時(shí)長(zhǎng)”,,記錄共有18 476條,。部分示例如表1所示,。

005.jpg

  3.3數(shù)據(jù)處理

001.jpg

  通過對(duì)數(shù)據(jù)格式和內(nèi)容的調(diào)整、完善,,可以使得建立的模型更簡(jiǎn)單,、準(zhǔn)確[6]。

  為了構(gòu)造新的衍生特征信息,,這里增加一個(gè)輸入字段,,使用WPS 表格10.1軟件增加“次平均學(xué)習(xí)時(shí)長(zhǎng)”列,列值為使用公式計(jì)算學(xué)習(xí)總時(shí)長(zhǎng)/學(xué)習(xí)次數(shù)的結(jié)果,。

002.jpg

  由于直接使用表格文件,,這里無需添加本地?cái)?shù)據(jù)源,在Clementine軟件中直接添加Excel“源”節(jié)點(diǎn),,命名為“學(xué)習(xí)考核情況”,,導(dǎo)入對(duì)應(yīng)的數(shù)據(jù)文件和工作表。在“過濾”中配置字段篩選,,縮小處理范圍,,清除無用字段(如“所屬部門”、“用戶名”,、“姓名”字段),,如圖1所示。預(yù)處理后的總數(shù)據(jù)記錄數(shù)不變(圖1字段過濾數(shù)據(jù)格式如表2所示),。添加“類型”節(jié)點(diǎn)設(shè)置各字段“數(shù)據(jù)類型”和“方向”,,“考核狀況”對(duì)應(yīng)“標(biāo)志”類型,“學(xué)習(xí)次數(shù)”對(duì)應(yīng)“集”類型,,“次平均學(xué)習(xí)時(shí)長(zhǎng)”對(duì)應(yīng)“范圍”類型,,如圖2所示。

006.jpg

  通過“重新分類”節(jié)點(diǎn)對(duì)學(xué)習(xí)次數(shù)進(jìn)行規(guī)范化分類,,這里根據(jù)數(shù)據(jù)密度分為“1+”,、“5+”、“10+”,、“30+”,,分別代表1≤學(xué)習(xí)次數(shù)圖2數(shù)據(jù)類型≤4、5≤學(xué)習(xí)次數(shù)≤9,、10≤學(xué)習(xí)次數(shù)≤29、學(xué)習(xí)次數(shù)≧30,,生成新字段名“學(xué)習(xí)總次數(shù)分段”,。

  3.4利用C5.0決策樹算法進(jìn)行數(shù)據(jù)挖掘

  繼續(xù)添加一個(gè)C5.0節(jié)點(diǎn),對(duì)數(shù)據(jù)進(jìn)行挖掘,,配置目標(biāo)字段“考核情況”,,輸入字段為“學(xué)習(xí)總次數(shù)分段”,、“次平均學(xué)習(xí)時(shí)長(zhǎng)”,“模型”中配置選擇使用分區(qū)數(shù)據(jù),,輸出類型為“決策樹”,,選擇“組符號(hào)”(使用分箱法檢查當(dāng)前分組變量的各類別能否合并,如果可以先合并再分枝,,此方法得到的決策樹相對(duì)精簡(jiǎn)),,修剪嚴(yán)重性(置信度)設(shè)置為75%,子分支最小記錄數(shù)為200,。

003.jpg

  Clementine從讀入數(shù)據(jù)到結(jié)果顯示的數(shù)據(jù)挖掘全過程,,是以流程圖的形式顯示在數(shù)據(jù)流程區(qū)內(nèi)的,如圖3所示,。每個(gè)節(jié)點(diǎn)規(guī)定了數(shù)據(jù)的不同操作,,箭頭表示數(shù)據(jù)流向,各種操作組合起來就形成了通向目標(biāo)的路徑,。將前面的節(jié)點(diǎn)相連接,,執(zhí)行結(jié)果“考核結(jié)果”會(huì)出現(xiàn)在軟件主界面右上角管理器“模型”中,瀏覽這個(gè)模型可以看到數(shù)據(jù)圖3Clementine數(shù)據(jù)流程區(qū)

  挖掘結(jié)果,。需要注意的是,,可以對(duì)各節(jié)點(diǎn)添加輸出節(jié)點(diǎn)“表”觀察各節(jié)點(diǎn)數(shù)據(jù)情況(可以將模型結(jié)果添加進(jìn)數(shù)據(jù)流程區(qū)并輸出)。

  針對(duì)實(shí)驗(yàn)數(shù)據(jù)執(zhí)行決策樹模型“考核結(jié)果”,,生成規(guī)則集(如圖4所示)和決策樹模型(如圖5所示),。

004.jpg

  3.5考試結(jié)果預(yù)測(cè)模型解讀

  次平均學(xué)習(xí)時(shí)長(zhǎng)≤0.17小時(shí)的學(xué)員,“未通過”考試的可能性為88.4%,;次平均學(xué)習(xí)時(shí)長(zhǎng)>0.17小時(shí)的學(xué)員,,通過考試的可能性為81.4%。次平均學(xué)習(xí)時(shí)長(zhǎng)≦0.17小時(shí)且學(xué)習(xí)次數(shù)低于5次的學(xué)員,,“未通過”考試的可能性為96%,;次平均學(xué)習(xí)時(shí)長(zhǎng)>0.17小時(shí)且學(xué)習(xí)次數(shù)超過5次的學(xué)員,通過考試的可能性為97.8%,。在決定考試是否通過的因素中,,“次平均學(xué)習(xí)時(shí)長(zhǎng)”最重要,其次是“學(xué)習(xí)次數(shù)”,。從實(shí)際經(jīng)驗(yàn)角度看,,每次學(xué)習(xí)時(shí)間較長(zhǎng)且學(xué)習(xí)次數(shù)較多的學(xué)員,通過考試的概率可能會(huì)較大,。根據(jù)該網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的課程學(xué)習(xí)和考試數(shù)據(jù),,并使用較為先進(jìn)的Clementine數(shù)據(jù)挖掘軟件構(gòu)建的C5.0決策樹模型,量化反映了網(wǎng)絡(luò)學(xué)習(xí)和考試的這一現(xiàn)象;又由于軟件建模時(shí)采用分區(qū)數(shù)據(jù),,提高了模型在不同樣本集上的穩(wěn)健性,,因此獲得的預(yù)測(cè)模式較為可信。

  各類網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)可以參考此模型更好地指導(dǎo)學(xué)員在線學(xué)習(xí),,有針對(duì)性地提出學(xué)習(xí)建議,,如提醒學(xué)員上網(wǎng)學(xué)習(xí)和學(xué)習(xí)次數(shù)等;也可以進(jìn)一步針對(duì)學(xué)員進(jìn)行聚類分析,,深度定制課件資源和服務(wù)內(nèi)容,,如開發(fā)移動(dòng)客戶端,提高用戶訪問平臺(tái)的便捷性等,。

4結(jié)論

  隨著網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)的發(fā)展和提升,,為更好地貼近用戶需求,深化學(xué)習(xí)效果,,應(yīng)當(dāng)關(guān)注業(yè)務(wù)提升需求,,充分挖掘海量的學(xué)習(xí)和考試數(shù)據(jù),研究并發(fā)現(xiàn)決定學(xué)習(xí)效果的關(guān)鍵因素,。C5.0算法在面對(duì)輸入字段較多的問題時(shí)比較穩(wěn)健,,也易于理解,同時(shí)也擅長(zhǎng)處理非數(shù)值型數(shù)據(jù),,可以在網(wǎng)絡(luò)學(xué)習(xí)平臺(tái)關(guān)鍵問題預(yù)測(cè)中發(fā)揮更大的作用,。

參考文獻(xiàn)

  [1] 岳偉.建構(gòu)主義學(xué)習(xí)理論指導(dǎo)下的自學(xué)考試網(wǎng)絡(luò)助學(xué)策略設(shè)計(jì)[J].考試研究,2015(1):915.

 ?。?] 張軍.數(shù)據(jù)挖掘中自我學(xué)習(xí)算法研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2014(11):171,173.

 ?。?] 陳承斌.基于決策樹算法分析惡意網(wǎng)絡(luò)攻擊和入侵[J].信息與電腦(理論版),2010(7):15.

  [4] 陳春茶.數(shù)據(jù)挖掘技術(shù)在移動(dòng)商務(wù)客戶價(jià)值識(shí)別中的應(yīng)用研究[D].昆明:云南大學(xué),,2012.

 ?。?] 宋海霞,嚴(yán)馨,于正濤,等.基于半監(jiān)督主動(dòng)學(xué)習(xí)的虛假評(píng)論檢測(cè)[J].昆明理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,40(5):5965.

  [6] 張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(15):99102.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。