葉 斌,余 陽,,王 會,,黃文富
(成都東軟學(xué)院 信息技術(shù)與商務(wù)管理系,,四川 成都 611844)
摘 要: 大數(shù)據(jù)作為下一個生產(chǎn)力的前沿技術(shù)在教育領(lǐng)域廣泛應(yīng)用,,將給教育產(chǎn)業(yè)產(chǎn)生積極的推動作用。分析當(dāng)前MOOC網(wǎng)絡(luò)教育發(fā)展?fàn)顩r,,及大數(shù)據(jù)在MOOC網(wǎng)絡(luò)教育中的存在方式,;研究大數(shù)據(jù)對MOOC教育產(chǎn)生的積極作用,及大數(shù)據(jù)與MOOC網(wǎng)絡(luò)教育融合過程中的收集,、存儲,、計算及應(yīng)用的技術(shù)路線;總結(jié)大數(shù)據(jù)為網(wǎng)絡(luò)教育服務(wù)所要解決的問題,。
關(guān)鍵詞: 大數(shù)據(jù),;MOOC,;網(wǎng)絡(luò)
0 引言
2008~2012年國家財政性教育經(jīng)費支出五年累計7.79萬億元,年均增長21.58%,,占國內(nèi)生產(chǎn)總值比例達(dá)到4%[1]。顯然,,這是歷史性的,,但也必須清醒認(rèn)識到,這是一個遲到12年才達(dá)到的目標(biāo),,而且是較低的水平,,與發(fā)達(dá)國家或是中等發(fā)達(dá)國家相比,還存在很大的差距,。
因此,,我國教育產(chǎn)業(yè)還有很大的發(fā)展空間。但由于傳統(tǒng)教育的一次性投資大,,投資周期長,,使得除政府投入以外,民間資本對教育產(chǎn)業(yè)的投入還不夠,。
隨著網(wǎng)絡(luò)走進(jìn)千家萬戶,,網(wǎng)絡(luò)教育相比傳統(tǒng)的全日制教育有投資小、周期短,、實施方便等優(yōu)勢,,逐步成為一種新型教育的潮流,成為傳統(tǒng)教育的有力補充,。網(wǎng)絡(luò)教育成為教育事業(yè)引入民資的有效突破口,。近年來,大型開放式網(wǎng)絡(luò)課程(Massive Open Online Courses,,MOOC)發(fā)展迅速,,給更多學(xué)生提供了系統(tǒng)學(xué)習(xí)的可能,成為網(wǎng)絡(luò)教育發(fā)展的重大機遇,。
目前,,世界上最大的課程提供商有Coursera、Udacity,、edX,。到現(xiàn)在為止,幾乎所有著名的全球頂尖大學(xué)都在Coursera上開設(shè)了自己的MOOC課程,。在國內(nèi),,清華大學(xué)也在2013年10月發(fā)布了中國大陸第一個由高校主導(dǎo)的MOOC平臺——學(xué)堂在線。這一新型學(xué)習(xí)平臺將發(fā)布清華大學(xué)原創(chuàng)課程以及其他國內(nèi)外優(yōu)質(zhì)的MOOC課程,。網(wǎng)易,、新浪,、過來人等商業(yè)機構(gòu)也和中國大學(xué)合作進(jìn)行MOOC課程的制作。MOOC蓬勃發(fā)展的同時,,一些新的技術(shù)手段,,特別是大數(shù)據(jù)技術(shù)逐漸興起并日趨成熟,更為網(wǎng)絡(luò)教育提供了一劑“強心針”,。
1 MOOC教育產(chǎn)業(yè)中的大數(shù)據(jù)
1.1 大數(shù)據(jù)作為教育領(lǐng)域的新動力
2011年6月,,美國咨詢界的翹楚麥肯錫咨詢公司發(fā)布了《大數(shù)據(jù):下一個競爭、創(chuàng)新和生產(chǎn)力的前沿領(lǐng)域》的研究報告[2],。這份長達(dá)150余頁報告的主要觀點囊括了大數(shù)據(jù)對國民經(jīng)濟(jì)各部門生產(chǎn)效率的推動,、大數(shù)據(jù)的快速增長及IT技術(shù)對產(chǎn)能的貢獻(xiàn)率等。自此,,大數(shù)據(jù)逐漸被大家所認(rèn)識,,并應(yīng)用至各個行業(yè)中。而其與網(wǎng)絡(luò)密不可分的關(guān)系,,使大數(shù)據(jù)在商業(yè)智能,、公共服務(wù)和市場營銷、教育等領(lǐng)域成為首要應(yīng)用目標(biāo),。
大數(shù)據(jù)的定義在學(xué)術(shù)界還沒有形成共識,,但也有一些大家所共同認(rèn)可的認(rèn)識。即大數(shù)據(jù)是指用現(xiàn)有技術(shù)難以在可接受的時間內(nèi)管理,、處理和分析的數(shù)據(jù)集,。廣義上,大數(shù)據(jù)包含三層內(nèi)涵:一是數(shù)據(jù)量巨大,、來源多樣和類型多樣的數(shù)據(jù)集,;二是新型的數(shù)據(jù)管理和分析技術(shù);三是運用數(shù)據(jù)分析形成新價值,。
1.2 大數(shù)據(jù)在MOOC教育中的存在方式
在整個MOOC教育過程中,,隨時都會產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)來自于學(xué)習(xí)者,、與學(xué)習(xí)者相關(guān)的家庭成員,、朋友、同學(xué),、教師以及MOOC教育提供商,,甚至學(xué)習(xí)者的社交網(wǎng)絡(luò)等數(shù)據(jù)源。這些數(shù)據(jù)只有少量被MOOC教育系統(tǒng)所記錄,,而且沒有經(jīng)過分析,、整理,導(dǎo)致數(shù)據(jù)的價值被浪費,。
這些數(shù)據(jù)可以大致分為三類:結(jié)構(gòu)化數(shù)據(jù),、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)[3],。結(jié)構(gòu)化數(shù)據(jù)主要來自于學(xué)習(xí)者的注冊信息、MOOC系統(tǒng)自動存進(jìn)數(shù)據(jù)庫的學(xué)習(xí)數(shù)據(jù)表,、調(diào)查問卷等二維表,,這些數(shù)據(jù)的數(shù)據(jù)價值密度最高,最有可能被分析利用,;半結(jié)構(gòu)化數(shù)據(jù)主要來自于電郵,、網(wǎng)頁,網(wǎng)絡(luò)日志等數(shù)據(jù),;非結(jié)構(gòu)化數(shù)據(jù)主要是與學(xué)習(xí)者相關(guān)的視頻、音頻,、傳感數(shù)據(jù)等,。半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)價值密度較低,需要借助大數(shù)據(jù)技術(shù)提取和處理,,例如FaceBook的Scribe,、Apache的Sqoop,以及適合Hadoop處理的Chukwa等,。
2 大數(shù)據(jù)背景下MOOC教育的機遇與挑戰(zhàn)
2.1 MOOC教育對傳統(tǒng)教育的沖擊
MOOC教育的產(chǎn)生對傳統(tǒng)教育的沖擊很大,,學(xué)習(xí)者,特別是高層次學(xué)習(xí)者,,不再那么依靠傳統(tǒng)意義上的教師,,甚至有些教師擔(dān)心由此失業(yè)。這種沖擊主要表現(xiàn)在:
?。?)學(xué)生-教師比例反轉(zhuǎn),。傳統(tǒng)教育中,往往是很多學(xué)生面對一個教師,,享受的教育資源相對較少,,而MOOC教育使得這種情況產(chǎn)生了反轉(zhuǎn),即一個學(xué)生可以面對很多不同教師,,得到更充足的教育資源,。
(2)工具資源多元化,。MOOC課程可以融合多種社交網(wǎng)絡(luò)工具和數(shù)字化的學(xué)習(xí)資源,,從而使學(xué)習(xí)工具更加多樣化,學(xué)習(xí)資源更加豐富,。
?。?)課程更易于使用。由于依托互聯(lián)網(wǎng)學(xué)習(xí)突破時空限制,,學(xué)習(xí)者在家即可學(xué)到國內(nèi)外著名高校課程,。
?。?)課程參與自主性。MOOC課程完全由學(xué)習(xí)者自己決定是否進(jìn)行學(xué)習(xí),,何時進(jìn)行學(xué)習(xí),,使學(xué)習(xí)者能更加靈活地安排自己的學(xué)習(xí)計劃,同時也要求學(xué)習(xí)者有較強自主學(xué)習(xí)能力,。
?。?)課程受眾面更廣。突破傳統(tǒng)教育中實體教室的限制,,能滿足大規(guī)模課程學(xué)習(xí)者學(xué)習(xí),。
2.2 當(dāng)前MOOC教育所面臨的挑戰(zhàn)
MOOC作為一種新型的教育方式與傳統(tǒng)教育相比,有其得天獨厚的優(yōu)勢,,但也有其劣勢阻礙了它的蓬勃發(fā)展,。其中,最嚴(yán)重的問題是學(xué)習(xí)者的個性化學(xué)習(xí)不足,。傳統(tǒng)教育中教師與學(xué)生面對面,,學(xué)生的一舉一動、學(xué)習(xí)情況大部分都被教師所掌控,,教師能根據(jù)實際情況對學(xué)習(xí)者的學(xué)習(xí)進(jìn)行有針對性的指導(dǎo),,學(xué)習(xí)者也能根據(jù)教師的提醒及時改進(jìn)學(xué)習(xí)策略,從而使學(xué)習(xí)更加有針對性,。而MOOC教育雖然也可以用一些網(wǎng)絡(luò)技術(shù)手段讓學(xué)習(xí)者與教師面對面,,但效果并不理想,教師并不能對學(xué)習(xí)者的實際情況及時地了解并提出解決措施,,也不能了解學(xué)習(xí)者所需要的課程內(nèi)容,。
MOOC教育很大程度上依賴于學(xué)習(xí)者的自主性,從而導(dǎo)致有時候連學(xué)習(xí)者本身都不清楚自己的學(xué)習(xí)情況,,忽略了一些重要的學(xué)習(xí)信息,,例如學(xué)習(xí)內(nèi)容之間的聯(lián)系、學(xué)習(xí)程度,、學(xué)習(xí)進(jìn)度的安排,、階段學(xué)習(xí)目標(biāo)、下一步的學(xué)習(xí)內(nèi)容等,,這些都會導(dǎo)致學(xué)習(xí)的盲目性,。
2.3 大數(shù)據(jù)給MOOC教育提供機遇
大數(shù)據(jù)使得學(xué)習(xí)更加個性化。美國教育部一份簡報中指出,,大數(shù)據(jù)在教育領(lǐng)域的應(yīng)用主要為學(xué)習(xí)分析(LA)和教育數(shù)據(jù)挖掘(EDM)[4],,而兩者在教育技術(shù)領(lǐng)域內(nèi)的應(yīng)用最終指向個性化學(xué)習(xí)和自適應(yīng)學(xué)習(xí)環(huán)境的研究和開發(fā)。以大數(shù)據(jù)為基礎(chǔ),LA和EDM能夠更好地分析學(xué)習(xí)者的需求和特點,,從而使得學(xué)習(xí)更傾向于個性化[5],。
3 大數(shù)據(jù)在MOOC網(wǎng)絡(luò)教育產(chǎn)業(yè)的應(yīng)用路線
MOOC教育產(chǎn)業(yè)要想在激烈的競爭中立于不敗之地,需要用數(shù)據(jù)驅(qū)動產(chǎn)業(yè)的發(fā)展,。大數(shù)據(jù)在一個新的領(lǐng)域中應(yīng)用,,需要經(jīng)歷從無意識,到初步了解,,再到試驗性階段,,出現(xiàn)產(chǎn)業(yè)機遇,發(fā)生產(chǎn)業(yè)變革,,最后驅(qū)動產(chǎn)業(yè)發(fā)展這樣一個長期的過程,。如下圖1所示。
大數(shù)據(jù)在應(yīng)用過程中,,需要與傳統(tǒng)的數(shù)據(jù)采集,、存儲、計算方法結(jié)合起來,,同時利用最新的大數(shù)據(jù)技術(shù)使得結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)能被充分利用,。
在數(shù)據(jù)采集階段,,可根據(jù)不同的情況采用Flume、Sqoop,、Scribe,、Chukwa等系統(tǒng)。它們各有優(yōu)勢,,例如,,F(xiàn)lume是cloudera于2009年7月開源的日志系統(tǒng),它內(nèi)置的各種組件非常齊全,,用戶幾乎不必進(jìn)行任何額外開發(fā)即可使用,。Scribe是Facebook開源的日志收集系統(tǒng),在Facebook內(nèi)部已經(jīng)得到大量的應(yīng)用,。它能夠從各種日志源上收集日志,,存儲到一個中央存儲系統(tǒng)上,以便于進(jìn)行集中統(tǒng)計分析處理,。Sqoop是Apache下用于RDBMS和HDFS互相導(dǎo)數(shù)據(jù)的工具,。作為Apache的一個開源項目文件,Sqoop的源碼可以用于從異構(gòu)的數(shù)據(jù)庫導(dǎo)入統(tǒng)一的云計算平臺,,操作非常簡單,。Chukwa簡單地說是一個數(shù)據(jù)收集系統(tǒng),它可以將各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件并保存在HDFS中供Hadoop進(jìn)行各種MapReduce操作。Chukwa本身也提供了很多內(nèi)置的功能用于數(shù)據(jù)的收集和整理,。
在存儲階段,,由于大數(shù)據(jù)時代的數(shù)據(jù)數(shù)量級發(fā)生了很大改變,由原來的GB,、TB到了PB,、ZB,甚至更大,。同時,,為了提高處理效率,處理方式由集中式處理擴(kuò)展為分布式處理,。因此,,對于不同的數(shù)據(jù),既要考慮用傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng),,如SQL Server,、ORACLE等,也不得不應(yīng)用最近的數(shù)據(jù)存儲技術(shù)和相應(yīng)的存儲處理系統(tǒng),,如Hadoop,。無論國內(nèi)還是國外的大公司對于數(shù)據(jù)都有著無窮無盡的渴望,都會想盡一切辦法收集一切數(shù)據(jù),,因為通過信息的不對稱性可以不斷變現(xiàn),,而大量的信息是可以通過數(shù)據(jù)分析得到的。數(shù)據(jù)的來源途徑非常多,,數(shù)據(jù)的格式也越來越多,,越來越復(fù)雜,隨著時間的推移數(shù)據(jù)量也越來越大,。因此在數(shù)據(jù)的存儲和基于數(shù)據(jù)之上的計算上傳統(tǒng)數(shù)據(jù)庫很快趨于瓶頸,。而Hadoop正是為了解決這樣的問題而誕生[6]。其底層的分布式文件系統(tǒng)具有高拓展性,,通過數(shù)據(jù)冗余保證數(shù)據(jù)不丟失和提高計算效率,,同時可以存儲各種格式的數(shù)據(jù)。同時其還支持多種計算框架,,既可以進(jìn)行離線計算,,也可以進(jìn)行在線實時計算。
在數(shù)據(jù)計算階段,,由于采用的存儲方式不同,,計算方法也不一樣。結(jié)構(gòu)化二維表數(shù)據(jù)較為規(guī)則,,處理比較方便,,一般對傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)可進(jìn)行實時計算,而對于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)不得不先進(jìn)行匯總分析,再進(jìn)行處理,。
最后,,在數(shù)據(jù)應(yīng)用階段,根據(jù)不同的應(yīng)用要求,,對計算和匯總分析的結(jié)果應(yīng)用到不同的子系統(tǒng)中,。在MOOC教育產(chǎn)業(yè)中,客戶個性化分析實際上就是在對學(xué)習(xí)者個性化分析的基礎(chǔ)上進(jìn)行個性化的教育,,給出個性化學(xué)習(xí)方案,。還可以通過數(shù)據(jù)計算結(jié)果進(jìn)行課程營銷分析,以及提供客戶統(tǒng)計查詢服務(wù)和學(xué)習(xí)者管理,,即客戶管理,。數(shù)據(jù)應(yīng)用的過程如圖2所示。
4 總結(jié)
大數(shù)據(jù)在MOOC網(wǎng)絡(luò)教育中時時刻刻都在產(chǎn)生,,這些數(shù)據(jù)的價值密度要遠(yuǎn)大于社交網(wǎng)的數(shù)據(jù),,因為它們較有針對性,是針對學(xué)習(xí)者的學(xué)習(xí),,所以對這部分?jǐn)?shù)據(jù)的價值挖掘非常有必要,。同時,與網(wǎng)絡(luò)學(xué)習(xí)相關(guān)的網(wǎng)絡(luò)結(jié)點數(shù)據(jù)和網(wǎng)絡(luò)交互數(shù)據(jù),,雖然價值密度較低,,但對其進(jìn)行持續(xù)的數(shù)據(jù)收集和數(shù)據(jù)計算,對學(xué)習(xí)者的個性化分析也能產(chǎn)生巨大作用,。教育領(lǐng)域是大數(shù)據(jù)應(yīng)用的首要目標(biāo),對于學(xué)習(xí)者的個性化教育,、人才結(jié)構(gòu)優(yōu)化及個人社會適應(yīng)度的提高都有很大的幫助,。
在大數(shù)據(jù)的應(yīng)用過程中,對學(xué)習(xí)者隱私信息的保護(hù)是大家所關(guān)注的重點,,但同時也是不可避免的問題,,需要教育主管部門結(jié)合法律法規(guī)制定相關(guān)的引導(dǎo)性規(guī)定,讓大數(shù)據(jù)得到合理應(yīng)用的同時避免產(chǎn)生不必要的法律糾紛,;其次,,應(yīng)鼓勵與其他大數(shù)據(jù)企業(yè)合作,得到更多高價值密度數(shù)據(jù),,為數(shù)據(jù)分析提供充分的資源,;最后,提升大數(shù)據(jù)收集,、分析與處理技術(shù),。這些措施是讓大數(shù)據(jù)在MOOC教育領(lǐng)域持續(xù)發(fā)揮作用的必要保障。
參考文獻(xiàn)
[1] 熊丙奇.中國教育欠債還沒完全補上[J].基礎(chǔ)教育論壇,2013(8):4-5.
[2] 陳響園,,張權(quán)偉.大數(shù)據(jù)背景下中國交通廣播的“?!迸c“機”——以杭州交通經(jīng)濟(jì)廣播91.8為例[J].現(xiàn)代傳播,2014(3):130.
[3] 謝華成,,陳向東.面向云存儲的非結(jié)構(gòu)化數(shù)據(jù)存取[J].計算機應(yīng)用,,2012,32(7):1924-1928,,1942.
[4] U.S.Department of Education,, Office of Educational Technology. Enhancing teaching and learning through educational data mining and learning analytics: an issue brief [EB/OL].(2013-5-20).http://www.ed.gov/edblogs/technology/files/2012/03/edm-la-brief.pdf.
[5] 祝智庭,管玨琪.“網(wǎng)絡(luò)學(xué)習(xí)空間人人通”建設(shè)框架[J].中國電化教育,,2013(10):6-12.
[6] 曹坤.為什么很多公司的大數(shù)據(jù)相關(guān)業(yè)務(wù)都基于Hadoop方案[EB/OL].(2014-06-25)[2015-02-06].http://bbs.pinggu.org/forum.php mod=viewthread&tid=3104026&page=1.