文獻(xiàn)標(biāo)識(shí)碼: A
DOI: 10.20044/j.csdg.2097-1788.2022.01.015
引用格式: 黃偉強(qiáng),,劉海,梁韜文,,等. 針對(duì)在線教育情感分析的數(shù)據(jù)擴(kuò)充研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2022,41(1):93-100.
0 引言
隨著信息技術(shù)的飛速發(fā)展,,在線教育逐漸興起,越來越多的人在在線教育課程中留下了有價(jià)值的評(píng)論,,通過對(duì)這些評(píng)論進(jìn)行情感分析可以達(dá)到多方面的目的,,如分析學(xué)生對(duì)課程的滿意度、調(diào)查老師授課水平,、挖掘課程質(zhì)量等,。
情感分析(Sentiment Analysis),又稱為情感傾向性分析[1],目的是找出文本中情感的正負(fù)性,,如正面或負(fù)面,、積極或消極,并且把這種正負(fù)性數(shù)值化,,以百分比或者正負(fù)值的方式表現(xiàn)出來,。情感分析的研究方法大致可以分為兩種:一是基于情感詞典的情感分析[2],主要通過建立情感詞典或領(lǐng)域詞典及通過文本中帶有極性的情感詞進(jìn)行計(jì)算來獲取文本的極性,,由于依賴于情感詞典,,存在覆蓋率不足等缺點(diǎn);二是基于機(jī)器學(xué)習(xí)的情感分析,,包括監(jiān)督學(xué)習(xí),、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三種方法,其中與監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)相比,,半監(jiān)督學(xué)習(xí)通過少量標(biāo)注數(shù)據(jù)和大量無標(biāo)注數(shù)據(jù)進(jìn)行識(shí)別,,既不用對(duì)所有的數(shù)據(jù)進(jìn)行標(biāo)注,也不依賴先驗(yàn)經(jīng)驗(yàn),,有較好的實(shí)用性,,從而被許多學(xué)者應(yīng)用在情感分析問題上,如陳珂等[3]利用基于分類器集成的self-training方法進(jìn)行情感分析研究,,使用少量標(biāo)注樣本和大量未標(biāo)注樣本來進(jìn)行情感分析訓(xùn)練,,準(zhǔn)確率達(dá)86%。
數(shù)據(jù)擴(kuò)充[4]是一種結(jié)合機(jī)器學(xué)習(xí)使用的方法,,在訓(xùn)練樣本不足的情況下,,可使模型訓(xùn)練更好地?cái)M合,通過與半監(jiān)督的方法相結(jié)合,,可達(dá)到標(biāo)注少量數(shù)據(jù)以擴(kuò)充至大量訓(xùn)練數(shù)據(jù)的效果,。數(shù)據(jù)擴(kuò)充方法目前已被用于圖像、交通,、醫(yī)療等領(lǐng)域[5-7],,目前主流的數(shù)據(jù)擴(kuò)充方法有圖像翻轉(zhuǎn)、隨機(jī)噪聲,、標(biāo)簽傳播等[8],。
情感分析目前已被應(yīng)用于如電影評(píng)論、書籍評(píng)論,、微博短評(píng)等多個(gè)領(lǐng)域,,但在在線教育課程評(píng)論領(lǐng)域的應(yīng)用還較缺乏,把情感分析應(yīng)用在在線教育課程評(píng)論上存在著各種挑戰(zhàn),,如評(píng)論數(shù)據(jù)的獲取,、評(píng)論數(shù)據(jù)的標(biāo)注等,。為了解決以上問題,本文借鑒半監(jiān)督學(xué)習(xí)的方法,,提出基于聚類分析的文本數(shù)據(jù)擴(kuò)充方法:對(duì)少量關(guān)鍵數(shù)據(jù)進(jìn)行標(biāo)注,,并通過聚類分析獲得大量已標(biāo)注數(shù)據(jù)。在目前主流在線教育平臺(tái)爬取的569 970條課程評(píng)論中選取1 000條關(guān)鍵數(shù)據(jù)進(jìn)行標(biāo)注并使用本文數(shù)據(jù)擴(kuò)充方法擴(kuò)充至10萬條標(biāo)注數(shù)據(jù),,分別利用SVM[9],、RandomForest[10]、AdaBoost[11],、GradientBoost[12]和CNN模型對(duì)標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,,實(shí)驗(yàn)表明,與目前主流的LabelSpreading算法相比,,本文的數(shù)據(jù)擴(kuò)充方法均有準(zhǔn)確率上的優(yōu)勢(shì),。
本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000004618
作者信息:
黃偉強(qiáng)1,劉 海2,,梁韜文2,,楊海華2
(1.華南師范大學(xué) 網(wǎng)絡(luò)中心,廣東 廣州510631,;2.華南師范大學(xué) 計(jì)算機(jī)學(xué)院,,廣東 廣州510631)