《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計應(yīng)用 > 文本挖掘中主客觀因素影響性的眼追蹤研究
文本挖掘中主客觀因素影響性的眼追蹤研究
2017年微型機與應(yīng)用第3期
郭楠
同濟大學(xué) 電子與信息工程學(xué)院,,上海 201800
摘要: 基于文本主題模型與眼動儀技術(shù),,從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內(nèi)容提取技術(shù),。傳統(tǒng)文本挖掘多基于文本本身內(nèi)容等客觀因素,,而主觀取向的重要因素很少在文本挖掘中發(fā)揮作用,。文章利用眼部追蹤技術(shù),,先將眼動數(shù)據(jù)轉(zhuǎn)換為閱讀興趣等主觀結(jié)果形式,,并利用LDA(Latent Dirichlet Allocation)模型對文本進(jìn)行客觀主題提取,,繼而對眼部數(shù)據(jù)與主題建模結(jié)果進(jìn)行比較,提取分析主客觀因素對文本挖掘的影響,。新聞數(shù)據(jù)集的眼部追蹤實驗與主題提取實驗顯示了主客觀因素對結(jié)果影響的具體差異性與相似性,,未來兩者結(jié)合并調(diào)控比率可作為對文本挖掘效果提升的基本方向。
Abstract:
Key words :

  郭楠

 ?。ㄍ瑵髮W(xué) 電子與信息工程學(xué)院,,上海 201800)

       摘要:基于文本主題模型與眼動儀技術(shù),從主題挖掘的客觀角度與閱讀興趣的主觀角度研究文本內(nèi)容提取技術(shù),。傳統(tǒng)文本挖掘多基于文本本身內(nèi)容等客觀因素,,而主觀取向的重要因素很少在文本挖掘中發(fā)揮作用。文章利用眼部追蹤技術(shù),,先將眼動數(shù)據(jù)轉(zhuǎn)換為閱讀興趣等主觀結(jié)果形式,,并利用LDA(Latent Dirichlet Allocation)模型對文本進(jìn)行客觀主題提取,繼而對眼部數(shù)據(jù)與主題建模結(jié)果進(jìn)行比較,,提取分析主客觀因素對文本挖掘的影響,。新聞數(shù)據(jù)集的眼部追蹤實驗與主題提取實驗顯示了主客觀因素對結(jié)果影響的具體差異性與相似性,未來兩者結(jié)合并調(diào)控比率可作為對文本挖掘效果提升的基本方向,。

  關(guān)鍵詞文本主題建模,;眼部追蹤技術(shù);文本挖掘,;主題模型

  中圖分類號:TP391文獻(xiàn)標(biāo)識碼:ADOI: 10.19358/j.issn.1674-7720.2017.03.023

  引用格式:郭楠.文本挖掘中主客觀因素影響性的眼追蹤研究[J].微型機與應(yīng)用,,2017,36(3):79-81.

0引言

  文本主題建模以LDA(Latent Dirichlet Allocation)模型[1]為代表,是近年來文本挖掘領(lǐng)域的一個熱門研究方向,。主題模型挖掘出的主題可以幫助理解文本背后隱藏的語義,,也可以作為其他文本挖掘方法的輸入,完成文本分類,、話題檢測等多方面的文本挖掘任務(wù),。然而近年來,主題建模模型的代表LDA模型的改進(jìn)與擴展研究正面臨方法上的瓶頸,,層出不窮的模型改進(jìn)算法多使用參數(shù)上調(diào)整,、建模層數(shù)優(yōu)化等基本方法[2],這些改進(jìn)對于主題模型的效率,、效果提高程度有限,;另一方面,主題挖掘研究集中于研究文本本身內(nèi)容等客觀因素,而人類主觀取向因素很少在文本挖掘方面發(fā)揮重要作用,,事實上,,閱讀興趣等主觀因素對于文本挖掘有非常重要的參考價值,對主題模型本身也有極大的意義[3],。

  因此針對文本挖掘,、主題建模領(lǐng)域的相關(guān)研究,希望解決的相關(guān)問題就是,,如何能夠在現(xiàn)有的主題建模模型基礎(chǔ)上,,不僅對于不同內(nèi)容領(lǐng)域的文本本身的客觀因素能夠統(tǒng)一進(jìn)行分析挖掘,并且同時考慮人主觀閱讀規(guī)律,、興趣取向因素的影響性,,使得文本中所抽取的信息與知識更有價值、更有意義,。

  眼動儀技術(shù)可以獲得視覺信息提取過程中的生理和行為表現(xiàn),,它與人的心理活動有著直接或間接的關(guān)系,能夠為主題提取與文本挖掘提供人主觀興趣取向信息[4],。本文通過對眼動儀捕獲的用戶文本閱讀數(shù)據(jù)的分析和對主題提取模型LDA的研究,,比較分析主觀眼動數(shù)據(jù)結(jié)果與主題模型的挖掘結(jié)果,從主觀規(guī)律和客觀模式兩方面對文本挖掘效果進(jìn)行結(jié)果分析,,對于推動未來文本挖掘領(lǐng)域建模與應(yīng)用方法的進(jìn)步,,提高文本挖掘模型效果,具有一定的參考意義和應(yīng)用價值,。

1文本主題提取算法

  1.1LDA模型

  LDA模型以一種“詞袋”假設(shè),,把每個文檔當(dāng)作組成文檔的詞匯分布的向量,,這樣,,文檔由多個主題的概率分布所代表,而主題則由單詞的概率分布所刻畫,。

  它對于每個文檔的主題生成過程如下:如圖1所示的概率模型,,矩形代表重復(fù)的過程,外部矩形代表一個文檔,,內(nèi)部矩形則代表對于每個詞語選擇主題的重復(fù)過程,,重復(fù)次數(shù)為文檔內(nèi)詞語的個數(shù)。α和β代表語料庫級的參數(shù),,每進(jìn)行一次語料庫的生成都要進(jìn)行采樣化,。θ則是文檔級參數(shù),每取一個文檔則進(jìn)行一次采樣化,,z和w則為詞語級參數(shù),,對每一個文檔的每一個詞都進(jìn)行一次采樣化。

  

001.jpg

  1.2文本主題提取過程

  每一個文件集合M在T主題上服從多項式分布,系數(shù)為θ,。如果每個主題對于組成的詞語而言都服從多項式分布,,參數(shù)記為φ。θ和φ服從Dirichlet分布,,超參分別為α與β,,每一個文檔d中的詞語,話題z是以多項分布θ為參數(shù)從文檔中進(jìn)行采樣的,,詞語w則是以多項分布φ為參數(shù)從話題z中進(jìn)行采樣,。這個生成過程重復(fù)次數(shù)為N,是文檔d中詞語的總個數(shù),,形成文件D,。

  因此,利用該模型,,有兩個參數(shù)需要從數(shù)據(jù)中推斷,,即文檔的主題分布θ和主題的詞語分布φ,推斷的方式是采用Gibbs抽樣的方式來進(jìn)行模型的參數(shù)估計,。θ與φ參數(shù)則可分別代表用戶文章中主題的分布情況,,以及能夠刻畫該主題的詞語的分布情況。

  通過LDA模型的應(yīng)用,,輸入的文檔級數(shù)據(jù)可以轉(zhuǎn)化為主題分布的形式,,主題數(shù)目由事先設(shè)定好的參數(shù)N來確定,最終以用戶感興趣的程度(主題分布中所占比率大?。┤∏癗個主題輸出,,以主題級數(shù)據(jù)刻畫文檔。而每個主題由組成的詞語的分布表示,,詞語同樣也對應(yīng)于分布中所占比率的參數(shù),。因此,可以通過LDA獲得用戶文檔中所描述的多個主題內(nèi)容,,并且抽取出描述該主題的詞語,。

2基于眼動儀的閱讀興趣提取方法

  通過眼動儀捕獲的實驗對象閱讀文本的視覺追蹤數(shù)據(jù),其結(jié)果形式體現(xiàn)在用戶閱讀文本的軌跡和看每個詞語的集中時間長度,,圖像化結(jié)果如圖2所示,,其中圓圈直徑代表對該詞語(位置)眼球集中時間長短,時間越長,,直徑越大,;直線代表眼球運動軌跡?!?/p>

002.jpg

  而眼動儀的非直觀性數(shù)據(jù)形式,,則以觀察文本時間內(nèi)每個捕獲視覺點的坐標(biāo)和對應(yīng)時間點的形式給出,。如:(x,y),t: 0908,。因此對這類數(shù)據(jù)進(jìn)行形式轉(zhuǎn)換處理,,最終轉(zhuǎn)換結(jié)果應(yīng)為詞語及對應(yīng)集中時間。

  2.1詞語區(qū)域統(tǒng)計

  眼動儀實驗使用統(tǒng)一的圖片形式,,即txt格式文本轉(zhuǎn)化為包括首行縮進(jìn),、行距等文本分布形式均相同的圖片格式。根據(jù)一致的分布形式,,統(tǒng)計每篇文章每個詞語所占區(qū)域的坐標(biāo)范圍(x0x1y0 y1),。如式(1)~(4)所示。

  Y$805OHH9C[)XB`3$3%3ON3.png

  其中,,d0,、D0為每行和每列第一個字符的初始x、y坐標(biāo)值,;wi,、Wi分別為水平與垂直方向的第i個詞的詞長和詞與詞間距長的和;K0,、Q0分別為水平和垂直方向詞與詞間距長,。

  2.2詞語集中時間計數(shù)

  根據(jù)每個詞語的坐標(biāo)區(qū)域劃分情況,對眼動數(shù)據(jù)結(jié)果文件中的坐標(biāo)與對應(yīng)時間點數(shù)據(jù)進(jìn)行統(tǒng)計,,落在某個詞語坐標(biāo)區(qū)域內(nèi)的坐標(biāo)對應(yīng)的該詞語的集中時間計數(shù)加一,。全部觀察時間范圍內(nèi)所有坐標(biāo)與時間點均可通過轉(zhuǎn)換關(guān)系,轉(zhuǎn)為詞語和詞語集中時間的結(jié)果形式,,即實驗對象閱讀文本通過眼動儀所捕獲到的集中度和興趣規(guī)律,。

  通過對每個詞語集中時間的計數(shù),可以得到實驗對象對該文本中所有觀察詞語的集中時間排序結(jié)果,。

3實驗結(jié)果

  數(shù)據(jù)集采用BBC news的20篇文章,,實驗對象為20名,每名實驗對象分別閱讀20篇新聞文章,,并通過SMI眼動儀進(jìn)行眼部數(shù)據(jù)跟蹤并捕獲,。文本主題建模算法應(yīng)用于同樣數(shù)據(jù)集中。如圖3所示為眼動數(shù)據(jù)實驗詞語的計數(shù)分布結(jié)果(橫軸代表各個詞語,,具體內(nèi)容略);圖4所示為對于每個詞語,,所有實驗對象的均值與方差變化圖,,可見方差基本穩(wěn)定在0.1左右。

  

003.jpg

  對LDA模型主題提取結(jié)果排序后與眼動數(shù)據(jù)結(jié)果排序后進(jìn)行比較分析,,每篇文章中同一詞語的計數(shù)值比較如圖5,。而圖6顯示了具體主客觀文本挖掘方法的差異性和相似性,。均值的重合度以排序前30個詞語為例,基本維持在0.6左右,。分析比較結(jié)果,,此例中,LDA模型對文本內(nèi)容的客觀性提取有0.6的比率與人主觀興趣取向一致,,而0.4比率是基于詞語頻率等內(nèi)容因素的偏向客觀性的主題內(nèi)容,。

  根據(jù)實驗數(shù)據(jù)結(jié)果可以看出,文本主題模型對于文本的提取結(jié)果與人的興趣行為取向存在一致性和差異性,,而

  

  通過調(diào)控主題提取結(jié)果所取的詞語比率,,結(jié)合眼動數(shù)據(jù)結(jié)果中興趣部分的詞語比率,二者結(jié)合可同時反映主題內(nèi)容和閱讀興趣這兩種文本挖掘因素,,對于實際文本分類,、文檔摘要等文本挖掘應(yīng)用效果會有很大提升。

4結(jié)論

  本文通過LDA模型進(jìn)行文檔的客觀性主題抽象,,利用眼動儀提取主觀興趣取向因素結(jié)果,。在News數(shù)據(jù)集上的比較分析實驗顯示了主觀因素和客觀結(jié)果對文本挖掘的具體不同影響,可以為未來主客觀因素相結(jié)合的文本挖掘算法提供一定參考與應(yīng)用價值,。

  參考文獻(xiàn)

 ?。?] BLEI D M, NG A Y,JORDAN M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003(3):993-1022.

 ?。?] DU L, BUNTINE W, JIN H. Modelling sequential text with an adaptive topic model[C]. Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 2012:535-545.

 ?。?] MICHELSON M, MACSKASSY S A. Discovering users’ topics of interest on twitter: a first look[C]. Proceedings of the Fourth Workshop on Analytics for Noisy Unstructured Text Data,2010:73-80.

  [4] DUCHOWSKI A T. Eye tracking methodology: theory and practice[M]. SpringerVerlag:2003.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。