文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.2017.06.030
中文引用格式: 王帥,黃永峰,,胡萍. 面向網(wǎng)絡(luò)股評(píng)觀點(diǎn)的垂直搜索引擎設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,,2017,43(6):118-121.
英文引用格式: Wang Shuai,,Huang Yongfeng,Hu Ping. Design and implementation of a vertical search engine for web stock review[J].Application of Electronic Technique,,2017,,43(6):118-121.
0 引言
我國(guó)自上世紀(jì)九十年代建立了上海證券交易所以來(lái),,經(jīng)過(guò)了20多年的發(fā)展,中國(guó)股票A股市場(chǎng)的總市值已經(jīng)超過(guò)了日本,,位列全球第二[1],。隨著股票市場(chǎng)對(duì)國(guó)家宏觀經(jīng)濟(jì)以及投資者的影響越來(lái)越大,研究者們也在探索各種股市行情的分析方法,,希望能夠?qū)善笔袌?chǎng)的走勢(shì)進(jìn)行預(yù)測(cè),。網(wǎng)民對(duì)股市或某只股票的網(wǎng)絡(luò)評(píng)論觀點(diǎn)在很大程度上反應(yīng)了股市行情,,也影響著股市漲跌。因此,,如何快速高效地挖掘到網(wǎng)民對(duì)股市態(tài)度和觀點(diǎn),,對(duì)股市預(yù)測(cè)具有很大指導(dǎo)意義。
近年來(lái)隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,,越來(lái)越多學(xué)術(shù)界和金融從業(yè)者在研究各種股票預(yù)測(cè)方法,。例如,文獻(xiàn)[2]提出了智能神經(jīng)網(wǎng)絡(luò)(ANNs)對(duì)基于網(wǎng)絡(luò)數(shù)據(jù)的股票進(jìn)行分析預(yù)測(cè)方法,;HUANG B等提出了通過(guò)分析谷歌搜索趨勢(shì),,查找金融相關(guān)搜索術(shù)語(yǔ)能夠提前預(yù)測(cè)股票市場(chǎng)變化[3]。許多研究都已成功證明,,股民的股票操作行為決策很大程度上受到網(wǎng)絡(luò)股民觀點(diǎn)和感情因素的影響,。因此,目前有許多研究成果是通過(guò)對(duì)用網(wǎng)絡(luò)股票的情感極性分析,,來(lái)實(shí)現(xiàn)對(duì)近期的相關(guān)股票指數(shù),、價(jià)格波動(dòng)進(jìn)行預(yù)測(cè)[4]。另外,,文獻(xiàn)[5]的研究表明,,股票價(jià)格的走勢(shì)與股民的情緒波動(dòng)有著越來(lái)越密切的關(guān)系,學(xué)術(shù)界開(kāi)始研究具體的情感傾向性分析方法來(lái)預(yù)測(cè)股市行情,。2014年,,Wang Gang等人基于SeekingAlpha以及StackTwits等平臺(tái),采取建立情感字典和機(jī)器學(xué)習(xí)分類的方式,,得到了網(wǎng)絡(luò)文本中的評(píng)論情緒,,通過(guò)進(jìn)一步情感分析,給出了具體的投資策略,,最終獲得了較為滿意的收入結(jié)果[6],。另外,面向股市的垂直搜索引擎也在得到深入的研究和廣泛的應(yīng)用[7],。
綜上所述,,現(xiàn)有股市趨勢(shì)分析研究成果都存在著一定的局限性。例如分析過(guò)程中沒(méi)有融合網(wǎng)民自己的主觀意見(jiàn)和知識(shí),。另外,,現(xiàn)有的面向股評(píng)的垂直搜索引擎雖然能檢索到股評(píng)內(nèi)容信息,但不能直接給予網(wǎng)民觀點(diǎn)信息,,缺乏對(duì)股民應(yīng)有的支撐[8],。因此,融合觀點(diǎn)挖掘的股評(píng)全文搜索引擎技術(shù)是一項(xiàng)亟待研究的新方向。
本文通過(guò)重點(diǎn)研究垂直引擎的系統(tǒng)架構(gòu),、主題爬蟲和情感極性分析等相關(guān)技術(shù)來(lái)構(gòu)建一套面向網(wǎng)絡(luò)股評(píng)觀點(diǎn)的垂直搜索引擎,,重點(diǎn)解決搜索引擎的響應(yīng)速度、主題數(shù)據(jù)的采集效率和情感極性的分析精準(zhǔn)度等關(guān)鍵技術(shù)問(wèn)題,。本設(shè)計(jì)的垂直搜索引擎可以根據(jù)用戶鍵入的股評(píng)查詢關(guān)鍵詞來(lái)檢索相關(guān)網(wǎng)絡(luò)股評(píng)內(nèi)容,,同時(shí)還能給出這些股評(píng)的觀點(diǎn),即股評(píng)的情感正負(fù)極性,。
1 面向網(wǎng)絡(luò)股評(píng)觀點(diǎn)的垂直搜索引擎
1.1 垂直搜索引擎的體系結(jié)構(gòu)設(shè)計(jì)
面向網(wǎng)絡(luò)股評(píng)觀點(diǎn)的垂直搜索引擎設(shè)計(jì)目標(biāo)是實(shí)現(xiàn)網(wǎng)絡(luò)股市新聞,、股市論壇等網(wǎng)絡(luò)股評(píng)文本信息的全文搜索,同時(shí)還能通過(guò)分析檢索到文本的情感極性來(lái)進(jìn)一步挖掘網(wǎng)民對(duì)股市或某只股票的觀點(diǎn)與態(tài)度,。因此,,面向網(wǎng)絡(luò)股評(píng)觀點(diǎn)的垂直搜索引擎的主要功能應(yīng)該包括如下幾個(gè)方面:(1)對(duì)特定的金融論壇網(wǎng)站數(shù)據(jù)采集、清洗解析,、結(jié)構(gòu)化的信息抽?。?2)情感正負(fù)觀點(diǎn)極性分類與觀點(diǎn)呈現(xiàn),;(3)對(duì)分類后數(shù)據(jù)生成倒排序文件及保存管理,;(4)支撐用戶對(duì)股評(píng)的全文檢索以及相關(guān)屬性統(tǒng)計(jì)查詢等。
因此,,根據(jù)上述目標(biāo)和功能的設(shè)計(jì),,本文提出了一種基于Hadoop平臺(tái)的面向網(wǎng)絡(luò)股評(píng)觀點(diǎn)的垂直搜索引擎體系結(jié)構(gòu),如圖1所示,。
從圖1可以看出,本文設(shè)計(jì)的垂直搜引擎與現(xiàn)有的全文搜索引擎(例如Google和百度等)相比較,,具有如下特點(diǎn):
(1)針對(duì)指定金融網(wǎng)站進(jìn)行精準(zhǔn)的主題數(shù)據(jù)采集與解析,,并抽取一些結(jié)構(gòu)化信息,為某些屬性的統(tǒng)計(jì)分析提供支撐,。
(2)能對(duì)采集網(wǎng)絡(luò)文本(例如股票評(píng)論,、微博等)進(jìn)行正負(fù)情感極性的計(jì)算與分析,從而實(shí)現(xiàn)網(wǎng)民的觀點(diǎn)挖掘,,同時(shí)支撐正負(fù)觀點(diǎn)等屬性的統(tǒng)計(jì)分析,。
(3)融合情感極性分類和關(guān)鍵詞索引等功能,綜合生成檢索倒排序文件,。存儲(chǔ)在Hadoop大數(shù)據(jù)平臺(tái)的HDFS和HBase中,。
(4)搜索引擎能提供基于關(guān)鍵詞、情感極性和屬性統(tǒng)計(jì)等多種檢索條件及其組合表達(dá)式的查詢,。
另外,,本文構(gòu)建的垂直搜索引擎是基于開(kāi)源Apache 的Lucene代碼改進(jìn)來(lái)實(shí)現(xiàn)。在Lucene開(kāi)源的基礎(chǔ)上,增加的核心模塊有情感極性分類,、面向特定網(wǎng)站的主題數(shù)據(jù)采集和屬性統(tǒng)計(jì)等,,并對(duì)倒排序生成和文件檢索、查詢及呈現(xiàn)等模塊進(jìn)行功能擴(kuò)展和性能優(yōu)化,。下面重點(diǎn)分析面向股評(píng)主題的定點(diǎn)收割爬蟲和多粒度模糊計(jì)算情感極性分析模塊的設(shè)計(jì)方法,。
1.2 面向股評(píng)的主題數(shù)據(jù)定點(diǎn)收割爬蟲的設(shè)計(jì)
目前,對(duì)網(wǎng)絡(luò)開(kāi)源的數(shù)據(jù)采集都是采用通用爬蟲技術(shù),,但在一些特定領(lǐng)域,,只需要采集專門主題數(shù)據(jù),此時(shí)通用爬蟲技術(shù)就不再適應(yīng)了,。因?yàn)樵赪eb數(shù)據(jù)呈爆炸性增長(zhǎng)情況下,,通用爬蟲通常會(huì)采集到大量的不相關(guān)信息,從而極大地浪費(fèi)硬件和網(wǎng)絡(luò)資源,。
為此,,在現(xiàn)有主題爬蟲技術(shù)的基礎(chǔ)上,提出了一種面向指定網(wǎng)站的定點(diǎn)收割爬蟲技術(shù),。該技術(shù)采用了目錄搜索技術(shù)和主題爬蟲技術(shù)相結(jié)合思想,。通過(guò)用戶來(lái)定制一些指定網(wǎng)站或網(wǎng)站中某些頻道的目錄信息,再根據(jù)網(wǎng)站信息更新的頻率,,設(shè)定定時(shí)器,、周期性爬蟲這些網(wǎng)站或頻道中的數(shù)據(jù),并進(jìn)行解析和主題分析,,為下一層爬取奠定基礎(chǔ),。本文設(shè)計(jì)的面向股評(píng)網(wǎng)站的定時(shí)收割爬蟲器的組成結(jié)構(gòu)如圖2所示。在該結(jié)構(gòu)中,,用戶可以對(duì)需要的文本主題進(jìn)行定義,,主題描述主要是采用關(guān)鍵詞和LDA模型。用戶還可以對(duì)需要爬取的網(wǎng)站或網(wǎng)站頻道進(jìn)行目錄定制,。定時(shí)收割器能是根據(jù)這些網(wǎng)站的信息更新頻率來(lái)設(shè)置爬取的時(shí)間,。超文本分類器是根據(jù)目錄列表和主題描述來(lái)進(jìn)行文本分類和內(nèi)容過(guò)濾,獲得用戶需要的文本數(shù)據(jù),。
定點(diǎn)收割爬蟲器的工作過(guò)程的算法設(shè)計(jì)如圖3所示,。其中,最核心的問(wèn)題是如何選擇爬蟲收割網(wǎng)頁(yè)的URL列表,。在分析URL時(shí),,需要結(jié)合主題相似性比較方法來(lái)確定哪些網(wǎng)頁(yè)是與主題相關(guān)的,并進(jìn)行相似性程度的排序,,以此來(lái)支撐URL優(yōu)先級(jí)列表構(gòu)建,。
1.3 面向股評(píng)觀點(diǎn)挖掘的情感極性分類器
網(wǎng)絡(luò)評(píng)論的觀點(diǎn)挖掘主要是采用網(wǎng)絡(luò)文本情感極性的分類方法來(lái)實(shí)現(xiàn),目前網(wǎng)絡(luò)評(píng)論情感極性分類方法主要存在如下問(wèn)題:(1)在計(jì)算評(píng)論的情感極性時(shí),,都只引入了情感詞或短語(yǔ)的情感極性信息,忽略了句子結(jié)構(gòu)和句間關(guān)系信息,。事實(shí)上,,句子結(jié)構(gòu)和句間關(guān)系信息對(duì)情感極性分類具有較大影響;(2)當(dāng)前的情感極性分類建模主要是采用確定性數(shù)值模型,,忽略了情感詞語(yǔ)義的模糊性,。
針對(duì)上述存在的2個(gè)方面問(wèn)題,本文提出了一種多粒度及模糊計(jì)算的無(wú)監(jiān)督股評(píng)極性分類方法,。該方法是針對(duì)情感詞語(yǔ)義對(duì)文本上下文的依賴問(wèn)題而分析不同層次上情感特征信息,,然后結(jié)合模糊集合理論,來(lái)構(gòu)建一種文本情感極性的分析計(jì)算模型,,以此來(lái)提高股評(píng)情感極性的分類精度,。其核心思想是:在股評(píng)情感極性預(yù)分類階段,同時(shí)考慮情感詞,、情感短語(yǔ),、句子類型和句間關(guān)系對(duì)情感詞情感極性的影響,這就是所謂“多粒度”,。同時(shí),,還將現(xiàn)有情感極性確定性數(shù)值計(jì)算改進(jìn)為模糊集合計(jì)算。因此,,多粒度及模糊計(jì)算的情感極性分析模型是通過(guò)綜合考慮詞,、短語(yǔ)和句子等不同粒度的情感信息,綜合分析股評(píng)的情感極性及其強(qiáng)度,。在得到股評(píng)情感極性和強(qiáng)度后,,采用模糊集合理論對(duì)股評(píng)的情感極性進(jìn)行預(yù)分類,再結(jié)合自學(xué)習(xí)機(jī)制,,構(gòu)建一套股評(píng)情感極性無(wú)監(jiān)督的在線分類器,。
面向股評(píng)的多粒度及模糊計(jì)算情感極性分類器的整體架構(gòu)如圖4所示??蚣苤饕?部分組成:(1)無(wú)監(jiān)督情感極性分類器的情感知識(shí)庫(kù),包括:情感詞典(QWSL)和情感語(yǔ)素字典(KSMD)等,;(2)股評(píng)情感強(qiáng)度的多粒度計(jì)算組件,。組件采將股評(píng)劃分3種不同粒度的語(yǔ)言單位:句子、短語(yǔ)和詞,,并分別計(jì)算3種粒度的情感強(qiáng)度,,然后綜合分析整個(gè)股評(píng)的情感強(qiáng)度。(3)模糊分類器,。根據(jù)最大隸屬度原則來(lái)構(gòu)造模糊分類函數(shù),,并采用自學(xué)習(xí)機(jī)制的設(shè)計(jì)分類器的相關(guān)參數(shù)。
上述組成部分中,最重要的是模糊分類器,。其基本思路闡述如下:以股評(píng)集合R={ri}中評(píng)論ri的情感強(qiáng)度si(ri)為基礎(chǔ),,通過(guò)定義股評(píng)集合R={ri}的正向情感類別為模糊集P。
根據(jù)模糊成員函數(shù)定義和最大隸屬度原則,,可將式(2)和式(4)正負(fù)成員函數(shù)組合為一個(gè)模糊集分類函數(shù),,如式(5)所示:
其中,μp(ri)表示模糊集P的正向成員函數(shù),;參數(shù)α和β為調(diào)節(jié)參數(shù),,可以統(tǒng)一為參數(shù)k來(lái)表示,k=(α+β)/2,。
2 實(shí)驗(yàn)測(cè)試與結(jié)果分析
實(shí)驗(yàn)?zāi)繕?biāo)是驗(yàn)證所提出的垂直搜索引擎中多粒度模糊情感極性分類方法的效果,。
本文采取了3類實(shí)驗(yàn)測(cè)試數(shù)據(jù)集,具體包括:網(wǎng)站股評(píng),、論壇股評(píng)和微博股評(píng),。每個(gè)數(shù)據(jù)集都包含正面評(píng)價(jià)和負(fù)面評(píng)論。3個(gè)數(shù)據(jù)集的統(tǒng)計(jì)數(shù)據(jù)見(jiàn)表1,。
對(duì)于多粒度模糊情感極性分類方法,,準(zhǔn)確度(P)、召回率(R),、F1和精度(AC)是四類主要的性能指標(biāo),,即檢驗(yàn)該分類方法的查全率和查準(zhǔn)率。本文在選擇基于情感詞典的網(wǎng)絡(luò)評(píng)論極性分類(MBSL)和基于情感詞典和模糊集的網(wǎng)絡(luò)評(píng)論極性分類(MBSLFS)兩種典型方法的基礎(chǔ)上,,提出了基于多粒度模糊計(jì)算模型的網(wǎng)絡(luò)評(píng)論極性分類方法(MBMGC),。根據(jù)模糊分類器參數(shù)設(shè)置策略不同,分別采用人工標(biāo)注數(shù)據(jù)集的方法(MBMGC1)和初始偽標(biāo)注數(shù)據(jù)集的方法(MBMGC1),。
表2實(shí)驗(yàn)結(jié)果表明:在3個(gè)數(shù)據(jù)集上,,MBMGC的4個(gè)性能指標(biāo)值均高于MBSL和MBSLFS,MBSLFS比MBSL提升了約8.62%分類精度,,表明基于模糊集合的計(jì)算方法比基于情感詞典的確定數(shù)值計(jì)算方法更有效,。而MBMGC1和MBMGC2比MBSLFS分別平均提升了約4.486%和3.677%分類精度,進(jìn)一步表明基于多粒度的模糊集合方法比基于單一情感詞典的模糊集方法對(duì)情感極性分類更有效,。
3 結(jié)語(yǔ)
本文根據(jù)股市信息搜索的需求,,在主流全文搜索的基礎(chǔ)上,設(shè)計(jì)與實(shí)現(xiàn)了一種面向股評(píng)觀點(diǎn)的垂直搜索引擎,。該引擎在對(duì)股市網(wǎng)絡(luò)評(píng)論進(jìn)行全文檢索的同時(shí),,還能完成情感極性分類檢索。本文的貢獻(xiàn)點(diǎn)表現(xiàn)3個(gè)方面:(1)提出了一種面向股評(píng)觀點(diǎn)的垂直搜索引擎框架,,能支持股評(píng)信息的高效全文檢索和觀點(diǎn)分析,;(2)設(shè)計(jì)了一種面向網(wǎng)絡(luò)股評(píng)信息采集的定點(diǎn)收割爬蟲,,能保證股評(píng)主題數(shù)據(jù)采集的精準(zhǔn)性和召回率;(3)建立了一種多粒度及模糊計(jì)算的股評(píng)情感極性無(wú)監(jiān)督的分類方法,,解決了股評(píng)極性的在線分類問(wèn)題,。實(shí)驗(yàn)結(jié)果證明,本文實(shí)現(xiàn)的面向股評(píng)觀點(diǎn)垂直搜索引擎能滿足實(shí)際應(yīng)用要求,。下一步研究重點(diǎn)為改進(jìn)查詢接口方式和在更大數(shù)據(jù)量下的性能優(yōu)化,,進(jìn)一步提高查詢響應(yīng)速度。
參考文獻(xiàn)
[1] BROWN E D.Will twitter make you a better investor?A look at sentiment, user reputation and their effect on the stock market[C].In Proc.of 2012 SAIS,,2012.
[2] JOHAN B,,Mao Huina,Zeng Xiaojun.Twitter mood predicts the stock market[J].Journal of Computational Science,,2011,,2(1):1-8.
[3] HUANG B,HEILMAN T D.A web-based kernel function for measuring the similarity of short text snippets[C].Proceedings of the 16th International Conference on World Wide Web.AcM,,2007:377-386.
[4] WANG B,,HUANG Y,WU X,,et al.A fuzzy computing model for identifying polarity of Chinese sentiment words[C].Computational Intelligence & Neuroscience,,2015:1-13.
[5] MOAT H S,CURME C,,AVAKIAN A,,et al.Quantifying Wikipedia usage patterns before stock market moves[J].Social Science Electronic Publishing,2013,,3(5):926-930.
[6] Wang Gang,,Wang Tianyi,Wang Bolun,,et al.Crowds on wall street:Extracting value from clooaborative investing platforms[C].In Progress in CSCW,,2015.
[7] CHOUDHURY M M,SUNDARAM H,,JOHN A.Can blog communication dynamics be correlated with stock market activity?[C].In Proc.of HyperText,,2008:55-60.
[8] WANG B,MIN Y,,HUANG Y,,et al.Review rating prediction based on the content and weighting strong social relation of reviewers[C].Proceedings of the 2013 International Workshop on Mining Unstructured Big Data Using Natural Language Processing.ACM,2013:23-30.
作者信息:
王 帥,,黃永峰,胡 萍
(清華大學(xué) 電子工程系 下一代網(wǎng)絡(luò)及應(yīng)用技術(shù)研究室,,北京100084)