《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 網(wǎng)頁排序算法在社會(huì)認(rèn)知管理效果評(píng)價(jià)中的應(yīng)用
網(wǎng)頁排序算法在社會(huì)認(rèn)知管理效果評(píng)價(jià)中的應(yīng)用
2016年微型機(jī)與應(yīng)用第12期
邱繼遠(yuǎn),,岳振軍,榮傳振,蘇豐龍
(中國人民解放軍理工大學(xué) 通信工程學(xué)院,江蘇 南京 210007)
摘要: 描述了當(dāng)前突發(fā)公共事件中社會(huì)認(rèn)知管理的現(xiàn)狀,針對(duì)當(dāng)前突發(fā)公眾事件中社會(huì)認(rèn)知管理水平不高,,沒有統(tǒng)一的認(rèn)知管理水平評(píng)價(jià)標(biāo)準(zhǔn)等問題,提出了應(yīng)用網(wǎng)頁排序打分的方法來對(duì)突發(fā)事件中主流媒體網(wǎng)絡(luò)信息發(fā)布受公眾關(guān)注度的情況進(jìn)行評(píng)價(jià),從而間接評(píng)價(jià)網(wǎng)絡(luò)媒體在社會(huì)認(rèn)知管理中發(fā)揮的作用,。針對(duì)傳統(tǒng)PageRank算法偏重舊網(wǎng)頁的現(xiàn)象,對(duì)算法進(jìn)行了改進(jìn),增加了時(shí)間權(quán)重,。在Hadoop分布式計(jì)算平臺(tái)上實(shí)現(xiàn)了該算法,,并對(duì)比分析了算法改進(jìn)前后的排序結(jié)果。
Abstract:
Key words :

  邱繼遠(yuǎn),,岳振軍,,榮傳振,蘇豐龍

 ?。ㄖ袊嗣窠夥跑娎砉ご髮W(xué) 通信工程學(xué)院,,江蘇 南京 210007)

  摘要:描述了當(dāng)前突發(fā)公共事件中社會(huì)認(rèn)知管理的現(xiàn)狀,針對(duì)當(dāng)前突發(fā)公眾事件中社會(huì)認(rèn)知管理水平不高,,沒有統(tǒng)一的認(rèn)知管理水平評(píng)價(jià)標(biāo)準(zhǔn)等問題,,提出了應(yīng)用網(wǎng)頁排序打分的方法來對(duì)突發(fā)事件中主流媒體網(wǎng)絡(luò)信息發(fā)布受公眾關(guān)注度的情況進(jìn)行評(píng)價(jià),從而間接評(píng)價(jià)網(wǎng)絡(luò)媒體在社會(huì)認(rèn)知管理中發(fā)揮的作用,。針對(duì)傳統(tǒng)PageRank算法偏重舊網(wǎng)頁的現(xiàn)象,,對(duì)算法進(jìn)行了改進(jìn),增加了時(shí)間權(quán)重,。在Hadoop分布式計(jì)算平臺(tái)上實(shí)現(xiàn)了該算法,,并對(duì)比分析了算法改進(jìn)前后的排序結(jié)果。

  關(guān)鍵詞:認(rèn)知管理; 突發(fā)性公共事件; Hadoop,;PageRank,;時(shí)效性

0引言

  當(dāng)前,國際形勢復(fù)雜多變,,國內(nèi)改革逐步深化,,各類問題和矛盾引發(fā)的突發(fā)性公共事件頻繁出現(xiàn)。社會(huì)認(rèn)知管理在處置突發(fā)事件中的作用日益凸顯,,它能夠在突發(fā)性公共事件發(fā)生時(shí)對(duì)公眾的心理活動(dòng)過程進(jìn)行干預(yù)和引導(dǎo),,從而及時(shí)有效地糾正公眾認(rèn)知的偏差。信息發(fā)布作為社會(huì)認(rèn)知管理的主要手段,,有多種方式,,在大數(shù)據(jù)時(shí)代背景下,網(wǎng)絡(luò)信息的發(fā)布是極為重要的一種方式,。對(duì)網(wǎng)絡(luò)信息發(fā)布的受關(guān)注程度進(jìn)行評(píng)價(jià),,能夠在一定程度上體現(xiàn)政府的認(rèn)知管理效果。針對(duì)當(dāng)前媒體網(wǎng)絡(luò)建設(shè)水平參差不齊,、信息發(fā)布受公眾關(guān)注度不高,、缺乏有效的信息評(píng)價(jià)機(jī)制的現(xiàn)狀,本文致力于通過基于Hadoop[14]的網(wǎng)頁排序技術(shù)對(duì)突發(fā)性公共事件中各網(wǎng)站信息發(fā)布的受關(guān)注度進(jìn)行綜合排序打分,,找出影響關(guān)注度的主要因素,,以此來推動(dòng)網(wǎng)站信息發(fā)布水平的提升,進(jìn)而提升政府的社會(huì)認(rèn)知管理水平。

1當(dāng)前認(rèn)知管理中存在的問題

  在大數(shù)據(jù)時(shí)代,,由于信息傳播的速度和廣度前所未有,,因此政府開展認(rèn)知管理活動(dòng)更加困難。宋園園[5]認(rèn)為,,在大數(shù)據(jù)背景下的突發(fā)公共事件中,,政府、媒體和公眾是危機(jī)管理的三大核心力量,,本文分別從這三個(gè)方面探討當(dāng)前認(rèn)知管理中存在的問題,。

  在政府層面存在的問題主要有:管理者缺乏社會(huì)認(rèn)知管理意識(shí),官本位思想依然存在,,政府在信息系統(tǒng)方面還相對(duì)薄弱等,。在媒體層面,存在官方媒體信息傳播職能相對(duì)弱化,、個(gè)別媒體單純地只做政府的發(fā)言人和撰稿人,、信息收集渠道過窄、信息發(fā)布不全不準(zhǔn)等問題,。在公眾層面,,存在公共危機(jī)意識(shí)薄弱、對(duì)各種媒介信息的判斷能力普遍較差等問題,。

  當(dāng)前,,由于國內(nèi)外對(duì)社會(huì)認(rèn)知管理的研究還沒有形成統(tǒng)一的理論體系,缺乏對(duì)認(rèn)知管理水平的評(píng)價(jià)標(biāo)準(zhǔn),。針對(duì)該問題,,本文引入信息檢索技術(shù)中的網(wǎng)頁排序技術(shù),通過對(duì)公共突發(fā)事件發(fā)生后媒體的網(wǎng)絡(luò)信息發(fā)布受關(guān)注程度進(jìn)行評(píng)價(jià),,進(jìn)而對(duì)影響受關(guān)注度的因素加以分析,,提出建議,提升社會(huì)認(rèn)知管理水平,。

2PageRank算法

  PageRank算法由斯坦福大學(xué)的PAGE L[6]提出,該排序算法根據(jù)網(wǎng)頁間鏈接信息迭代計(jì)算得到,。用有向圖G(V,E)表示網(wǎng)絡(luò)頁面間的鏈接關(guān)系,其中V是網(wǎng)頁集合,,E是邊集(當(dāng)且僅當(dāng)存在從頁面i到頁面j的鏈接時(shí),,存在相應(yīng)的邊)。

  計(jì)算PageRank的過程是求矩陣特征向量的過程:M表示有向圖G的聯(lián)接矩陣, 當(dāng)存在節(jié)點(diǎn)j到i的邊時(shí),,矩陣元素[i,j]的值為1/Nj,否則賦值0,其滿足:

  x=Mx(1)

  其中,x表示各頁面構(gòu)成的向量。根據(jù)構(gòu)成可得,矩陣M最大特征值為1;x為1對(duì)應(yīng)的特征向量,使用簡單迭代法對(duì)以上公式求解,。M必須滿足兩個(gè)條件,迭代過程才會(huì)收斂:(1)M是非循環(huán)的;(2)M為強(qiáng)制連通,。條件(1)由網(wǎng)絡(luò)結(jié)構(gòu)來保證,條件(2)通過在迭代過程中增加一個(gè)阻尼因子c來保證。新公式定義如下:

  2.png

  此時(shí),在保證迭代收斂的同時(shí),PageRank定義轉(zhuǎn)變?nèi)缦?設(shè)頁面z1, z2,…,,zn鏈接指向頁面i,則

  3.png

  其中阻尼因子c為0.15,N(z)n為網(wǎng)頁(z)n的出鏈個(gè)數(shù),,(1-c)為阻尼系數(shù)。

  PageRank算法中,,由于網(wǎng)頁的內(nèi)外部鏈接需要時(shí)間的積累,收錄數(shù)與反鏈數(shù)隨著時(shí)間的積累而增加, PageRank的計(jì)算方法會(huì)使新網(wǎng)頁P(yáng)R值偏低,,導(dǎo)致歧視新網(wǎng)頁的現(xiàn)象。而公共危機(jī)發(fā)生后對(duì)信息發(fā)布時(shí)效性要求較高,,故需要在傳統(tǒng)算法的基礎(chǔ)上添加時(shí)間權(quán)重,。公眾對(duì)信息的實(shí)時(shí)需求較高,網(wǎng)頁被檢索到的時(shí)間與公共事件發(fā)生的時(shí)間差值越大,則網(wǎng)頁內(nèi)容價(jià)值相對(duì)越低。信息發(fā)布時(shí)間差Td的計(jì)算公式為:

  Td=(Eq-Ec)×24+(Fq-Fc)(4)

  式中:Eq,、Fq分別為檢索時(shí)間的天數(shù),、小時(shí);Ec、Fc分別為網(wǎng)頁發(fā)布時(shí)間的天數(shù),、小時(shí),。

  3NK64KX4]PEI6DO%NWP_P11.png

  Ti表示突發(fā)公共事件發(fā)生后,信息發(fā)布距事件發(fā)生在各時(shí)間段的賦值,。

3實(shí)驗(yàn)結(jié)果及分析

  整個(gè)實(shí)驗(yàn)包括數(shù)據(jù)集的獲取,、預(yù)處理、實(shí)驗(yàn)設(shè)計(jì)和結(jié)果分析四個(gè)部分,。本文使用3臺(tái)PC搭建Hadoop的分布式計(jì)算平臺(tái),,分別為PC1~PC3。其中:PC1作Master,;PC2~PC3作Slave,。每臺(tái)PC具體配置硬件環(huán)境為:Intel Core 2 Duo 2.20 GHz CPU;2 GB內(nèi)存,;300 GB硬盤,;千兆網(wǎng)卡。軟件環(huán)境為Radhat 7,;Hadoop 0.20,。

  3.1網(wǎng)頁數(shù)據(jù)的獲取

  本文以新聞?lì)悜?yīng)用為例,網(wǎng)絡(luò)蜘蛛負(fù)責(zé)獲取網(wǎng)頁數(shù)據(jù), 網(wǎng)頁來自新華網(wǎng),、環(huán)球網(wǎng),、搜狐、新浪,、網(wǎng)易,、騰訊、鳳凰網(wǎng)等各大門戶網(wǎng)站,,設(shè)定查詢時(shí)間為突發(fā)公共事件72小時(shí)以內(nèi)上述網(wǎng)站有關(guān)的新聞報(bào)道,,經(jīng)過約24小時(shí)網(wǎng)絡(luò)蜘蛛的運(yùn)行共爬取5×104張符合條件的新聞網(wǎng)頁,。

  3.2實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

  3.2.1實(shí)驗(yàn)設(shè)計(jì)

  本文分別以“青島38元一只大蝦事件”、“美軍拉森號(hào)艦艇進(jìn)入南海島礁12海里事件”等查詢?cè)~作為突發(fā)公共事件類應(yīng)用實(shí)驗(yàn)參數(shù),,以PageRank值的變化量小于0.000 1作為算法收斂條件,,求得事件發(fā)生后72小時(shí)內(nèi)各網(wǎng)站報(bào)道的新聞頁面的PR平均值。依據(jù)數(shù)值大小進(jìn)行排名,。

  3.2.2實(shí)驗(yàn)結(jié)果分析

  表1顯示,,在事件1~3中,環(huán)球網(wǎng)和新華網(wǎng)在排序中較靠后,,沒有較強(qiáng)從屬關(guān)系的鳳凰,、網(wǎng)易等網(wǎng)頁排序較靠前。事件4中,,環(huán)球網(wǎng)和新華網(wǎng)排名有所提升,,但仍然沒有排在前列。

001.jpg 

  表2顯示,,在添加時(shí)間權(quán)重后,,環(huán)球網(wǎng)和新華網(wǎng)排名有所下降。

  

002.jpg

  綜上所述,,可以得到如下啟示:一是在突發(fā)公共事件中官方網(wǎng)站發(fā)布的消息受到的公眾關(guān)注度遠(yuǎn)低于當(dāng)前主流媒體所發(fā)布的消息,,在綜合排名中相對(duì)位置比較靠后;二是在對(duì)外的突發(fā)事件中,,官方媒體排序相對(duì)較高,,說明在對(duì)外事件中,公眾對(duì)官網(wǎng)消息的認(rèn)可度較高,;三是在加入時(shí)間權(quán)重后,,官方網(wǎng)站的排名更加靠后,說明官方網(wǎng)站消息的時(shí)效性不強(qiáng),,遠(yuǎn)遠(yuǎn)滯后于當(dāng)前主流媒體,;四是在統(tǒng)計(jì)中發(fā)現(xiàn),官方網(wǎng)站發(fā)布的新聞數(shù)量和篇幅都遠(yuǎn)低于主流媒體,,所報(bào)道內(nèi)容不全面,、不完整也是官方網(wǎng)頁受關(guān)注度不高的原因。

4結(jié)論

  本文通過對(duì)公共突發(fā)事件和認(rèn)知管理特點(diǎn)的研究,,提出了通過PageRank排序算法對(duì)突發(fā)公共事件網(wǎng)絡(luò)新聞報(bào)道進(jìn)行關(guān)注度排名的方法,,并將算法在Hadoop分布式計(jì)算平臺(tái)上實(shí)現(xiàn)。實(shí)驗(yàn)結(jié)果在一定程度上能夠反映各大主流媒體在突發(fā)事件的網(wǎng)絡(luò)新聞傳播中受公眾關(guān)注的程度,。

參考文獻(xiàn)

 ?。?] RAJARAMAN A,ULLMAN J D.大數(shù)據(jù)互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)挖掘分布式處理[M].北京:人民郵電出版社,,2013.

 ?。?] 陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與NoSQL 數(shù)據(jù)庫技術(shù)[M].北京:電子工業(yè)出版社,, 2013.

  [3] 馬東杰.基于IEEE 802.15.4的接人算法研究[D].秦皇島:燕山大學(xué),,2012.

  [4] Wen Hao,,Lin Chang,,Chen Zhijia,et al.An improved Markov model for IEEE 802.15.4 slotted CSMA/CA mechanism[J].Journal of Computer Science and Technology,,2009,,24(3):495504.

  [5] 宋園園.公共危機(jī)治理中認(rèn)知管理的解析與構(gòu)建[J].行政領(lǐng)導(dǎo),2012(20):1418.

 ?。?] BRIN S, MOTWANI R, PAGE L, et al. What can you do with a Web in your pocket Bull[J]. Data Engineering Bulletin,1998,21(1):3747.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。