姜建武,李景文,,陸妍玲,,葉良松
(桂林理工大學(xué) 測(cè)繪地理信息學(xué)院,廣西 桂林 541004)
摘要:針對(duì)傳統(tǒng)信息推送服務(wù)由于缺少對(duì)用戶個(gè)人綜合因素的考慮,,存在針對(duì)性差,、推廣轉(zhuǎn)化率低的問題,在大數(shù)據(jù)理論基礎(chǔ)上提出了一種基于用戶畫像的智能信息推送方法,。該方法將用戶抽象為結(jié)構(gòu)化信息本體,,通過構(gòu)建行為-主題、主題-詞匯及行為-詞匯三位一體的數(shù)學(xué)模型,,研究基于用戶畫像的信息本體提取方法,。采用包含對(duì)象,、時(shí)間、地點(diǎn),、內(nèi)容,、行為和重返次數(shù)六方面內(nèi)容的事件描述法計(jì)算本體權(quán)重,以此構(gòu)建用戶畫像,。設(shè)計(jì)了基于用戶畫像的智能信息推送系統(tǒng),,為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。
關(guān)鍵詞:用戶畫像,;信息推送,;信息本體;大數(shù)據(jù)
中圖分類號(hào):TP399文獻(xiàn)標(biāo)識(shí)碼:ADOI: 10.19358/j.issn.16747720.2016.23.025
引用格式:姜建武,,李景文,,陸妍玲,等. 基于用戶畫像的信息智能推送方法[J].微型機(jī)與應(yīng)用,,2016,35(23):86-89,92.
0引言
基于“用戶畫像”的信息智能推送服務(wù)已經(jīng)廣泛應(yīng)用于亞馬遜,、京東、阿里,、百度、百分點(diǎn),、騰訊等電商和信息服務(wù)企業(yè),,國(guó)內(nèi)外眾多學(xué)者也對(duì)其進(jìn)行了深入研究。彭藝等研究了云環(huán)境下智能推送服務(wù)在數(shù)字化教學(xué)中的應(yīng)用[1];顏友軍研究了移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問答與Web服務(wù)推送系統(tǒng)[2];赫磊研究了基于云平臺(tái)的智慧旅游信息推送系統(tǒng)[3];黃舒榕提出了基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)[4];劉海等采用4C理論構(gòu)建了服裝領(lǐng)域的“用戶畫像”數(shù)據(jù)庫(kù),,并在此基礎(chǔ)上構(gòu)建了精準(zhǔn)營(yíng)銷細(xì)分模型[5];莫靜泱構(gòu)建了B/S架構(gòu)的用戶健康消費(fèi)智能推送系統(tǒng)[6];肖鋒等圍繞LBS服務(wù),、情景模型和智能信息推送,提出了基于位置的智能信息服務(wù)模式[78],。然而,,這些研究都是傳統(tǒng)的信息推送方法,缺少對(duì)用戶的偏好,、時(shí)間,、購(gòu)買力等個(gè)人因素的考慮,導(dǎo)致推送信息泛濫,,缺乏精準(zhǔn)性,。本文研究了用戶畫像數(shù)學(xué)模型的構(gòu)建及基于用戶畫像的智能信息推送方法,通過對(duì)用戶網(wǎng)絡(luò)行為數(shù)據(jù)和個(gè)人信息數(shù)據(jù)的采集,、處理,,建立用戶畫像數(shù)學(xué)模型,提取信息本體,、計(jì)算本體權(quán)重,,構(gòu)建用戶個(gè)人信息畫像,,并融入信息智能推送過程,提供面向用戶的個(gè)性化精準(zhǔn)信息推送服務(wù),。
1構(gòu)建用戶畫像數(shù)學(xué)模型
1.1信息本體的確定
用戶畫像又稱用戶角色[9],,是一種大數(shù)據(jù)環(huán)境下用戶信息標(biāo)簽化方法。信息本體是一種語(yǔ)義本體,,分為靜態(tài)(如人口屬性,、商業(yè)屬性等)和動(dòng)態(tài)兩類。靜態(tài)本體來(lái)自用戶注冊(cè)信息,,該類本體自成標(biāo)簽,,在實(shí)際提取中主要進(jìn)行數(shù)據(jù)清洗工作。動(dòng)態(tài)本體隱藏于用戶隨機(jī)互聯(lián)網(wǎng)行為中,,具有隱蔽性,,需通過數(shù)據(jù)分析,挖掘隱藏信息并提取本體,,其提取過程如圖1所示,。
圖1中,K表示主題集合,,M表示行為集合,,Nm表示第m個(gè)行為中的詞匯個(gè)數(shù),α,β為先驗(yàn)參數(shù),。
動(dòng)態(tài)本體的提取分為數(shù)據(jù)預(yù)處理,、行為主題建模、主題詞匯建模和行為詞匯建模四個(gè)部分,,其中行為主題模型與主題詞匯模型服從Dirichlet分布,,行為詞匯模型服從Multiomial分布。
(1)行為數(shù)據(jù)預(yù)處理
首先過濾用戶行為數(shù)據(jù),,去除非文本信息,,且只保留行為文本中的動(dòng)詞和名詞[10],然后求解各詞匯的TFIDF指標(biāo),,保留指標(biāo)在70%以上的詞匯,,構(gòu)成動(dòng)態(tài)本體數(shù)據(jù)源。
其中,,TF指詞項(xiàng)頻率,,TFIDF指逆文檔頻率[11],TFIDF指標(biāo)的計(jì)算公式為:
式(1)中,,N代表互聯(lián)網(wǎng)行為總集,,ni為詞匯i出現(xiàn)過的行為集合,j為某一行為記錄,fi,j表示詞i在j中出現(xiàn)的次數(shù)[12],。
(2)行為主題建模
從參數(shù)為α的Dirichlet分布中抽取各文檔M對(duì)應(yīng)的行為主題分布模型,,記為θm,則有[10]:
其中整個(gè)行為庫(kù)中主題的生成概率為:
(3) 主題-詞匯建模
從參數(shù)為β的Dirichlet分布中抽取各主題K對(duì)應(yīng)的主題-詞匯分布模型,,記為φk,,則:
其中所有主題中詞匯生成的概率為:
根據(jù)主題生成概率和詞匯生成概率得出主題詞匯的聯(lián)合分布為:
(4) 行為 詞匯建模
根據(jù)主題 詞匯分布模型和行為主題分布模型,則行為m對(duì)應(yīng)的第n個(gè)詞匯的計(jì)算過程為:
?、?從θm中采樣一個(gè)主題,,記為Zm,n,則 [10]:
?、?根據(jù)計(jì)算的主題Zm,n,,從φk中取出與Zm,n對(duì)應(yīng)的特定單詞Wm,n:
在以上求解過程中,Wm,n為獲取量,,Zm,n為隱含量,,本文采用Gibbs Sampling采樣法求解Zm,n,由于圖1中①和②兩過程均服從Dirichlet-Multiomial共軛分布,,根據(jù)前述所得的聯(lián)合分布p(w,z|α,β),,并將行為Z中的第i個(gè)詞對(duì)應(yīng)的主題記為Zi,i表示去除下標(biāo)為i的詞,,假設(shè)已經(jīng)觀測(cè)的詞wi=t,,則有如下推導(dǎo):
mk和kt是對(duì)應(yīng)的兩個(gè)Dirichlet后驗(yàn)分布在貝葉斯框架下的參數(shù)估計(jì),根據(jù)Dirichlet參數(shù)估計(jì)公式得[13]:
根據(jù)以上兩式,,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:
通過以上步驟,,提取用戶隨機(jī)互聯(lián)網(wǎng)行為中的動(dòng)態(tài)信息本體,綜合靜態(tài)信息本體,,構(gòu)成用戶畫像數(shù)學(xué)模型的label參數(shù)。label只能表示用戶的興趣偏向內(nèi)容,,而無(wú)法體現(xiàn)偏向程度,,需計(jì)算label權(quán)重p(i)。
1.2本體權(quán)重的計(jì)算
權(quán)重用于表示用戶對(duì)某一本體的偏向程度,。靜態(tài)本體相對(duì)穩(wěn)定,,權(quán)重設(shè)為1。目前,,用戶畫像標(biāo)簽權(quán)重的計(jì)算主要考慮對(duì)象,、時(shí)間、地點(diǎn),、內(nèi)容4個(gè)因素,,文中提出用戶隨機(jī)互聯(lián)網(wǎng)行為的對(duì)象、時(shí)間、地點(diǎn),、內(nèi)容,、行為和重返次數(shù)6因素事件描述法,可更全面地描述用戶的隨機(jī)互聯(lián)網(wǎng)行為,。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機(jī)行為動(dòng)態(tài)本體的權(quán)重計(jì)算方法如下:
(1) 對(duì)象
對(duì)象即互聯(lián)網(wǎng)上區(qū)分用戶的標(biāo)識(shí)(Cookie,、IP、Email,、身份證等),,不同標(biāo)識(shí)的可信度不同。對(duì)象權(quán)重為該標(biāo)識(shí)可信度值與可信度值總和的比值,,即:
(2) 時(shí)間
時(shí)間包含時(shí)間戳和時(shí)間間隔兩方面內(nèi)容,。時(shí)間戳用于標(biāo)識(shí)事件發(fā)生、結(jié)束的時(shí)刻,,時(shí)間間隔用于標(biāo)識(shí)瀏覽時(shí)間,,則時(shí)間對(duì)動(dòng)態(tài)本體的權(quán)重T(label)記為瀏覽本體的時(shí)間與用戶所有上網(wǎng)時(shí)間的比值,即:
(3) 地點(diǎn)(接觸點(diǎn))
地點(diǎn)是用戶互聯(lián)網(wǎng)行為的接觸點(diǎn)(天貓,、官網(wǎng)等),,用戶行為接觸點(diǎn)的不同,對(duì)標(biāo)簽的影響亦不同,。為不同接觸點(diǎn)設(shè)置重要程度度量值,,則地點(diǎn)對(duì)本體的權(quán)重L(label)為:
(4) 內(nèi)容
內(nèi)容是動(dòng)態(tài)本體權(quán)重的重要組成部分,標(biāo)識(shí)了一個(gè)互聯(lián)網(wǎng)行為的核心,,用C(label)表示,,即該動(dòng)態(tài)本體包含詞匯的最大TFIDF指標(biāo):
(5) 行為
行為是用戶對(duì)網(wǎng)站內(nèi)容的操作,如瀏覽,、收藏等,,不同的行為具有的權(quán)重不同,用A(label)表示,,計(jì)算公式為:
(6) 重返次數(shù)
重返次數(shù)體現(xiàn)了用戶對(duì)該網(wǎng)站(產(chǎn)品,、內(nèi)容)的關(guān)注程度,這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”,。重返次數(shù)采用R(label)表示,,其權(quán)重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值,計(jì)算公式為:
1.3用戶畫像最終數(shù)學(xué)模型
用戶畫像最終數(shù)學(xué)模型如式(18)所示,。
式中l(wèi)abeli表示某一方面用戶的信息標(biāo)簽,,p(i)表示該標(biāo)簽的權(quán)重,Obj(label),、T(label),、L(label)、C(label)、 A(label),、R(label)為事件對(duì)應(yīng)六方面內(nèi)容對(duì)標(biāo)簽的權(quán)重,,r為衰減因子,用來(lái)描述信息本體對(duì)某一標(biāo)簽的興趣隨著時(shí)間變化的衰減程度,。
2基于用戶畫像的智能信息推送系統(tǒng)
推送技術(shù)的模式分為操作式推送和觸發(fā)式推送兩種[15],。基于用戶畫像的智能信息推送系統(tǒng)是操作式推送與觸發(fā)式推送的結(jié)合體,,即客戶端操作觸發(fā)信息推送與服務(wù)器主動(dòng)推送二者相結(jié)合,。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權(quán)重計(jì)算,、信息推送三個(gè)階段,,具體過程如下:
(1) 數(shù)據(jù)獲取及處理
用戶基本數(shù)據(jù)(年齡、體重等)通過注冊(cè)信息獲取,,該部分信息相對(duì)穩(wěn)定,,為靜態(tài)信息本體(如表1所示),權(quán)重定為1,。動(dòng)態(tài)本體隱藏于用戶行為中,,通過用戶互聯(lián)網(wǎng)行為抓取,實(shí)現(xiàn)電商,、社交,、媒體等信息的獲取。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,,主要獲取網(wǎng)頁(yè)的標(biāo)題信息,,過濾用戶行為中非文本信息,只保留動(dòng)詞與名詞,,且只保留TFIDF指標(biāo)在70%以上的詞匯,,并按照對(duì)象、時(shí)間,、地點(diǎn),、內(nèi)容、行為五方面內(nèi)容以天為單位存儲(chǔ)至數(shù)據(jù)庫(kù)(如表2所示),。
(2)動(dòng)態(tài)信息本體獲取
通過行為主題建模、主題詞匯建模,、行為詞匯建模三個(gè)過程,,從用戶行為庫(kù)中挖掘動(dòng)態(tài)信息本體,提取行為主體及主題詞匯,。
(3)動(dòng)態(tài)信息本體權(quán)重計(jì)算
根據(jù)對(duì)象,、時(shí)間、地點(diǎn)、內(nèi)容,、行為五個(gè)方面,,依據(jù)動(dòng)態(tài)信息本體權(quán)重計(jì)算公式求解其聯(lián)合影響權(quán)重。
(4)用戶畫像構(gòu)建
根據(jù)步驟(1),、(2),、(3)所得結(jié)果,結(jié)合用戶畫像數(shù)學(xué)模型,,構(gòu)建特定用戶的用戶畫像,,采用非關(guān)系型數(shù)據(jù)庫(kù)MongoDB以Bson格式存儲(chǔ)。對(duì)用戶畫像做可視化處理,,直觀顯示用戶偏向內(nèi)容及偏向程度,,如圖2所示。
(5)信息推送
將用戶畫像中各信息本體按照權(quán)重排列,,采用LBS技術(shù)定位用戶實(shí)時(shí)位置,,以位置和信息本體為查詢條件,查詢信息數(shù)據(jù)庫(kù),,將查詢結(jié)果組合,、排序,為用戶提供符合個(gè)人情況的智能信息,,如圖3,。
3結(jié)束語(yǔ)
本文提出的信息本體概念利于用戶描述和計(jì)算機(jī)處理,基于行為主題,、主題詞匯及行為詞匯模型的信息本體提取方法和采用對(duì)象,、時(shí)間、地點(diǎn),、內(nèi)容,、行為和重返次數(shù)的聯(lián)合影響權(quán)重計(jì)算方法構(gòu)建的用戶畫像數(shù)學(xué)模型,能夠較好地描述用戶偏好,。本文設(shè)計(jì)的基于用戶畫像的智能信息推送系統(tǒng),,為大數(shù)據(jù)環(huán)境下的精準(zhǔn)營(yíng)銷提供了一種新的方法。
參考文獻(xiàn)
?。?] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.
?。?] 顏友軍.移動(dòng)平臺(tái)上基于本體知識(shí)庫(kù)的問答與Web服務(wù)推送系統(tǒng)[D].南京:南京大學(xué),2013.
[3] 赫磊.基于云平臺(tái)的智慧旅游信息推送系統(tǒng)研究[D].西安:西安工業(yè)大學(xué),2014.
?。?] 黃舒榕.基于JXTA的移動(dòng)智能小區(qū)信息推送服務(wù)平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.
?。?] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準(zhǔn)營(yíng)銷細(xì)分模型研究[J].絲綢,2015,52(12):37-42.
[6] 莫靜泱.基于數(shù)據(jù)挖掘的用戶個(gè)性化健康消費(fèi)智能推送系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.
?。?] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術(shù)研究[J].測(cè)繪與空間地理信息,2015 (6):125-127.
?。?] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務(wù)推送方法[J].測(cè)繪通報(bào),2016(4):96-98.
?。?] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建模——從具象到抽象[J].設(shè)計(jì)藝術(shù)研究,2014,,4(6):62-64.
?。?0] 何建云,陳興蜀,杜敏,等.基于改進(jìn)的在線LDA模型的主題演化分析[J].中南大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(2):547-553.
?。?1] 周品.云時(shí)代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.
?。?2] 張亮.數(shù)字圖書館多層次閱讀擴(kuò)展系統(tǒng)[D].杭州:浙江大學(xué),2010.
[13] LDA math LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.
?。?4] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.
?。?5] 石巖.基于智能推送技術(shù)的個(gè)性化服務(wù)系統(tǒng)研究[J].現(xiàn)代情報(bào),2006,,26(10):146-148.