姜建武,,李景文,陸妍玲,,葉良松
(桂林理工大學 測繪地理信息學院,,廣西 桂林 541004)
摘要:針對傳統(tǒng)信息推送服務由于缺少對用戶個人綜合因素的考慮,存在針對性差,、推廣轉(zhuǎn)化率低的問題,,在大數(shù)據(jù)理論基礎上提出了一種基于用戶畫像的智能信息推送方法。該方法將用戶抽象為結構化信息本體,,通過構建行為-主題,、主題-詞匯及行為-詞匯三位一體的數(shù)學模型,研究基于用戶畫像的信息本體提取方法,。采用包含對象,、時間、地點,、內(nèi)容,、行為和重返次數(shù)六方面內(nèi)容的事件描述法計算本體權重,以此構建用戶畫像,。設計了基于用戶畫像的智能信息推送系統(tǒng),,為大數(shù)據(jù)環(huán)境下面向用戶的智能信息推送提供了一種新的方法。
關鍵詞:用戶畫像,;信息推送,;信息本體;大數(shù)據(jù)
中圖分類號:TP399文獻標識碼:ADOI: 10.19358/j.issn.16747720.2016.23.025
引用格式:姜建武,,李景文,,陸妍玲,,等. 基于用戶畫像的信息智能推送方法[J].微型機與應用,2016,35(23):86-89,92.
0引言
基于“用戶畫像”的信息智能推送服務已經(jīng)廣泛應用于亞馬遜,、京東,、阿里、百度,、百分點,、騰訊等電商和信息服務企業(yè),國內(nèi)外眾多學者也對其進行了深入研究,。彭藝等研究了云環(huán)境下智能推送服務在數(shù)字化教學中的應用[1];顏友軍研究了移動平臺上基于本體知識庫的問答與Web服務推送系統(tǒng)[2];赫磊研究了基于云平臺的智慧旅游信息推送系統(tǒng)[3];黃舒榕提出了基于JXTA的移動智能小區(qū)信息推送服務平臺[4];劉海等采用4C理論構建了服裝領域的“用戶畫像”數(shù)據(jù)庫,,并在此基礎上構建了精準營銷細分模型[5];莫靜泱構建了B/S架構的用戶健康消費智能推送系統(tǒng)[6];肖鋒等圍繞LBS服務、情景模型和智能信息推送,,提出了基于位置的智能信息服務模式[78],。然而,這些研究都是傳統(tǒng)的信息推送方法,,缺少對用戶的偏好,、時間、購買力等個人因素的考慮,,導致推送信息泛濫,,缺乏精準性。本文研究了用戶畫像數(shù)學模型的構建及基于用戶畫像的智能信息推送方法,,通過對用戶網(wǎng)絡行為數(shù)據(jù)和個人信息數(shù)據(jù)的采集,、處理,建立用戶畫像數(shù)學模型,,提取信息本體,、計算本體權重,構建用戶個人信息畫像,,并融入信息智能推送過程,,提供面向用戶的個性化精準信息推送服務。
1構建用戶畫像數(shù)學模型
1.1信息本體的確定
用戶畫像又稱用戶角色[9],,是一種大數(shù)據(jù)環(huán)境下用戶信息標簽化方法,。信息本體是一種語義本體,分為靜態(tài)(如人口屬性,、商業(yè)屬性等)和動態(tài)兩類,。靜態(tài)本體來自用戶注冊信息,該類本體自成標簽,,在實際提取中主要進行數(shù)據(jù)清洗工作,。動態(tài)本體隱藏于用戶隨機互聯(lián)網(wǎng)行為中,具有隱蔽性,需通過數(shù)據(jù)分析,,挖掘隱藏信息并提取本體,,其提取過程如圖1所示,。
圖1中,,K表示主題集合,M表示行為集合,,Nm表示第m個行為中的詞匯個數(shù),,α,β為先驗參數(shù)。
動態(tài)本體的提取分為數(shù)據(jù)預處理,、行為主題建模,、主題詞匯建模和行為詞匯建模四個部分,其中行為主題模型與主題詞匯模型服從Dirichlet分布,,行為詞匯模型服從Multiomial分布,。
(1)行為數(shù)據(jù)預處理
首先過濾用戶行為數(shù)據(jù),去除非文本信息,,且只保留行為文本中的動詞和名詞[10],,然后求解各詞匯的TFIDF指標,保留指標在70%以上的詞匯,,構成動態(tài)本體數(shù)據(jù)源,。
其中,TF指詞項頻率,,TFIDF指逆文檔頻率[11],,TFIDF指標的計算公式為:
式(1)中,N代表互聯(lián)網(wǎng)行為總集,,ni為詞匯i出現(xiàn)過的行為集合,,j為某一行為記錄,fi,j表示詞i在j中出現(xiàn)的次數(shù)[12],。
(2)行為主題建模
從參數(shù)為α的Dirichlet分布中抽取各文檔M對應的行為主題分布模型,,記為θm,則有[10]:
其中整個行為庫中主題的生成概率為:
(3) 主題-詞匯建模
從參數(shù)為β的Dirichlet分布中抽取各主題K對應的主題-詞匯分布模型,,記為φk,,則:
其中所有主題中詞匯生成的概率為:
根據(jù)主題生成概率和詞匯生成概率得出主題詞匯的聯(lián)合分布為:
(4) 行為 詞匯建模
根據(jù)主題 詞匯分布模型和行為主題分布模型,則行為m對應的第n個詞匯的計算過程為:
?、?從θm中采樣一個主題,,記為Zm,n,則 [10]:
?、?根據(jù)計算的主題Zm,n,,從φk中取出與Zm,n對應的特定單詞Wm,n:
在以上求解過程中,Wm,n為獲取量,Zm,n為隱含量,,本文采用Gibbs Sampling采樣法求解Zm,n,,由于圖1中①和②兩過程均服從Dirichlet-Multiomial共軛分布,根據(jù)前述所得的聯(lián)合分布p(w,z|α,β),,并將行為Z中的第i個詞對應的主題記為Zi,,i表示去除下標為i的詞,假設已經(jīng)觀測的詞wi=t,,則有如下推導:
mk和kt是對應的兩個Dirichlet后驗分布在貝葉斯框架下的參數(shù)估計,,根據(jù)Dirichlet參數(shù)估計公式得[13]:
根據(jù)以上兩式,得到最終行為-詞匯模型的Gibbs Sampling公式如下[13-14]:
通過以上步驟,,提取用戶隨機互聯(lián)網(wǎng)行為中的動態(tài)信息本體,,綜合靜態(tài)信息本體,構成用戶畫像數(shù)學模型的label參數(shù),。label只能表示用戶的興趣偏向內(nèi)容,,而無法體現(xiàn)偏向程度,需計算label權重p(i),。
1.2本體權重的計算
權重用于表示用戶對某一本體的偏向程度,。靜態(tài)本體相對穩(wěn)定,權重設為1,。目前,,用戶畫像標簽權重的計算主要考慮對象、時間,、地點,、內(nèi)容4個因素,文中提出用戶隨機互聯(lián)網(wǎng)行為的對象,、時間,、地點、內(nèi)容,、行為和重返次數(shù)6因素事件描述法,,可更全面地描述用戶的隨機互聯(lián)網(wǎng)行為。采用6因素事件描述法表示的互聯(lián)網(wǎng)隨機行為動態(tài)本體的權重計算方法如下:
(1) 對象
對象即互聯(lián)網(wǎng)上區(qū)分用戶的標識(Cookie,、IP,、Email、身份證等),,不同標識的可信度不同,。對象權重為該標識可信度值與可信度值總和的比值,即:
(2) 時間
時間包含時間戳和時間間隔兩方面內(nèi)容,。時間戳用于標識事件發(fā)生,、結束的時刻,時間間隔用于標識瀏覽時間,則時間對動態(tài)本體的權重T(label)記為瀏覽本體的時間與用戶所有上網(wǎng)時間的比值,,即:
(3) 地點(接觸點)
地點是用戶互聯(lián)網(wǎng)行為的接觸點(天貓,、官網(wǎng)等),用戶行為接觸點的不同,,對標簽的影響亦不同,。為不同接觸點設置重要程度度量值,則地點對本體的權重L(label)為:
(4) 內(nèi)容
內(nèi)容是動態(tài)本體權重的重要組成部分,,標識了一個互聯(lián)網(wǎng)行為的核心,,用C(label)表示,即該動態(tài)本體包含詞匯的最大TFIDF指標:
(5) 行為
行為是用戶對網(wǎng)站內(nèi)容的操作,,如瀏覽、收藏等,,不同的行為具有的權重不同,,用A(label)表示,計算公式為:
(6) 重返次數(shù)
重返次數(shù)體現(xiàn)了用戶對該網(wǎng)站(產(chǎn)品,、內(nèi)容)的關注程度,,這將在很大程度上影響該次互聯(lián)網(wǎng)行為的“有效性”。重返次數(shù)采用R(label)表示,,其權重為該行為的重返次數(shù)與用戶所有瀏覽次數(shù)的比值,,計算公式為:
1.3用戶畫像最終數(shù)學模型
用戶畫像最終數(shù)學模型如式(18)所示。
式中l(wèi)abeli表示某一方面用戶的信息標簽,,p(i)表示該標簽的權重,,Obj(label)、T(label),、L(label),、C(label)、 A(label),、R(label)為事件對應六方面內(nèi)容對標簽的權重,,r為衰減因子,用來描述信息本體對某一標簽的興趣隨著時間變化的衰減程度,。
2基于用戶畫像的智能信息推送系統(tǒng)
推送技術的模式分為操作式推送和觸發(fā)式推送兩種[15],。基于用戶畫像的智能信息推送系統(tǒng)是操作式推送與觸發(fā)式推送的結合體,,即客戶端操作觸發(fā)信息推送與服務器主動推送二者相結合,。該系統(tǒng)分為數(shù)據(jù)獲取及處理、信息本體獲取及權重計算,、信息推送三個階段,,具體過程如下:
(1) 數(shù)據(jù)獲取及處理
用戶基本數(shù)據(jù)(年齡、體重等)通過注冊信息獲取,該部分信息相對穩(wěn)定,,為靜態(tài)信息本體(如表1所示),,權重定為1。動態(tài)本體隱藏于用戶行為中,,通過用戶互聯(lián)網(wǎng)行為抓取,,實現(xiàn)電商、社交,、媒體等信息的獲取,。對數(shù)據(jù)進行預處理,主要獲取網(wǎng)頁的標題信息,,過濾用戶行為中非文本信息,,只保留動詞與名詞,且只保留TFIDF指標在70%以上的詞匯,,并按照對象,、時間、地點,、內(nèi)容,、行為五方面內(nèi)容以天為單位存儲至數(shù)據(jù)庫(如表2所示)。
(2)動態(tài)信息本體獲取
通過行為主題建模,、主題詞匯建模,、行為詞匯建模三個過程,從用戶行為庫中挖掘動態(tài)信息本體,,提取行為主體及主題詞匯,。
(3)動態(tài)信息本體權重計算
根據(jù)對象、時間,、地點,、內(nèi)容、行為五個方面,,依據(jù)動態(tài)信息本體權重計算公式求解其聯(lián)合影響權重,。
(4)用戶畫像構建
根據(jù)步驟(1)、(2),、(3)所得結果,,結合用戶畫像數(shù)學模型,構建特定用戶的用戶畫像,,采用非關系型數(shù)據(jù)庫MongoDB以Bson格式存儲,。對用戶畫像做可視化處理,直觀顯示用戶偏向內(nèi)容及偏向程度,,如圖2所示,。
(5)信息推送
將用戶畫像中各信息本體按照權重排列,,采用LBS技術定位用戶實時位置,以位置和信息本體為查詢條件,,查詢信息數(shù)據(jù)庫,,將查詢結果組合、排序,,為用戶提供符合個人情況的智能信息,,如圖3。
3結束語
本文提出的信息本體概念利于用戶描述和計算機處理,,基于行為主題,、主題詞匯及行為詞匯模型的信息本體提取方法和采用對象、時間,、地點,、內(nèi)容、行為和重返次數(shù)的聯(lián)合影響權重計算方法構建的用戶畫像數(shù)學模型,,能夠較好地描述用戶偏好,。本文設計的基于用戶畫像的智能信息推送系統(tǒng),為大數(shù)據(jù)環(huán)境下的精準營銷提供了一種新的方法,。
參考文獻
[1] Peng Yi .An application for digital teaching of intelligent push technology under the cloud environment[C].International Conference on Social Science and Education,2013:398-403.
?。?] 顏友軍.移動平臺上基于本體知識庫的問答與Web服務推送系統(tǒng)[D].南京:南京大學,2013.
?。?] 赫磊.基于云平臺的智慧旅游信息推送系統(tǒng)研究[D].西安:西安工業(yè)大學,2014.
[4] 黃舒榕.基于JXTA的移動智能小區(qū)信息推送服務平臺的設計與實現(xiàn)[D].廈門:廈門大學,2014.
?。?] 劉海,盧慧,阮金花,等.基于“用戶畫像”挖掘的精準營銷細分模型研究[J].絲綢,2015,52(12):37-42.
?。?] 莫靜泱.基于數(shù)據(jù)挖掘的用戶個性化健康消費智能推送系統(tǒng)設計與實現(xiàn)[D].南京:南京郵電大學,2015.
[7] 肖鋒,侯岳,王留召,等.基于LBS的智能信息推送技術研究[J].測繪與空間地理信息,2015 (6):125-127.
?。?] 肖鋒,侯岳,賈寶.情境建模下的LBS智能信息服務推送方法[J].測繪通報,2016(4):96-98.
?。?] 余孟杰.產(chǎn)品研發(fā)中用戶畫像的數(shù)據(jù)建模——從具象到抽象[J].設計藝術研究,2014,,4(6):62-64.
?。?0] 何建云,陳興蜀,杜敏,等.基于改進的在線LDA模型的主題演化分析[J].中南大學學報(自然科學版),2015(2):547-553.
?。?1] 周品.云時代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013.
?。?2] 張亮.數(shù)字圖書館多層次閱讀擴展系統(tǒng)[D].杭州:浙江大學,2010.
[13] LDA math LDA [EB/OL].(2013-02-03)[2016-07-30].https://www.baidu.com/link?url=7pX4p07QnrELNMnz Fp8w_tOVaZQjd_M_YCzHJ3K76EkWWlLdGHKTz7O0 BUQlsgOrp5zWAa87JtJ082036AWV_DTPWUPvUrK 0x9U8Wc44_&wd=&eqid=d0a6f0b80002a92f000000035672ad45.
?。?4] GREGOR Heinrich. Parameter estimation for text analysis[R].Darmstadt: Fraunhofer,2009:17-30.
?。?5] 石巖.基于智能推送技術的個性化服務系統(tǒng)研究[J].現(xiàn)代情報,2006,,26(10):146-148.