《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 淘寶商品評(píng)價(jià)屬性分類(lèi)研究
淘寶商品評(píng)價(jià)屬性分類(lèi)研究
摘要: 淘寶開(kāi)放平臺(tái)是一個(gè)綜合性,、商業(yè)性的開(kāi)放平臺(tái)[1],。TOP發(fā)布的API涵蓋了商品、產(chǎn)品,、類(lèi)目,、用戶(hù),、交易、評(píng)價(jià)和物流等不同專(zhuān)業(yè)領(lǐng)域的開(kāi)放接口,。使用這些預(yù)先定義好的函數(shù),,可以更加方便、快捷地調(diào)用這些接口來(lái)完成一些有關(guān)處理工作,。
Abstract:
Key words :

  摘  要: 設(shè)計(jì)了一個(gè)基于API技術(shù)的淘寶商品評(píng)價(jià)分類(lèi)系統(tǒng),。利用淘寶開(kāi)放平臺(tái)提供的API接口獲取商品評(píng)價(jià)信息,然后將這些評(píng)價(jià)信息按照質(zhì)量,、物流以及服務(wù)態(tài)度等屬性分別分出好評(píng)和差評(píng),,通過(guò)對(duì)典型操作實(shí)例的理論分析和實(shí)驗(yàn)結(jié)果,驗(yàn)證了該方法的有效性,。

  關(guān)鍵詞淘寶API,;評(píng)價(jià)屬性,;評(píng)價(jià)分類(lèi)

  淘寶開(kāi)放平臺(tái)是一個(gè)綜合性、商業(yè)性的開(kāi)放平臺(tái)[1],。TOP發(fā)布的API涵蓋了商品,、產(chǎn)品、類(lèi)目,、用戶(hù),、交易、評(píng)價(jià)和物流等不同專(zhuān)業(yè)領(lǐng)域的開(kāi)放接口,。使用這些預(yù)先定義好的函數(shù),,可以更加方便、快捷地調(diào)用這些接口來(lái)完成一些有關(guān)處理工作,。

  淘寶網(wǎng)作為國(guó)內(nèi)最大的電商網(wǎng)站,,每月每天甚至每小時(shí)的交易量都是相當(dāng)大的,而作為買(mǎi)家在淘寶網(wǎng)上購(gòu)買(mǎi)商品之后,,無(wú)論對(duì)商品滿(mǎn)意與否,,都可以通過(guò)淘寶網(wǎng)提供的商品評(píng)價(jià)系統(tǒng)對(duì)所購(gòu)買(mǎi)的商品作出自己的評(píng)價(jià),這就產(chǎn)生了大量的評(píng)價(jià)信息,。這些評(píng)價(jià)對(duì)今后購(gòu)買(mǎi)同種商品的買(mǎi)家可以產(chǎn)生重要的指導(dǎo)作用;評(píng)價(jià)信息里反映出的買(mǎi)家對(duì)商品比較關(guān)注的一些問(wèn)題也為賣(mài)家不斷改進(jìn)商品提供了方向,。

  但是目前淘寶評(píng)價(jià)系統(tǒng)只是單純地將買(mǎi)家的評(píng)價(jià)羅列在產(chǎn)品信息頁(yè)面上,,這些評(píng)價(jià)包含了買(mǎi)家對(duì)該商品在做工、款式,、服務(wù)態(tài)度,、發(fā)貨速度和物流速度等相關(guān)評(píng)價(jià)屬性的信息反饋,這對(duì)想查看該商品某種評(píng)價(jià)屬性信息的買(mǎi)家和賣(mài)家?guī)?lái)了很大的困難,。有些商品評(píng)價(jià)信息較少,,可以通過(guò)逐條查看的方法來(lái)獲取需要的信息。但是對(duì)于有幾千條甚至上萬(wàn)條評(píng)價(jià)信息的商品來(lái)說(shuō),,逐條查看必定會(huì)耗費(fèi)大量的精力,,也無(wú)法取得較好的效果。同時(shí),,淘寶提供的好評(píng),、中評(píng)和差評(píng)都是由買(mǎi)家人工選擇的。有時(shí)候買(mǎi)家對(duì)商品并不很滿(mǎn)意,,但是由于賣(mài)家服務(wù)態(tài)度較好等原因也給出了好評(píng),;而有些差評(píng)則是因?yàn)橘u(mài)家服務(wù)態(tài)度不好或者物流送貨不及時(shí)等原因,但是商品本身質(zhì)量并沒(méi)有問(wèn)題,,這就對(duì)信息獲取造成了誤差,。針對(duì)上面的問(wèn)題設(shè)計(jì)并實(shí)現(xiàn)的淘寶商品評(píng)價(jià)屬性分類(lèi)系統(tǒng),,利用淘寶開(kāi)放平臺(tái)提供的API技術(shù)獲取相關(guān)評(píng)價(jià)信息,然后按質(zhì)量,、物流和服務(wù)這3項(xiàng)關(guān)注度最高的屬性將評(píng)價(jià)信息進(jìn)行分類(lèi),,并對(duì)每種屬性按評(píng)價(jià)內(nèi)容情感傾向度分別判別出好評(píng)和差評(píng)。本系統(tǒng)實(shí)現(xiàn)了買(mǎi)家在淘寶網(wǎng)意向商品的大量評(píng)價(jià)中篩選出自己希望了解的關(guān)于商品某屬性的評(píng)價(jià)信息,,同時(shí)也幫助賣(mài)家了解在售商品各個(gè)屬性的買(mǎi)家反饋信息,,更好地改進(jìn)商品。

  1 相關(guān)工作

  本系統(tǒng)通過(guò)評(píng)價(jià)API接口獲取商品評(píng)價(jià)信息作為基本的數(shù)據(jù)來(lái)源,。系統(tǒng)中的商品評(píng)價(jià)主要分為兩類(lèi),。(1)按照商品屬性進(jìn)行分類(lèi)。商品的屬性特征都是由它的特征詞來(lái)表現(xiàn)的,,主要是能夠定義屬性的名詞或者名詞短語(yǔ),。本系統(tǒng)將評(píng)價(jià)信息按照質(zhì)量、服務(wù),、物流3個(gè)屬性進(jìn)行分類(lèi),。(2)按照情感傾向度進(jìn)行分類(lèi)。本系統(tǒng)提取評(píng)價(jià)信息中的情感詞并按照一定規(guī)則組成短語(yǔ)模型與事先建立好的短語(yǔ)模型情感傾向庫(kù)進(jìn)行匹配,,開(kāi)發(fā)了一種計(jì)算情感傾向度的算法,,按照此算法將商品的每個(gè)屬性都分為了好評(píng)和差評(píng)。

  2 系統(tǒng)的具體設(shè)計(jì)

  2.1 評(píng)價(jià)API獲取評(píng)價(jià)內(nèi)容

  該模塊主要是獲取評(píng)價(jià)文本和文本轉(zhuǎn)存兩個(gè)功能,。使用API要先創(chuàng)建一個(gè)ITopClient對(duì)象,,向接口地址http://gw.api.taobao.com/router/rest發(fā)起連接請(qǐng)求,請(qǐng)求成功后,,建立TraderatesGetRequest評(píng)價(jià)文本查詢(xún)請(qǐng)求對(duì)象,,設(shè)置請(qǐng)求的字段和參數(shù),再建立TraderatesGetResponse對(duì)象接收返回的數(shù)據(jù),,把獲得評(píng)價(jià)文本內(nèi)容保存到文本文件,。格式是Json字符串。

  2.2 建立商品屬性特征詞庫(kù)

  商品特征詞的抽取主要有分詞標(biāo)注和按規(guī)則抽取特征詞兩個(gè)步驟,。

 ?。?)要抽取特征詞,必須要用分詞工具先把句子分成詞語(yǔ),,然后對(duì)詞性進(jìn)行標(biāo)注,,才能分析每個(gè)詞語(yǔ)的意義。使用SHARPICTCLAS分詞工具分詞標(biāo)注,,例如:衣服/n很/d/a,!/w很/d合身/a!/w店家/n服務(wù)/vn態(tài)度/n也/d很/d好/a,,/w雖然/c中間/f出/v了/ul點(diǎn)/q小/a插曲/n,,/w但是/c很/d快/a都/d給/v解決/v了/y,。/w店家/n工作/vn相當(dāng)/d給/p力/n。/w快遞/vn也/d很/d給/p力/n,!/w贊/vg一個(gè)/m,!/w

  (2)分詞標(biāo)注之后,,還要過(guò)濾掉一些沒(méi)有意義或者不是想要的詞,。首先就是根據(jù)詞性過(guò)濾。例如店家/n服務(wù)/vn態(tài)度/n也/d很/d好/a,,這個(gè)是標(biāo)注完畢的句子,,看到“服務(wù)態(tài)度”這個(gè)名詞短語(yǔ)其實(shí)就是商品服務(wù)的一個(gè)特征,也可以簡(jiǎn)化成“態(tài)度”,。前面提過(guò),,只有名詞或名詞短語(yǔ)才能表示商品的屬性特征,所以可以把名詞短語(yǔ)以外的非名詞詞語(yǔ)過(guò)濾掉,,上面的例子過(guò)濾后就是“店家/n服務(wù)/vn態(tài)度/n”,,其他詞性就不要了。然后再根據(jù)手工收集的一些無(wú)意義詞文件,,過(guò)濾掉無(wú)意義詞,,最后去除詞性標(biāo)注,合并同類(lèi)項(xiàng),,再利用Apriori算法中的頻繁項(xiàng)定義,,過(guò)濾掉噪音詞,屬性特征詞庫(kù)就建立了[2],。將需要分類(lèi)的評(píng)價(jià)信息分詞標(biāo)注之后與屬性特征詞庫(kù)進(jìn)行匹配,實(shí)現(xiàn)按照商品評(píng)價(jià)屬性分類(lèi),。

  2.3 基于構(gòu)造短語(yǔ)模型的情感分類(lèi)方法設(shè)計(jì)

  文本中能表達(dá)情感傾向的詞語(yǔ)組成的短語(yǔ)模型是判斷文本情感傾向的基礎(chǔ),,文本最終的情感傾向和短語(yǔ)模型所表達(dá)出的情感傾向是一致的。本文的情感分類(lèi)方法包括兩部分,。(1)建立情感詞詞庫(kù)和短語(yǔ)模型庫(kù),,其中情感詞詞庫(kù)就是抽取的有情感傾向的詞,短語(yǔ)庫(kù)是從訓(xùn)練文本中選取的比較有代表性的短語(yǔ)模型,,計(jì)算它們的情感傾向值,,組成一個(gè)短語(yǔ)模型的匹配庫(kù)[3]。(2)進(jìn)行情感分類(lèi),,對(duì)一個(gè)新文本進(jìn)行分析,,得出其情感傾向。

  2.3.1 建立情感詞詞庫(kù)

  一篇文本中有很多詞語(yǔ)都能表達(dá)情感,,需要知道哪幾個(gè)詞的情感傾向性最強(qiáng)?,F(xiàn)在已經(jīng)有了不少成熟的提取情感詞的算法,,由于本系統(tǒng)是針對(duì)淘寶網(wǎng)這個(gè)特定領(lǐng)域的評(píng)價(jià)信息,這些評(píng)價(jià)信息情感詞的精確度比較高而且量也不太大,,所以采用人工選取的方法從200篇好評(píng)樣本和200篇差評(píng)樣本中人為地選出情感詞[4],,并與中國(guó)知網(wǎng)情感詞庫(kù)共同組成情感詞庫(kù)。

  2.3.2 建立短語(yǔ)模型

  在分析文本時(shí),,僅僅依靠情感詞的情感傾向性來(lái)判斷文本的情感傾向性是不準(zhǔn)確的,,需要找出情感詞對(duì)應(yīng)的評(píng)價(jià)對(duì)象,把情感詞和評(píng)價(jià)對(duì)象組成情感模型,,然后把這些情感模型作為判斷文本情感傾向的基本元素[5],。

  首先找出樣本中出現(xiàn)的情感模型,同時(shí)找出與之相關(guān)的連詞,、副詞,、否定詞,然后把他們組合成短語(yǔ)模型,,利用這些短語(yǔ)模型去分析情感傾向,。基于短語(yǔ)模型的情感分類(lèi)的方法目前有很多,,本系統(tǒng)選用了如表1的短語(yǔ)模型[2,,6]。

03G65BT3NHJ`2`_{RAH9D5I.jpg

  抽取的短語(yǔ)模型不是一般語(yǔ)法意義上的短語(yǔ),,而是從文本中選取能表達(dá)情感的詞按照短語(yǔ)模型規(guī)則組合成的,。

  把從樣本中選出的情感詞以及相關(guān)的連詞、副詞,、否定詞和評(píng)價(jià)對(duì)象進(jìn)行二次標(biāo)注[3,,7],約定:

 ?。?)在好評(píng)情感詞前面加注“@!”,;

  (2)在差評(píng)情感詞前面加注“@,?”,;

  (3)在連詞,、代詞前面加注“@”,;

  (4)在評(píng)價(jià)對(duì)象前面標(biāo)注“@*”,;

 ?。?)在否定詞前面標(biāo)注“@~”。

  根據(jù)表1所示的短語(yǔ)模型,用以下選取短語(yǔ)模型的算法,。

 ?。?)尋找標(biāo)注為“@*”的短語(yǔ);

 ?。?)如果沒(méi)有找到標(biāo)注為“@*”的短語(yǔ),,則跳到(6);

 ?。?)如果找到標(biāo)注為“@*”的短語(yǔ),,則尋找標(biāo)注為“@!”、“@,?”的短語(yǔ),;

  (4)如果沒(méi)有找到標(biāo)注為“@!”,、“@,?”的短語(yǔ),則跳到(6),;

 ?。?)取出標(biāo)注為“@”的短語(yǔ),加上(2)和(3)中找到的短語(yǔ),,把這些短語(yǔ)按原來(lái)的順序組成一個(gè)短語(yǔ)模型,;

  (6)處理下一個(gè)訓(xùn)練語(yǔ)料,,重新從(1)開(kāi)始執(zhí)行,,循環(huán)。

  2.3.3 計(jì)算短語(yǔ)模型情感傾向

  通過(guò)上面介紹的方法,,已經(jīng)建好了短語(yǔ)模型,,然而每個(gè)短語(yǔ)模型表達(dá)的情感傾向以及強(qiáng)度是不盡相同的。人工將傾向于好評(píng)的短語(yǔ)模型賦值1,,傾向于差評(píng)的短語(yǔ)模型賦值-1的話(huà),,最后的分析結(jié)果誤差明顯比較大,無(wú)法得到比較好的效果,。

  本文采用的短語(yǔ)模型情感傾向值的計(jì)算方法為統(tǒng)計(jì)一個(gè)短語(yǔ)模型在好評(píng)情感短語(yǔ)模型中出現(xiàn)的次數(shù)(記為Gi)和在差評(píng)情感短語(yǔ)模型中出現(xiàn)的次數(shù)(記為Bi),然后計(jì)算Gi與Bi的比值,,具體計(jì)算公式如式(1)所示:

  V=log2(Gi/Bi) Gi≠0andBi≠0 log2((Gi+1)/Bi+1)) Gi=0orBi=0 (1)

  由計(jì)算出來(lái)的表2和公式(1)可知:

EOS%P~2YQC}@5QVQCT928CP.jpg

 ?。?)當(dāng)0<Gi<Bi時(shí),V<0,,該短語(yǔ)模型表達(dá)的是差評(píng)的情感傾向,;

  (2)當(dāng)Gi>Bi>0時(shí),V>0,,該短語(yǔ)模型表達(dá)的是好評(píng)的情感傾向,;

  (3)當(dāng)Gi=Bi時(shí),,V=0,,無(wú)法確定該短語(yǔ)模型的情感傾向,需要根據(jù)實(shí)際情況進(jìn)行判斷,;

 ?。?)當(dāng)Gi=0,Bi≠0時(shí),,V<0,,該短語(yǔ)模型表達(dá)的是差評(píng)的情感傾向;

 ?。?)當(dāng)Gi≠0,,Bi=0時(shí),V>0,,該短語(yǔ)模型表達(dá)的是好評(píng)的情感傾向,。

  2.3.4 計(jì)算評(píng)價(jià)文本情感傾向值

  有了短語(yǔ)模型的情感傾向值,就可以分析評(píng)價(jià)文本的情感傾向了,。評(píng)價(jià)文本都是由一個(gè)個(gè)句子組成,,而句子可以分詞標(biāo)注后組成短語(yǔ)模型,所以評(píng)價(jià)文本的情感傾向值是由其分解出的短語(yǔ)模型情感傾向值加成得到的,。具體公式如下:

  S=Vi(i≥0)(2)

 ?。?)如果S>0,判定這條評(píng)價(jià)文本為好評(píng),;

 ?。?)如果S<0,判定這條評(píng)價(jià)文本為差評(píng),;

 ?。?)如果S=0,判定這條評(píng)價(jià)文本為中評(píng),。

  3 實(shí)驗(yàn)結(jié)果分析

  通過(guò)淘寶評(píng)價(jià)API接口獲取某女裝的好評(píng),、差評(píng)各300條評(píng)價(jià)作為測(cè)試的數(shù)據(jù)來(lái)源如表3所示。

  經(jīng)過(guò)簡(jiǎn)單過(guò)濾,,過(guò)濾掉一些無(wú)意義的評(píng)價(jià),,如“好!”,,“good”,,“……”等無(wú)意義的評(píng)價(jià),然后手工分別篩選出224條好評(píng)和224條差評(píng),選取數(shù)目相等,,是為了比較直觀,。將獲取的評(píng)價(jià)數(shù)據(jù)導(dǎo)入系統(tǒng)中,首先進(jìn)行分詞標(biāo)注:

  0衣服/n很/d好/a,!/w很/d合身/a,!/w店家/n服務(wù)/vn態(tài)度/n也/d很/d好/a,/w<br/>/nx雖然/c中間/f出/v了/ul點(diǎn)/q小/a插曲/n,,/w但是/c很/d快/a都/d給/v解決/v了/y,。/w<br/>/nx店家/n工作/vn相當(dāng)/d給/p力/n。/w<br/>/nx快遞/vn也/d很/d給/p力/n,!/w贊/vg一個(gè)/m,!/w<br/>/nx

  經(jīng)過(guò)初步的分詞標(biāo)注,整個(gè)評(píng)價(jià)內(nèi)容結(jié)構(gòu)已經(jīng)清晰,,然后按照上文中的約定對(duì)評(píng)價(jià)內(nèi)容進(jìn)行二次標(biāo)注,。標(biāo)注結(jié)果如下:

  衣服/@*n很/d好/@!a。很/d合身/@!a,。店家/@*n服務(wù)/@*vn態(tài)度/@*n也/d很/d好/@!a,。<br/>/nx雖然/@c中間/f出/v了/ul點(diǎn)/q小/@?a插曲/@*n。但是/@c很/d快/@!a都/d給/v解決/v了/y,。<br/>/nx店家/@*n工作/@*vn相當(dāng)/@!d給/p力/@*n,。<br/>/nx快遞/@*vn也/d很/d給/p力/@*n。贊/vg一個(gè)/m,。<br/>/nx,。

A4FD%YM}B5_9]28GJELS4B8.jpg

  根據(jù)“二次標(biāo)注”結(jié)果,抽取評(píng)價(jià)文本的每個(gè)句子的短語(yǔ)模型,,與短語(yǔ)模型情感傾向庫(kù)對(duì)比,,匹配極性情感值,將每個(gè)短語(yǔ)模型的情感值相加,,就是整個(gè)文本的情感值,。同時(shí)還要對(duì)照分類(lèi)特征詞,如果評(píng)價(jià)文本中句子含有上述特征詞的,,就把這個(gè)文本劃分到對(duì)應(yīng)的分類(lèi),,做上標(biāo)記,同時(shí),,這個(gè)句子的情感傾向值也是這個(gè)文本在這個(gè)分類(lèi)上的情感傾向表示,。

  表4所示是本項(xiàng)目在實(shí)踐過(guò)程中的實(shí)驗(yàn)結(jié)果。

TQRHPDC%9[OM~Z@ZXFY[W7B.jpg

  經(jīng)過(guò)人工排除異類(lèi),,盡可能保證測(cè)試文本類(lèi)別正確的情況下,看到差評(píng)的查準(zhǔn)率有83.9%,要比好評(píng)的查準(zhǔn)率82.6%高,,而且中評(píng)數(shù)量上的判斷結(jié)果(28>17)也高,。這是由于在淘寶上顧客表達(dá)厭惡和憤怒的情感要更明確一些,有些顧客有不滿(mǎn)意的地方,,但是可能還是給予好評(píng),,只是表達(dá)勉強(qiáng),所以好的情感表達(dá)上就會(huì)模糊,,相比之下,,差評(píng)更容易判斷。

  通過(guò)表4可以看出,,兩類(lèi)評(píng)價(jià)由情感傾向值累加得出的情感傾向值的方法的查準(zhǔn)率都達(dá)到80%以上,,說(shuō)明采用情感傾向值累加的方法效果還不錯(cuò),在抽取少量樣本的情況下,,能比較準(zhǔn)確細(xì)致地判斷文本的真實(shí)情感傾向,。但是效果還不夠好,如何選取準(zhǔn)確的評(píng)價(jià)對(duì)象,,抽取真正的短語(yǔ)模型,,使方法結(jié)果逼近真實(shí)將是繼續(xù)研究的方向。

  參考文獻(xiàn)

  [1] 孫穎.淘寶開(kāi)放平臺(tái)[J].程序員,,2009(8):43-45.

  [2] TURNEY P D. Thumbs up or thumbs down: semantic orientation applied to unsupervised classification of reviews[C]. Proceedings of the 40th Annual Meeting on Association for Computational Linguistics,, Association for Computational Linguistics, 2002.

  [3] TURNEY P D,, LITTMAN M L. Measuring praise and criticism: Inference of semantic orientation from association[J]. ACM Transactions on Information Systems(TOIS),, 2003, 21(4): 315-346.

  [4] XU K,, LIAO S S,, LI J, et al. Mining comparative opinions from customer reviews for competitive intelligence[J]. Decision support systems,, 2011,,50(4):743-754.

  [5] LIU B. Opinion mining and sentiment analysis[M]. Web Data Mining. Springer Berlin Heidelberg, 2011.

  [6] 方美玉,,鄭小林,,陳德人,等.商品評(píng)論聚焦爬蟲(chóng)算法設(shè)計(jì)與實(shí)現(xiàn)[J].吉林大學(xué)學(xué)報(bào)(工學(xué)版),,2012(51):1.

  [7] 陳濤,,徐睿峰,吳明芬,,等.一種基于情感句模的文本情感分類(lèi)方法[J].中文信息學(xué)報(bào),,2013,,27(5):67-74.

  [8] 李綱,王忠義,,寇廣增.情感分類(lèi)中情感詞的情感傾向度的計(jì)算方法研究[J].情報(bào)學(xué)報(bào),,2011,30(3):292-298.

  [9] LI S S,, HUANG C R,, ZONG C Q. Multi-domain sentiment classification with classifier combination[J]. Journal of Computer Science and Technology, 2011,,26(1):25-33.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。