基于網(wǎng)絡搜索數(shù)據(jù)的品牌汽車銷量預測研究-AET-電子技術(shù)應用

基于網(wǎng)絡搜索數(shù)據(jù)的品牌汽車銷量預測研究

謝天保,崔田

（西安理工大學，陜西西安 710054）

摘要： 隨著大數(shù)據(jù)時代的到來，基于網(wǎng)絡數(shù)據(jù)的應用研究已成為熱點。以品牌汽車銷量預測為目標，將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇方法相結(jié)合，選取相關(guān)品牌的網(wǎng)絡搜索數(shù)據(jù)關(guān)鍵特征，而后建立了LASSO線性回歸、支持向量回歸和隨機森林三種機器學習預測模型，并與傳統(tǒng)ARIMA模型進行比較分析。實驗結(jié)果表明，隨機森林模型的預測平均誤差為6.4%，比ARIMA模型降低了12.2個百分點，預測結(jié)果可為汽車企業(yè)生產(chǎn)規(guī)劃和制定營銷方案提供有效的決策支持。

關(guān)鍵詞： 網(wǎng)絡搜索數(shù)據(jù) 汽車銷量預測 LASSO特征選擇機器學習算法

中圖分類號：F272.1；TP181
文獻標識碼：A
DOI： 10.19358/j.issn.2096-5133.2018.08.012
中文引用格式：謝天保,崔田.基于網(wǎng)絡搜索數(shù)據(jù)的品牌汽車銷量預測研究［J］.信息技術(shù)與網(wǎng)絡安全，2018,37（8）：50-53.

Research on brand vehicle sales forecasting based on network search data

Xie Tianbao，Cui Tian

（Xi’an University of Technology, Xi’an 710054, China）

Abstract： With the advent of the big data era, application research based on network data has become a hot spot. Aiming at brand car sales forecasting,this paper combined the traditional correlation analysis with the LASSO feature selection method to select the key features of the web search data of the related brands, and then established three machine learning prediction models of penalty linear regression, support vector regression and random forest and compared with the traditional ARIMA model. The experimental results show that the average prediction error of random forest model is 6.4%, which is 12.2% lower than that of ARIMA model. The forecast results can provide more effective decision support for the production planning and marketing plan of automobile manufacturing enterprises.

Key words : network search data;vehicle sales forecasting;LASSO feature selection; machine learning algorithm

0 引言

近年來，我國汽車產(chǎn)銷呈現(xiàn)較快增長，產(chǎn)銷總量屢創(chuàng)歷史新高，據(jù)中國汽車工業(yè)協(xié)會統(tǒng)計數(shù)據(jù)，2016年中國汽車產(chǎn)銷均超2 800萬輛，連續(xù)八年蟬聯(lián)全球第一^［1］。據(jù)車主之家網(wǎng)站提供的數(shù)據(jù)顯示，2009~2016年我國銷量排名前十的品牌汽車占比高達55.84%，對于我國汽車消費者而言，品牌效應十分顯著。但是汽車生產(chǎn)廠商追求規(guī)模效應時存在一定的盲目性，導致產(chǎn)能過剩的問題日益凸顯。在嚴峻的形勢下，汽車生產(chǎn)企業(yè)應認真分析市場未來的需求量和可能存在的變化趨勢，合理規(guī)劃生產(chǎn)計劃，采用以銷定產(chǎn)的生產(chǎn)策略。因此如何準確地預測銷量，對于汽車生產(chǎn)企業(yè)研究市場行情及時調(diào)整生產(chǎn)經(jīng)營策略有著極其重要的意義。隨著人工智能的出現(xiàn)以及基于網(wǎng)絡數(shù)據(jù)的預測研究的廣泛開展，將網(wǎng)絡搜索數(shù)據(jù)應用于汽車銷量的預測已成為研究的熱點。

傳統(tǒng)的汽車銷量預測研究采用的主要方法有灰色系統(tǒng)理論^［2］、時間序列模型^［3］以及人工神經(jīng)網(wǎng)絡^［4］等，但這些研究采用的數(shù)據(jù)時間粒度比較大，研究對象大都集中于我國汽車年度總銷量的預測，研究成果難以應用推廣。文獻［5］在建立網(wǎng)絡關(guān)鍵詞搜索數(shù)據(jù)與汽車銷量理論框架的基礎(chǔ)上，使用自動推薦技術(shù)選取關(guān)鍵詞并進行關(guān)鍵詞合成，然后針對不同價格區(qū)間的汽車銷量與相應合成指數(shù)進行建模預測且平均絕對誤差百分數(shù)均不超過4%，但是同一價格區(qū)間內(nèi)包含眾多不同品牌車型，預測結(jié)果無法提供有價值的決策支持；文獻［6］、文獻［7］針對大眾途觀和寶馬汽車銷量進行預測研究，通過人工方式進行網(wǎng)絡數(shù)據(jù)關(guān)鍵詞的選取，發(fā)現(xiàn)加入百度關(guān)鍵詞作為解釋變量的模型相比傳統(tǒng)的ARMA模型，預測精度有了一定程度的提高；文獻［8］利用經(jīng)濟變量和谷歌在線搜索數(shù)據(jù)建立預測月度汽車銷售數(shù)據(jù)的多變量模型，結(jié)果表明包括谷歌搜索數(shù)據(jù)在內(nèi)的模型在統(tǒng)計上超過了大多數(shù)預測領(lǐng)域的傳統(tǒng)模型；文獻［9］提出了一種搜索數(shù)據(jù)關(guān)鍵特征選取方法，但是該選取方法最終僅僅保留了相關(guān)性最高的一個關(guān)鍵特征，難免會造成有效信息的損失。

綜上所述，目前的研究存在的問題包括研究對象與時間粒度選擇不當，網(wǎng)絡數(shù)據(jù)特征分析及選取的科學體系暫未形成，傳統(tǒng)模型預測性能具有局限性。本文擬基于網(wǎng)絡搜索數(shù)據(jù)，將品牌汽車銷量作為研究對象，時間粒度選取為月度，將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇方法相結(jié)合，篩選出最優(yōu)的關(guān)鍵特征數(shù)據(jù)，然后應用多種機器學習算法建立品牌汽車銷量的預測模型，從而實現(xiàn)針對性更強、更準確、更具有應用價值的品牌汽車銷量的預測。

1 網(wǎng)絡搜索數(shù)據(jù)關(guān)鍵特征選取

本文選取“大眾”、“本田”、“奧迪”三個比較有代表性的品牌汽車作為研究對象，收集了2011年1月~2017年12月期間各品牌汽車月度銷量數(shù)據(jù)。根據(jù)消費者購買決策過程，消費者在產(chǎn)生購車需求后，大多數(shù)購車消費者都會通過搜索引擎從網(wǎng)絡中快速獲取到所需要的信息，而關(guān)鍵詞搜索是在線信息搜索時最常用的策略，所以將用戶搜索關(guān)鍵詞作為網(wǎng)絡搜索數(shù)據(jù)的關(guān)鍵特征。本文選擇國內(nèi)應用最為廣泛的百度搜索引擎的百度指數(shù)作為網(wǎng)絡搜索關(guān)鍵詞數(shù)據(jù)來源。下面以“大眾”品牌汽車為例進行詳細說明。

1.1 關(guān)鍵詞的選取及拓展

本文采用文本挖掘的方法，結(jié)合汽車品牌、熱銷車型信息、車型配置指標數(shù)據(jù)等各個方面的信息，對網(wǎng)絡上與大眾品牌汽車相關(guān)的新聞、論壇文章、點評、分享交流等信息進行查找收集，剔除掉一些無用信息后，再使用NLPIR漢語分詞系統(tǒng)對原始文本進行關(guān)鍵詞提取，得到關(guān)鍵詞列表及其權(quán)重，選定其中權(quán)值較高的“大眾”、“大眾4S店”、“大眾SUV”、“大眾POLO”、“大眾商務車”等為初始關(guān)鍵詞。然后圍繞選取的初始關(guān)鍵詞綜合使用了長尾關(guān)鍵詞拓展法、站長工具以及網(wǎng)頁相關(guān)搜索推薦等方法拓展出數(shù)量更多的關(guān)鍵詞，剔除重復或者有歧義的關(guān)鍵詞后建立了一個包含276個關(guān)鍵詞的初始詞庫。

1.2 關(guān)鍵詞搜索指數(shù)相關(guān)性分析

首先利用網(wǎng)絡爬蟲工具獲取初始詞庫中各關(guān)鍵詞相同時間段內(nèi)月度搜索數(shù)據(jù)，針對關(guān)鍵詞搜索數(shù)據(jù)進行預處理（剔除缺失數(shù)據(jù)超過6個月或者搜索指數(shù)過低的關(guān)鍵詞數(shù)據(jù)），最后得到118個符合要求的關(guān)鍵詞搜索數(shù)據(jù)。但是并不是每個關(guān)鍵詞搜索數(shù)據(jù)都與實際銷量存在相關(guān)關(guān)系。所以本文首先應用傳統(tǒng)相關(guān)性分析方法通過判定各個關(guān)鍵詞搜索數(shù)據(jù)與大眾品牌汽車銷量的Spearman秩相關(guān)系數(shù)，篩選出相關(guān)系數(shù)大于0.5的搜索關(guān)鍵詞（顯著相關(guān)），共計37個。然后采用時差相關(guān)分析確定上一步篩選出的關(guān)鍵詞搜索指數(shù)與大眾品牌汽車銷量的時滯階數(shù)均處于滯后1~3階的范圍（網(wǎng)絡搜索行為是一種即時性行為，而購買汽車作為重大經(jīng)濟決策，消費者一般都會在做出購買決策前幾個月就開始搜索相關(guān)的信息）。

現(xiàn)有研究針對相關(guān)性分析結(jié)果一般有兩種處理方法:第一種是直接選取相關(guān)性最高的作為唯一的解釋變量；第二種是利用指數(shù)合成方法將合成后的關(guān)鍵指數(shù)作為解釋變量。兩種方法難免都會造成有效信息的損失。但是若保留所有的解釋變量，解釋變量之間也可能存在多重共線性，所以本文在相關(guān)性分析基礎(chǔ)上應用LASSO算法來進一步分析與選取特征^［10］。

1.3 基于LASSO的特征選取

在高維數(shù)據(jù)變量選擇方法的研究領(lǐng)域中，Tibshirani在1996年提出普通線性模型下的Least Absolute Shrinkage and Selection Operate(LASSO)算法，LASSO算法就是在損失函數(shù)后面加上懲罰項（即L1正則項），L1正則項可以約束方程的稀疏性，這種稀疏性即可應用于特征的選擇，這種方法與傳統(tǒng)的算法相比優(yōu)點在于可以在進行連續(xù)的變量選擇的同時進行模型參數(shù)估計^［11］。而且LASSO算法可以有效解決解釋變量多重共線性的問題，使得后續(xù)建立的模型擁有穩(wěn)定的性能。

針對上一節(jié)相關(guān)性分析結(jié)果，采用R語言中的glmnet包實現(xiàn)的LASSO算法對關(guān)鍵詞搜索數(shù)據(jù)進行分析與特征選取。通過分析模型的Lambda解路徑圖可以發(fā)現(xiàn)，隨著懲罰的力度加大，越來越多的變量系數(shù)會被壓縮為0，而那些在Lambda比較大時仍然擁有非零系數(shù)的變量就是越重要的解釋變量^［12-13］。本文選取平均絕對誤差（MAE）作為評價指標，通過交叉驗證得到最優(yōu)Lambda值，模型MAE與Lambda之間的關(guān)系如圖1所示。

微信截圖_20180922160501.png

圖1中左側(cè)虛線是最佳Lambda取值（lambda.min=0.143 065），也就是模型MAE最低時的Lambda取值，此時非零系數(shù)的變量個數(shù)僅為12個，相比之前37個關(guān)鍵詞特征數(shù)據(jù)已經(jīng)大幅度地縮減。通過查看coefficients參數(shù)可以得到模型的Intercept為5.630 547 963 2，所選取的關(guān)鍵詞變量及其所對應的參數(shù)估計如表1所示。

微信截圖_20180922160551.png

至此，本文首先進行關(guān)鍵詞的選取及拓展，然后將傳統(tǒng)相關(guān)性分析與基于LASSO的特征選擇相結(jié)合應用于搜索數(shù)據(jù)關(guān)鍵詞選取，最終選出針對“大眾”品牌汽車的12個網(wǎng)絡搜索數(shù)據(jù)關(guān)鍵特征。使用同樣的方法，篩選得出“本田”及“奧迪”品牌汽車對應的網(wǎng)絡搜索數(shù)據(jù)關(guān)鍵特征分別為12個和13個。

2 實驗分析與討論

通過LASSO算法的應用有效地解決了解釋變量多重共線性的問題，同時在特征選擇的過程中也得到了LASSO線性回歸模型參數(shù)估計，但是該模型及現(xiàn)有研究大都使用基于最小二乘法的線性回歸模型，都無法解決異方差性及解釋變量與被解釋變量非線性關(guān)系的問題，這就會增加系數(shù)估計值的方差，結(jié)果造成系數(shù)估計值不穩(wěn)定，對異常值非常敏感，繼而會嚴重影響回歸線，最終影響預測值的準確度^［14］。所以本文又選取了兩種非線性的機器學習算法建立模型并進行詳細的對比分析。

本文選取2011年1月~2016年12月的數(shù)據(jù)作為訓練集，將2017年12個月的數(shù)據(jù)作為測試集，采用R語言針對“大眾”、“本田”、“奧迪”品牌汽車的銷量預測建立了支持向量回歸模型及隨機森林模型，按照MAE值最小原則應用網(wǎng)格搜索法（GridSearch）進行模型參數(shù)調(diào)優(yōu)，同時針對三個品牌建立傳統(tǒng)的時間序列預測模型——自回歸積分滑動平均模型（ARIMA）進行綜合比較分析。為了有效和直觀地衡量不同模型的預測能力，本文選取均方根誤差(RMSE)、平均絕對百分比誤差(MAPE)兩個指標來評估預測結(jié)果，各模型測試集預測結(jié)果如表2所示。

微信截圖_20180922160645.png

從表2可以看出，無論從RMSE還是MAPE來說，機器學習模型的預測效果均有顯著優(yōu)勢，相比傳統(tǒng)的時間序列ARIMA模型大幅度提高了預測準確度，而且從MAPE指標結(jié)果來看，ARIMA模型對于不同品牌汽車銷量預測差異非常大（奧迪比本田高了近15%），機器學習模型預測性能比較穩(wěn)定。所有模型中性能最優(yōu)的是隨機森林模型，預測平均誤差為6.4%，比ARIMA模型降低了12.2個百分點，相比文獻［15］、［16］對大眾及奧迪相同品牌汽車月度銷量預測的MAPE分別降低了2.81%和4.63%，預測精度有了顯著提升。從本質(zhì)上分析，網(wǎng)絡搜索數(shù)據(jù)與對應品牌汽車銷量之間的關(guān)系并不是單純的線性關(guān)系，其中非線性關(guān)系的程度應該大于線性關(guān)系的程度，因而兩種非線性機器學習模型的預測更為精確。

以“大眾”為例展示各模型測試集的預測值與實際值對比如圖2所示。其中可以看出LASOO線性回歸模型（圖（b））及支持向量回歸模型（圖（c））的預測精度明顯優(yōu)于ARIMA模型（圖（a）），ARIMA模型雖然能夠預測銷量的基本趨勢，但整體預測效果比較差，而且以上三種模型的峰值敏感度都較低，即對峰值的預測誤差均比較大。通過與隨機森林模型（圖（d））進行對比，可以清晰直觀地看出，隨機森林模型與其他模型相比在峰值預測準確度上有明顯差異，顯然隨機森林模型對于峰值和整體預測的結(jié)果都更精確。由此可以得出結(jié)論，針對汽車品牌粒度的月度銷量預測問題，建立基于網(wǎng)絡搜索數(shù)據(jù)關(guān)鍵特征的隨機森林模型是一種切實可行的方案。

微信截圖_20180922160750.png

3 結(jié)論

本文以品牌汽車銷量為研究對象，通過關(guān)鍵詞的選取及拓展，將相關(guān)性分析與基于LASSO的特征選擇相結(jié)合，最終篩選出針對不同品牌汽車的網(wǎng)絡搜索數(shù)據(jù)關(guān)鍵特征，在解決多重共線性及減少過擬合的基礎(chǔ)上保留最有效的數(shù)據(jù)，然后分別建立了傳統(tǒng)時間序列模型及三種機器學習模型，通過對實驗結(jié)果進行分析，發(fā)現(xiàn)機器學習模型的預測效果均有顯著優(yōu)勢，其中隨機森林模型預測性能最優(yōu)。本文提出的基于網(wǎng)絡搜索數(shù)據(jù)的預測方法可以利用前期網(wǎng)絡搜索數(shù)據(jù)預測后續(xù)汽車銷量，而相應品牌的汽車生產(chǎn)廠商可以根據(jù)預測結(jié)果及時調(diào)整企業(yè)的生產(chǎn)和營銷策略。模型的可靠性檢驗及推廣應用是接下來的研究方向。

參考文獻

［1］中國汽車工業(yè)協(xié)會.中國汽車工業(yè)發(fā)展年度報告（2016）［Ｍ］.北京：社會科學文獻出版社,2016.

［2］黃琦.基于灰色理論的汽車銷售量預測研究［J］.機械制造,2013,51(4):78-80.

［3］胡彥君.ARIMA模型在汽車銷量預測中的應用及SAS實現(xiàn)［J］.河北企業(yè),2012(4):11-12.

［4］王旭天. 基于BP神經(jīng)網(wǎng)絡的我國汽車銷量預測分析［D］.上海：東華大學,2016.

［5］袁慶玉,彭賡,劉穎,等.基于網(wǎng)絡關(guān)鍵詞搜索數(shù)據(jù)的汽車銷量預測研究［J］.管理學家(學術(shù)版),2011(1):12-24.

［6］孔令頂.基于互聯(lián)網(wǎng)搜索量的大眾途觀汽車銷量預測研究［J］.時代金融,2015(30):222,226.

［7］王守中,崔東佳,彭賡.基于Web搜索數(shù)據(jù)的寶馬汽車銷量預測研究［J］.經(jīng)濟師,2013(12):22-24，26.

［8］ FANTAZZINI D, TOKTAMYSOVA Z. Forecasting german car sales using Google data and multivariate models［J］.International Journal of Production Economics,2015,170: 97-135.

［9］李憶,文瑞,楊立成.網(wǎng)絡搜索指數(shù)與汽車銷量關(guān)系研究——基于文本挖掘的關(guān)鍵詞獲取［J］.現(xiàn)代情報,2016,36(8):131-136，177.

［10］趙東波. 線性回歸模型中多重共線性問題的研究［D］.錦州：渤海大學,2017.

［11］李鋒,蓋玉潔,盧一強.測量誤差模型的自適應LASSO變量選擇方法研究［J］.中國科學:數(shù)學,2014,44(9):983-1006.

［12］劉曉寧.基于Lasso特征選擇的方法比較［J］.安徽電子信息職業(yè)技術(shù)學院學報,2014,13(1):26-30.

［13］李春紅,吳英,覃朝勇.基于LASSO變量選擇方法的網(wǎng)絡廣告點擊率預測模型研究［J］.數(shù)理統(tǒng)計與管理,2016,35(5):803-809.

［14］郭貔,王力,郝元濤.基于LASSO回歸模型與百度搜索數(shù)據(jù)構(gòu)建的流感疫情預測系統(tǒng)［J］.中國衛(wèi)生統(tǒng)計,2017,34(2):186-191.

［15］崔東佳. 大數(shù)據(jù)時代背景下的品牌汽車銷量預測的實證研究［D］.開封：河南大學,2014.

［16］田銳鋒.用季節(jié)性交乘模型預測奧迪汽車在華銷量［J］.統(tǒng)計與管理,2016(8):70-71.

（收稿日期：2018-04-03）

作者簡介：

謝天保（1966-），男，博士，副教授，主要研究方向：數(shù)據(jù)挖掘、電子商務與決策支持。

崔田（1991-），通信作者，男，碩士研究生，主要研究方向：數(shù)據(jù)挖掘、電子商務。E-mail：[email protected]。