趙艷琪,,茍剛
(貴州大學 計算機科學與技術(shù)學院,,貴州 貴陽 550025)
摘要:股票市場瞬息萬變,,每天產(chǎn)生大量的交易數(shù)據(jù)。隨著藝術(shù)品股票市場的興起,,越來越多的人投資于藝術(shù)品股票,。由于藝術(shù)品股票價格受多方面的影響,需要尋求更為有效的方法來對藝術(shù)品交易市場進行預測,。利用Apriori算法的改進算法對藝術(shù)品股票進行關(guān)聯(lián)規(guī)則挖掘,,得到藝術(shù)品股票之間的關(guān)聯(lián)關(guān)系,進而對投資者做出正確決策有一定的輔助作用,,防止投資者盲目投資,,降低藝術(shù)品股票市場交易風險。
關(guān)鍵詞:數(shù)據(jù)挖掘,;關(guān)聯(lián)規(guī)則;藝術(shù)品股票
中圖分類號:TP399文獻標識碼:ADOI: 10.19358/j.issn.16747720.2016.23.026
引用格式:趙艷琪,,茍剛. 關(guān)聯(lián)規(guī)則在藝術(shù)品股票預測方面的應(yīng)用[J].微型機與應(yīng)用,2016,35(23):90-92.
0引言
近年來,,隨著中國藏品熱和我國政府關(guān)于藝術(shù)品交易政策的改變,中國已經(jīng)取代美國成為世界第一大藝術(shù)品交易市場,。2010年7月,,深圳文化產(chǎn)權(quán)交易所推出了“深圳文化產(chǎn)權(quán)交易所1號藝術(shù)品資產(chǎn)包”,這是國內(nèi)外首次出現(xiàn)的“權(quán)益拆分”投資模式,,即藝術(shù)品股票,。自此藝術(shù)品股票作為一種新型的金融產(chǎn)品越來越受到人們的關(guān)注[1]。
由于藝術(shù)品股票價格受多方面的影響,,尤其是藝術(shù)品交易市場相對于股票市場來說莊家的影響更大,,所以需要尋求更為有效的方法來對藝術(shù)品交易市場進行預測。在藝術(shù)品股票市場,,每天都會產(chǎn)生海量的交易數(shù)據(jù),,這些數(shù)據(jù)雖然存儲在數(shù)據(jù)倉庫中,,但是并沒有得到有效的利用。通過數(shù)據(jù)挖掘技術(shù)分析股票市場數(shù)據(jù),,投資者可以從中得出有效的投資信息,,并綜合分析利弊以后做出投資決策,提高投資收益率,。
一般來說,,數(shù)據(jù)挖掘是指從數(shù)據(jù)庫或數(shù)據(jù)倉庫中發(fā)現(xiàn)隱藏的、預先未知的,、有趣的信息的過程[2],。在國內(nèi),臺灣義守大學陳慶翰開發(fā)了MIAT仿生物智慧股票預測系統(tǒng),該系統(tǒng)是一個可以建立自我學習,、自我組織,、自我調(diào)節(jié)、自我改善的高度自主性智慧型系統(tǒng)[3],。國內(nèi)還有許多著名的學者在股票預測方面做過大量的工作,。國際方面,Morgan,、Stannlog等人已經(jīng)開發(fā)了AI(Automated Investor)系統(tǒng),,該系統(tǒng)通過采用聚類、可視化和預測技術(shù)來尋求最佳投資時機[4],。
本文致力于通過關(guān)聯(lián)規(guī)則算法獲得藝術(shù)品股票之間的關(guān)聯(lián)關(guān)系,,如“在某個時間段X范圍內(nèi),藝術(shù)品股票A和B價格上漲時,,有80%的情況下,,股票C的價格也會隨之上漲”。這樣,,就可以對投資者有一定的借鑒意義,,防止被套牢。
1關(guān)聯(lián)規(guī)則介紹
1.1算法思想
假設(shè)有多個購物籃,,每個購物籃是由多個項組成的集合(即為項集itemset),,那么一個在多個購物籃中出現(xiàn)的項集稱為“頻繁”項集。
定義1支持度:如果I是一個項集,,I的支持度(support)指包含I的購物籃的數(shù)目,,此時定義一個支持度閾值(support threshold)s,如果I的支持度不小于s,,則I為頻繁項集,。
定義2置信度:I→j的置信度即為集合I∪{j}的支持度與I的支持度的比值。顧名思義,,置信度即為得到的規(guī)則的可信任程度,。
AGRAWAL R和SRIKANT R于1994年提出了Apriori算法,,該算法是關(guān)聯(lián)規(guī)則挖掘的最有影響的迭代算法[5]。設(shè)Cm為大小為m的候選項集集合,,Ln為大小為n的真正頻繁項集集合,。Apriori算法是將候選項集不斷過濾,得到頻繁項集,,再將頻繁項集進一步過濾,,得到新的頻繁項集,如:首先找到“1項集”的集合,,再將其支持度與支持度閾值相比較,,過濾得到頻繁“1項集”,記作L1,,再將其進行組合,,得到“2項集”,再將其支持度與支持度閾值相比較,,過濾得到頻繁“2項集”,,記作L2,以此類推,,直到找到最終的頻繁項集,。具體步驟如圖1。
1.2算法實例
表1為某商場9天內(nèi)的商品交易情況,,設(shè)定支持度為2,,置信度為80%。利用Apriori算法尋找所有滿足條件的關(guān)聯(lián)規(guī)則的過程如圖2所示,。
接下來四項集只有{I1,,I2,I3,,I4},,且其支持度為1,小于支持度閾值,,故{I1,,I2,I3,,I4}不是頻繁項集。由以上步驟可得:最大的頻繁項集為{I1,,I2,,I3}、{I1,,I2,,I4},。關(guān)聯(lián)規(guī)則產(chǎn)生步驟如下:
(1) 對于每個頻繁項集l,產(chǎn)生其所有非空真子集,;
(2) 對于每個非空真子集s,如果其置信度不小于最小置信度閾值,,則為強關(guān)聯(lián)規(guī)則。
經(jīng)計算,,強關(guān)聯(lián)規(guī)則為I4I2和I1&&I4I2,,置信度均為100%。
2改進的關(guān)聯(lián)規(guī)則挖掘算法
在關(guān)聯(lián)規(guī)則挖掘算法中,,經(jīng)典的Apriori挖掘算法是通過項目集數(shù)目不斷增長來得到所有的頻繁項目集的,,即先產(chǎn)生頻繁“1項集”,再產(chǎn)生頻繁“2項集”,,直到頻繁項目集中的元素不能擴增為止,。傳統(tǒng)的Apriori算法有兩個瓶頸:(1)需要多次掃描數(shù)據(jù)庫,對于候選項集Ck,需要掃描k次數(shù)據(jù)庫來確定其是否為頻繁項集,,是否可加入Lk,;(2)由于頻繁“k-1項集”產(chǎn)生候選“k-1項集”是將頻繁項集中的元素進行組合得到,呈指數(shù)增長,,這將產(chǎn)生大量的頻繁項集,,從而產(chǎn)生大量的關(guān)聯(lián)規(guī)則[6]。這兩個瓶頸明顯降低了算法的效率,。
因此,,在傳統(tǒng)關(guān)聯(lián)規(guī)則算法的基礎(chǔ)上,本文提出Apriori算法的改進算法,,即Partition算法,。由于Apriori算法需要對數(shù)據(jù)庫進行多次掃描,這個過程非常繁瑣,,可以將數(shù)據(jù)庫邏輯性地分成幾個互不相交的塊,,即分而治之。Partition算法步驟如下:(1)每次都只針對單獨一個分塊,,其中分塊的大小要保證可以放入主存,,每個階段秩序被掃描一次,而算法的正確性是由每一個可能的頻集至少在該分塊中是頻集保證的,。利用Apriori算法產(chǎn)生它的頻繁項集,。(2)把所有分區(qū)產(chǎn)生的頻繁項集合并,生成候選項集,,掃描整個數(shù)據(jù)庫,,計算這些項集的支持度,最終得到全局的支持度不小于支持度閾值的頻繁項集。該算法流程如圖3,。
Partition算法共掃描數(shù)據(jù)庫兩次,。第一次掃描是對數(shù)據(jù)庫進行分塊,找出各塊的頻繁項集,,即局部頻繁項集,;第二次掃描數(shù)據(jù)庫是求候選集的支持度,用以計算全局頻繁項集,。相對于傳統(tǒng)Apriori算法,,Partition算法全程只掃描兩次數(shù)據(jù)庫,大大減少了I/O操作,。由于Partition算法是并行計算,,同時對各個分區(qū)進行求頻繁項集的操作,大大提高了算法的效率,。
Partition算法是高度并行的,,即把各個分塊的處理分配給不同的處理器來產(chǎn)生頻繁項集,在每一個循環(huán)結(jié)束之后,,各個處理器之間會進行通信,,以產(chǎn)生全局候選項集。
3關(guān)聯(lián)規(guī)則在股票方面的應(yīng)用
在文化藝術(shù)品交易市場,,每天都會產(chǎn)生大量的交易數(shù)據(jù),,利用數(shù)據(jù)挖據(jù)技術(shù)對股票市場的股票價格以及股票的走勢進行預測,通過運用關(guān)聯(lián)規(guī)則技術(shù)對藝術(shù)品股票市場進行分析,,為投資人提供較為準確的預測結(jié)果,,防止投資者盲目投資[7]。
本文選擇了某藝術(shù)品股票交易市場2016年1月~5月幾個月的交易數(shù)據(jù),,以此為依據(jù)進行股票關(guān)聯(lián)規(guī)則挖掘,。選取其中6只股票并分別記為A、B,、C,、D、E,、F,。然后對股票進行預處理,如果某天A股票上漲,,則記為A0,,若下跌則記為A1,其他股票同理,。部分股票數(shù)據(jù)如表2所示,。
運用Apriori算法的改進算法——Partition算法進行關(guān)聯(lián)規(guī)則挖掘,,在實驗中,設(shè)定支持度為60,,置信度為70%,得到如表3所示挖掘結(jié)果,。
由規(guī)則1可知,,當A和D藝術(shù)品股票價格均上漲時,C藝術(shù)品股票價格上漲的概率為85%,。投資者根據(jù)這一信息,,在藝術(shù)品股票A和D均上漲時,可以考慮購買一定的C藝術(shù)品股票,,因為很有可能過段時間C藝術(shù)品股票價格就上漲了,。
由規(guī)則2可知,當D藝術(shù)品股票價格下跌,,同時F藝術(shù)品股票價格上漲時,,C藝術(shù)品股票價格下跌的概率為88%。因此,,在D藝術(shù)品股票價格下跌,,同時F藝術(shù)品股票價格上漲時,投資者如果手中持有C藝術(shù)品股票,,可以趁C藝術(shù)品股票價格未下跌時及早拋售,,如果手中未持有C藝術(shù)品股票,可等過段時間C藝術(shù)品股票價格下跌時低價購買,。其他幾個藝術(shù)品股票關(guān)聯(lián)規(guī)則同理,。
4結(jié)束語
本文將關(guān)聯(lián)規(guī)則的Apriori算法的改進算法應(yīng)用到藝術(shù)品股票交易市場的預測上,得出如“當A和D藝術(shù)品股票價格均上漲時,,C藝術(shù)品股票價格上漲的概率為85%”這樣的關(guān)聯(lián)規(guī)則,,投資機構(gòu)和普通股民可以根據(jù)挖掘出的關(guān)聯(lián)規(guī)則快速得到各個藝術(shù)品股票之間的關(guān)聯(lián)關(guān)系,進而決定買入或者賣出哪只股票,,以使自己的投資收益最大化,。對藝術(shù)品股票進行關(guān)聯(lián)規(guī)則挖掘可為投資者提供較為準確和有效的投資信息,對藝術(shù)品股票投資有一定的指導意義,,可促進中國文化藝術(shù)品交易市場更好的發(fā)展,。
參考文獻
[1] 王洋.藝術(shù)品的股票交易[N].中華工商時報,,2011-3-11(21).
?。?] 朱明. 數(shù)據(jù)挖掘[M].合肥:中國科學技術(shù)大學出版社,2002.
?。?] HAND D, MANNILA H, SMYTH P.Principles of data mining[M].MA: The MIT press,2001.
?。?] RAMASUBBAREDDY B. Mining positive and negative association rules[C]. International Conference on Computer Science and Education,2010:1403-1406.
[5] 鄭朝霞,劉廷建.關(guān)聯(lián)規(guī)則在股票分析中的應(yīng)用[J].成都大學學報,2002,11(4):46-50.
?。?] 周濤,,陸惠玲.數(shù)據(jù)挖掘中聚類算法研究進展[J].計算機工程與應(yīng)用,2012,48(12):100-111.
?。?] 孫媌. 基于數(shù)據(jù)挖掘的股票分析和預測模型的設(shè)計與應(yīng)用[D].北京:北京郵電大學,,2011.