所屬欄目:計算機信息管理論文 發布日期:2016-02-25 15:23 熱度:
本文是一篇計算機論文投稿范文參考,研究超市事務數據庫挖掘關聯規則設計,發表在《信息技術與信息化》上,雜志從信息技術的研究、應用角度展現IT行業與科技發展與進步,是全國高校、科研院所、企業發表信息科學研究、技術應用成果的園地。雜志內容以科技論文為主,并設有評論與綜述、信息化論壇、網絡通訊、信息處理與模式識別、研究與探索、方案與應用等欄目。整個雜志分三個層次,第一個層次是評論與綜述,由政府職能部門和專家對技術、產業的發展趨勢,所做的前瞻性的論述和規劃;第二個層次是電子信息科技論文,主要刊登高校研究生、科研院所的論文和理論研究成果;第三個層次是企業及各行業中IT技術的應用案例。
摘要:現在全球經濟發展正在進入信息經濟時代,各種形式的信息大量地產生和收集導致了信息爆炸,如何采用基于關聯規則的數據挖掘技術發現超市事務數據庫中的關聯規則是本文所研究和探討的重點。
關鍵詞:數據挖掘,電子商務,關聯規則,計算機論文投稿范文參考
1引言
目前,在需要處理大數據量的科研領域中,數據挖掘受到越來越多的關注。我們可以利用數據挖掘技術從海量數據中發現有用信息,幫助商家了解客戶以往的需求趨勢,并預測未來,從而給商家帶來巨大的利潤。在數據挖掘領域,采用關聯規則在大型事務數據庫中進行數據挖掘是一個重要的研究內容。關聯規則是美國IBM Almaden Research Center的Rabesh Agrawal等人于1993年首先提出的KDD研究中的一個重要課題。關聯規則挖掘的一般對象是事務數據庫,這種數據庫的主要應用在零售業,比如超級市場的銷售管理。關聯規則就是發現事務數據庫中不同商品(項)(Item,指事務中的內容,比如,面包、牛奶等都是項目)之間是否存在某種關聯關系。通過這些規則找出顧客購買行為模式,如購買了某一商品對購買其他商品的影響。發現這樣的規則可以應用于商品貨架設計、貨存安排以及根據購買模式對用戶進行分類。
2關聯規則描述
目前關聯規則挖掘主要考慮支持度和置信度兩個閾值。設X是項集,T是數據庫DB中的任意一個記錄。X的支持度是指支持X的記錄數與全體記錄數的比,Support(X)=|{T| T X,T∈DB}|/|DB|。蘊涵關系X==>Y在數據庫DB中的置信度是指同時支持X和Y的記錄數與支持X的記錄數之比,即:Confidence(X==>Y)=|{T| T XY,T∈DB}|/|{T| TX,T∈DB}| 支持度可理解為在DB中隨機抽取一個記錄,該記錄同時支持X和Y的概率。置信度可理解為在支持X的記錄全體中隨機取一個記錄,該記錄支持Y的概率。
3發現關聯規則的操作步驟
目前,由于條碼技術的發展,顧客在超市中購買商品的信息可以很方便的被存放在數據庫中,針對數據庫中大量的數據,我們如何發現它們之間存在的關聯是本文主要討論的問題。關聯規則的挖掘問題就是在超市事務數據庫DB中找出具有用戶給定的最小支持度和最小置信度的關聯規則。關聯規則的挖掘對市場調節和爭取顧客方面的應用是極有價值的。因此,有必要采用快速算法從超市事務數據庫中挖掘關聯規則。由超市事務數據庫發現關聯規則挖掘可以分以下兩步完成:
1)找出超市事務數據庫DB中所有大于等于用戶指定最小支持度的項目集,具有最小支持度的項目集稱為頻繁項集。
2)利用頻繁項集生成所期望的關聯規則,即這些規則必須滿足最小支持度min_supp和最小置信度min_conf。
事實上,第一步的任務是迅速高效地找出超市事務數據庫DB中全部頻繁項集,數據挖掘所面臨的最大的挑戰是計算效率問題,解決這一問題的途徑是產生高效的數據挖掘算法,但從超市事務數據庫中產生頻繁項集即費時又占用空間,所以說第一步是關聯規則挖掘的核心問題,是衡量關聯規則挖掘算法的標準。當找到所有的頻繁項集后,相應的關聯規則將很容易生成,目前大多數的關聯規則挖掘算法研究是針對第一步而提出的,本文重點討論第一個問題。
4由超市事務數據庫發現關聯規則的總體設計
在現有的不少關聯規則發現算法中,最著名的仍然是R.Agrawal本人在他們自己的AIS算法基礎上于1994年提出的Apriori算法,Apriori算法的基本思想是:利用“頻繁項集的所有非空子集都必須也是頻繁的”這一定理對事務數據庫進行多遍掃描。
眾所周知,對數據庫的掃描伴隨繁重的磁盤I/O任務,Apriori算法中,掃描次數較多,這樣就大大限制了挖掘算法的速度。因此,在實際的應用中,減少對事務數據庫的掃描次數,有效地減少數據的吞吐,將會有效提高算法的效率。為了高效率的由超市事務數據庫中發現關聯規則,本系統在Apriori算法的基礎上采用基于劃分的算法。該算法只對事務數據庫DB掃描兩次,大大減少了I/O操作,從而提高了算法的效率。
通過劃分方法進行數據挖掘的過程如下圖所示:
本系統的總體設計包含三部分:
(1) 在服務器端第一次掃描超市事務數據庫中的表,按照超市事務數據庫中不同項集的數量,以及兼顧客戶端計算機硬件配置,對其進行數據分塊,分塊的大小選擇要使得每個分塊可以被放入主存。
(2) 在各個客戶端計算機上,利用并行技術分別訪問服務器上的數據分塊,求出各數據分塊所對應的局部頻繁項集,并將所求局部頻繁項集存入服務器的一個指定表中。
(3) 在服務器端,匯總各個分塊數據生成的局部頻繁項集,第二次掃描超市事務數據庫中的總表,最終生成全局頻繁項集。
系統的總體設計可以如下圖2 應用程序總體設計所示。
一旦由超市事務數據庫DB中的事務找出頻繁項集,由它們產生強關聯規則是直截了當的。所謂的強關聯規則是指滿足最小支持度和最小置信度的規則。
5結論
隨著計算機硬件的降價,利用并行處理的思想,劃分的數據塊分給多個處理機并行計算各數據塊的局部頻繁項集,然后各分塊所求的局部頻繁項集匯總到服務器上,再次掃描數據庫最終求出全局頻繁項集。這種將關聯規則挖掘算法與并行處理相結合的方式能更大的提高算法的效率。今后,如何能夠更有效的提高關聯規則算法執行的效率,怎樣設計更有效、更實用的算法,是我們進一步需要思考的問題。
參考文獻
1.Jiawei Han Micheline Kamber著. 范明,孟小峰等譯 .《數據挖掘概念與技術》(Data Mining Concepts and Techniques).機械工業出版社.2001,8
2. Agrawal R,Srikant R.Fast algorithms for mining association rules[Z].Proc. Of the 20th VLDB Conference Santiago,Chile,1994.`
3.鐵治欣, 陳奇, 俞瑞釗. 關聯規則采掘綜述. 計算機應用研究 . 2000,01.
文章標題:計算機論文投稿范文參考超市事務數據庫挖掘關聯規則設計
轉載請注明來自:http://www.anghan.cn/fblw/dianxin/xinxiguanli/30171.html
攝影藝術領域AHCI期刊推薦《Phot...關注:105
Nature旗下多學科子刊Nature Com...關注:152
中小學教師值得了解,這些教育學...關注:47
2025年寫管理學論文可以用的19個...關注:192
測繪領域科技核心期刊選擇 輕松拿...關注:64
及時開論文檢索證明很重要關注:52
中國水產科學期刊是核心期刊嗎關注:54
國際出書需要了解的問題解答關注:58
合著出書能否評職稱?關注:48
電信學有哪些可投稿的SCI期刊,值...關注:66
通信工程行業論文選題關注:73
SCIE、ESCI、SSCI和AHCI期刊目錄...關注:120
評職稱發論文好還是出書好關注:68
復印報刊資料重要轉載來源期刊(...關注:51
英文期刊審稿常見的論文狀態及其...關注:69
copyright © www.anghan.cn, All Rights Reserved
搜論文知識網 冀ICP備15021333號-3