動態(tài)數(shù)據(jù)庫增量式挖掘算法及其應用的研究.pdf_第1頁
已閱讀1頁,還剩160頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、傳統(tǒng)的數(shù)據(jù)挖掘是從靜態(tài)的數(shù)據(jù)庫中發(fā)現(xiàn)知識。然而,數(shù)據(jù)倉庫往往是動態(tài)變化的,新的數(shù)據(jù)積累可能導致以前采用的挖掘算法所發(fā)現(xiàn)的知識失效,因此發(fā)現(xiàn)的知識或模式也需要動態(tài)維護,及時更新。動態(tài)數(shù)據(jù)庫與靜態(tài)數(shù)據(jù)庫挖掘的一個本質(zhì)區(qū)別在于人們對于新增的事務可能更感興趣。跟蹤這種動態(tài)變化將使管理者在進行決策時更加受益。增量算法是在已有的挖掘結(jié)果的基礎上,利用已經(jīng)獲得的知識對數(shù)據(jù)的增量部分進行挖掘,而不是對數(shù)據(jù)增量后的整體數(shù)據(jù)庫進行重新挖掘,從而大大節(jié)省知識

2、維護的開銷。 Web日志中數(shù)據(jù)的規(guī)模往往很大,日志記錄每時每刻都在不停地產(chǎn)生,用戶的訪問模式也隨之而變化,而這種用戶訪問模式的變化趨勢對于網(wǎng)站管理者而言是非常重要的。由日志記錄構(gòu)成的數(shù)據(jù)庫就是典型的動態(tài)數(shù)據(jù)庫,面對這種海量的動態(tài)數(shù)據(jù),需要尋找高效的增量挖掘算法,極大地降低平均搜索時間和空間,是十分迫切而且必要的。本文的研究正是針對海量的Web訪問信息所構(gòu)成的數(shù)據(jù)庫的動態(tài)特性而展開,研究如何利用Web訪問信息的動態(tài)特性,尋找快速高

3、效的增量挖掘算法,重點研究Web挖掘中聚類、分類和關(guān)聯(lián)規(guī)則等若干關(guān)鍵問題的理論和方法。 本文對動態(tài)數(shù)據(jù)庫增量挖掘技術(shù)的國內(nèi)外研究狀況作了系統(tǒng)、全面的歸納、總結(jié)和分析,并對典型的應用領(lǐng)域Web使用挖掘的研究現(xiàn)狀進行了回顧。在此基礎上,重點研究了模糊層次聚類算法、神經(jīng)網(wǎng)絡聚類分類模型、基于聚類劃分的并行關(guān)聯(lián)規(guī)則挖掘方法以及它們的增量更新算法,主要貢獻和創(chuàng)新點如下: 1.利用模糊集合的理論,提出了基于模糊連接度的層次聚類算法F

4、HC。首先采用基本的劃分方法將大型數(shù)據(jù)集劃分成子類,然后分析子類間的連接模糊度,構(gòu)建子類模糊圖。通過對模糊圖進行入截圖,得到模糊圖的連通分支,從而得到聚類結(jié)果。FHC算法能對任意形狀的簇進行有效聚類。并將該方法與其他算法進行了比較,無論在聚類質(zhì)量還是運行時間上都具有優(yōu)勢,是一種快速高效的聚類方法。 2.對FHC算法進一步擴展,提出了該算法的增量挖掘方法IFHC和面向大型數(shù)據(jù)庫的分區(qū)聚類算法PFHC。IFHC通過對受影響的鄰域集合

5、進行分析,高效地處理動態(tài)增量數(shù)據(jù)。PFHC針對密度不均勻區(qū)域或者大型數(shù)據(jù)集合對于內(nèi)存容量不足的需求而提出的基于數(shù)據(jù)分區(qū)的模糊層次聚類算法,實驗結(jié)果表明了這兩種算法作為對FHC算法的擴充,具有很好的聚類效果。 3.結(jié)合自適應諧振理論和競爭型神經(jīng)網(wǎng)絡的特點,提出了一種新型的基于競爭型神經(jīng)網(wǎng)絡的SIN模型,該方法綜合了自適應諧振理論和競爭型神經(jīng)網(wǎng)絡的特點,并在隱含層采用了Hebb學習規(guī)則進行神經(jīng)元的側(cè)學習,既能保證原有記憶不受影響,又

6、能對新的信息加以記憶,同時又克服了ART網(wǎng)絡對噪音敏感的缺點,具有在線學習的功能,能夠?qū)崿F(xiàn)動態(tài)數(shù)據(jù)的聚類。 4.傳統(tǒng)的對傳網(wǎng)絡模型和學習算法中,隱含層神經(jīng)元個數(shù)過多將產(chǎn)生死神經(jīng)元,過少又使得競爭層不穩(wěn)定,網(wǎng)絡功能退化。針對這個缺陷,提出了一種自適應地確定隱含層神經(jīng)元個數(shù)的ASCPN網(wǎng)絡模型和學習算法,使得競爭層中每一個神經(jīng)元節(jié)點都能充分發(fā)揮作用,使得網(wǎng)絡能實現(xiàn)運用最少的神經(jīng)元,達到要求的性能。并在競爭層采用軟競爭機制,在一定程度

7、上克服了初始權(quán)值選取敏感的問題,雖然競爭層的權(quán)向量計算比CPN復雜,但是泛化能力顯著提高,與其他的基于軟競爭的算法相比,收斂速度快,模擬精度高,能更好地逼近模擬函數(shù),提高了網(wǎng)絡的使用效率,使得網(wǎng)絡的性能得到很大的提高。 5.提出了基于聚類劃分的最大頻繁項集挖掘算法PARUC和它的動態(tài)增量更新方法IPARUC算法。FP-tree是一種快速有效的關(guān)聯(lián)規(guī)則挖掘方法,它采用建立FP-tree的方法將信息集中到壓縮樹上,不需要產(chǎn)生候選項集

8、。該方法使用最不頻繁的項作后綴,大大降低了搜索開銷。但是,面對海量數(shù)據(jù),構(gòu)造基于內(nèi)存的FP-tree是不現(xiàn)實的,而且很難實現(xiàn)增量數(shù)據(jù)的挖掘。我們采用快速聚類的方法對海量數(shù)據(jù)進行劃分,使得劃分后每部分數(shù)據(jù)具有一定程度的相似性,從而壓縮局部FP-樹。同時對FP-tree的構(gòu)造算法進行改進,通過節(jié)點交換的方式壓縮樹的規(guī)模,以達到最佳壓縮效果。并討論了在增量情況下的最大頻繁項集的動態(tài)更新方法,采用“剪枝-交換-接回”的方法解決新事務的插入問題。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論