非平衡大數據應用領域的多決策樹及其分布式計算理論研究.pdf_第1頁
已閱讀1頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著計算機的廣泛普及和信息技術的快速發(fā)展,各行各業(yè)產生的數據呈現大量和非平衡分布特點。分類預測器作為數據挖掘的重要技術之一,可以判斷數據未來的發(fā)展趨勢,發(fā)現數據潛在的價值。傳統(tǒng)的分類預測器模型主要考慮總體分類準確率性能,對非平衡數據分類效果較差,容易忽略具有重要價值的少數類數據。此外,面對大規(guī)模訓練數據時,普通性能計算設備由于存儲空間及內存有限,導致算法計算效率低下甚至系統(tǒng)失效。
  本研究主要內容包括:⑴提出了一種基于代價敏感的

2、混合屬性選擇策略。詳細分析和對比了幾種決策樹算法的性能異同。結合 C4.5算法的信息增益率和 CART(Classification and Regression Tree)算法的Gini系數提出基于混合策略的決策樹分裂點最佳屬性選擇指標。針對非平衡數據集,采用代價敏感方法以提高少數類分類性能,減少因少數類誤判導致的分類誤差較大問題。實驗結果表明,這種分裂點最佳屬性選擇策略,在保證多數類分類準確率的前提下,大幅提高了少數類分類準確性。⑵

3、提出了一種基于全屬性信息分裂的改進隨機森林多決策樹算法。為了提高決策樹算法的分類準確性,同時考慮根節(jié)點信息對決策樹的影響,本文在隨機森林的基礎上,改進其因隨機選擇訓練數據和屬性導致的少數類欠學習問題,采用基于不同根節(jié)點的全屬性建樹方法。實驗結果表明,基于不同根節(jié)點信息的改進隨機森林多決策樹算法保證了較高的少數類分類準確性,并大幅提高整體準確性。⑶設計和實現了大數據分布式存儲和計算平臺。針對大規(guī)模非平衡數據集,本文根據現有的硬件設備,構建

4、了Hadoop分布式存儲和計算平臺,可保證數據的高可靠性和高存儲能力以及高效的分布式計算能力。并進一步根據本文分布式多決策樹算法進行了環(huán)境參數設置和調優(yōu),以使平臺計算性能處于最佳狀態(tài)。⑷提出了一種新的分布式多決策樹算法計算模型。研究了算法準確率、執(zhí)行時間與樣本大小的關系,得到結論:可以針對不同的數據集確定一個合適規(guī)模的訓練樣本使得算法準確率在該規(guī)模下一直保持較高水平。根據這一結論,本文提出了一種將MapReduce粗粒度計算和線程細粒度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論