《金融智能》7_第1頁
已閱讀1頁,還剩32頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數據預處理,,數據預處理技術概述,數據預處理技術主要是接受并理解用戶的挖掘要求,確定挖掘任務,抽取與挖掘任務相關的數據源,根據領域知識中的約束規(guī)則對數據進行合法性檢查,通過清理和規(guī)約等操作,生成挖掘算法所需要的目標數據,他匯集了原始數據中與數據挖掘任務相關的所有數據的總體特征,是最原始的知識模板。,數據預處理技術概述,數據預處理研究內容數據預處理是數據挖掘過程中的一個重要步驟,尤其是在對包含有噪聲、不完整,甚至不一致數據進行數據挖掘時

2、,更需要進行數據的預處理,以提高數據挖掘的質量,并最終達到提高數據挖掘所獲模式知識質量的目的。,數據預處理技術概述,數據預處理的重要性 1)數據預處理可以去掉數據中的噪聲 (eg.領導講話)2)糾正不正確的屬性值(人機輸入時錯誤 )3)對于不一致的數據進行清理(填寫缺失值、光滑噪聲數據、識別刪除離群點)4)數據預處理可以提高數據挖掘的效率(壓縮數據集不損害數據挖掘結果),數據預處理任務,一個全面的金融智能解決方案必須通過數據挖掘

3、解決數據一致性與集成化問題,能夠從所有傳統(tǒng)環(huán)境與平臺中采集數據,并對其數據進行高效的轉換。這個解決方案就是ETL。,數據預處理任務,通常數據預處理的過程主要包括以下幾個方面任務數據清洗數據集成 數據變換 數據歸約,數據預處理任務,數據清洗數據清洗是要去除源數據集中的噪聲數據和無關數據,處理遺漏數據和清洗臟數據,去除空白數據域和知識背景上的白噪聲,考慮時間順序和數據變化等。主要包括重復數據處理和缺值數據處理,并完成一些數據類型的

4、轉換。數據清洗分為有監(jiān)督(領域專家指導下)和無監(jiān)督(樣本數據訓練算法)兩類。,數據預處理任務,數據集成數據集成主要是將多文件或多數據庫運行環(huán)境中的異構數據進行合并處理,解決語義的模糊性。該部分主要涉及數據的選擇、數據的沖突問題以及不一致數據的處理問題。 由于數據可能來自多個實際系統(tǒng),所以存在異構數據的轉換問題。另外,多個數據源的數據之間,還存在許多不一致的地方,如命名、結構、單位和含義等。,數據預處理任務,數據變換數據變換主要是找到

5、數據的特征表示,用維變換或轉換方法減少有效變量的數目或找到數據的不變式,包括規(guī)格化、切換、旋轉和投影等操作。(eg. 2e+10; 出生年月&年齡 vs 孩子數量&家庭成員數),數據預處理任務,數據歸約數據歸約是在對挖掘任務和數據本身內容理解的基礎上,尋找依賴于發(fā)現(xiàn)目標的數據的有用特征,以縮減數據規(guī)模,從而在盡可能保持數據原貌的前提下,最大限度地精簡數據量。,數據預處理方法,數據清洗方法現(xiàn)實世界的數據常常是有噪聲、不

6、完全的和不一致的。數據清洗過程通過填補遺漏數據、消除異常數據、平滑噪聲數據,以及糾正不一致的數據。,數據清洗方法,遺漏數據處理如果在分析數據時,發(fā)現(xiàn)有多個記錄中的屬性值為空,可以采用以下方法進行處理: ① 忽略該記錄(eg.出勤) ② 手工填補遺漏值 ③ 利用默認值填補遺漏值 ④ 利用均值填補遺漏值(eg.考試) ⑤ 利用同類別均值填補遺漏值 ⑥ 利用最可能的值填補遺漏值(回歸、決策樹等預測),數據清洗方法,噪聲數據處理

7、噪聲是指被測變量的一個隨機錯誤和變化: ① Bin方法。通過利用相應被平滑數據點的周圍點,對一組排序數據進行平滑 ② 聚類方法(通過聚類分析可以幫助發(fā)現(xiàn)異常數據) ③ 人機結合檢查方法 ④ 回歸方法(利用擬合函數對數據進行平滑),數據清洗方法,① Bin方法,數據清洗方法,不一致數據處理數據庫中經常出現(xiàn)數據記錄內容的不一致,其中一些數據的不一致可以利用他們與外部的關聯(lián)手工加以解決。,數據預處理方法,數據集成方法數據挖掘任務常

8、常涉及數據集成操作,即將來自多個數據源的數據,如:數據庫、數據立方(data cubes)、普通文件等,結合在一起并形成一個統(tǒng)一數據集合,以便為數據挖掘工作的順利完成提供完整的數據基礎。,數據集成方法,模式集成問題如何使來自多個數據源的現(xiàn)實世界的實體相互匹配,涉及到實體識別問題(如何確定一個數據庫中的customer_id與另一個數據庫中的cust_number表示同一實體?元數據可以幫助避免發(fā)生錯誤),數據集成方法,冗余問題若一個

9、屬性可以從其他屬性中推演出來,那么這個屬性就是冗余屬性;屬性命名不一致也會導致集成后數據集出現(xiàn)不一致數據值沖突檢測與消除(來自不同數據源的屬性值可能不同,eg.比例尺度,貨幣單位),數據預處理方法,數據轉換方法所謂數據轉換就是將數據轉換或歸已構成一個適合數據挖掘的描述形式。數據轉換包含以下處理內容。 1)平滑處理。 2)合計處理。 3)數據泛化處理(Generali

10、zation) 4)規(guī)格化。 5)屬性構造。,數據轉換方法,平滑處理該過程幫助除去數據中的噪聲,如Bin方法、聚類方法、回歸方法等合計處理對數據進行總結或合計操作(eg.從每天銷售額獲得每月或每年銷售額)泛化處理泛化處理是用更抽象的概念來取代低層次或數據層的數據對象(eg.年齡屬性可以映射到年輕、中年、老年),數據轉換方法,規(guī)格化將有關屬性數據按照比例投射到特定小范圍之中(eg.將

11、工資收入屬性值映射到0.0~1.0)屬性構造根據已有屬性集構造新的屬性,以幫助數據挖掘過程(eg. Y=aX1+bX2+cX3),數據預處理方法,數據歸約方法數據規(guī)約技術正是用于幫助從原有龐大數據集中獲得一個精簡的數據集合,并使這一精簡數據集保持原有數據集的完整性,這樣在精簡數據集上進行數據挖掘顯然效率更高,并且挖掘出來的結果與使用原有數據集所獲得結果基本相同。,數據歸約方法,數據立方合計這類聚集操作作用于數據立方中的數據,對該

12、數據進行處理。,數據歸約方法,維數歸約檢測并刪除不相關、弱相關或冗余的屬性或維。 (eg.預測是否購買基金的規(guī)則時電話號碼可能與挖掘任務無關)通常使用屬性子集選擇方法(Attribute Subset Selection),目標就是尋找出最小的屬性子集并確保新數據子集的概率分布盡可能接近原來的數據集的概率分布。方法有逐步添加方法,每次選擇一個當前最優(yōu)屬性(收入、年齡、職業(yè)等)逐步消減方法,每次從屬性子集選擇當前最差屬性除去(身份

13、證、身高、性別等)決策樹歸納法,對初始數據進行分類歸納學習,獲得初始決策樹,沒有出現(xiàn)在決策樹的均為無關屬性,數據歸約方法,數據壓縮主要用于監(jiān)測和消除無關、弱相關、或冗余的屬性,并使用編碼機制壓縮數據集。小波分析,是一種線性信號處理技術,該技術方法可以將一個數據向量D轉換為另一個數據向量D’,兩個向量具有相同長度。但是后者可以舍棄其中一些小波相關系數。主因素分析,利用其進行數據壓縮時,假設數據由N個數據行組成,有K個維度。PCA從

14、K個維度中尋找c個共軛向量,從而實現(xiàn)對初始數據進行有效的數據壓縮。,數據歸約方法,離散化和概念層次樹生成離散化和概念分層將屬性的原始值用區(qū)間值或較高層的概念替換。概念分層允許挖掘多個抽象層上的數據,是數據挖掘一種強有力的工具。,,,,,,,,,,,青年,中年,壯年,18 …,25,26 …,35,36 …,55,數據預處理方法,用于Web挖掘的預處理由于日志記錄和HTTP協(xié)議的自身原因,日志數據

15、是雜亂的,Web使用挖掘預處理是在Web使用挖掘前,對Web日志所記錄的數據進行清理、過濾以及重新組合過程。Web使用預處理的目的是剔除日志中對挖掘過程無用的屬性及數據,并將Web日志數據轉換為挖掘算法可識別的保存形式。,用于Web挖掘的預處理,使用預處理Web日志文件清楚地記錄了站點訪問者的瀏覽行為,記錄了每一次網頁請求信息。它是使用挖掘的最主要數據來源,絕大多數Web使用挖掘都是直接利用Web日志來進行。,日志文件,數據凈化,用戶

16、會話識別,瀏覽頁識別,路徑補充,服務器會話文件,路徑補充,事務文件,使用統(tǒng)計,站點結構和內容,用于Web挖掘的預處理,結構預處理結構挖掘的預處理主要是通過Web站點結構及網頁特征信息的抽取和過濾,為結構挖掘準備數據。,Web,URL集合,URL處理,地址路徑處理,路徑補充,數據庫,網頁分析,URL提取,超鏈過濾,輸入初 始URL,讀取,分配URL,用于Web挖掘的預處理,內容預處理Web內容挖掘分為文本挖掘和多媒體挖掘。多媒體挖掘處

17、于起步階段,仍停留在從多媒體的屬性進行挖掘,對于文本挖掘的預處理,通過以下幾個步驟完成,站點文件,分類算法,文本分類,分詞處理,文本特征表示,特征提取,對元數據(特征項)進行量化,有意義地抽取關鍵詞項的相關信息,數據預處理工具,評價ETL工具的標準評價ETL工具的標準可以從對平臺的支持(Windows,Linux,UNIX)、對數據源的支持(Excel,SQL Server,Text,XML)、數據轉換功能(字段映射、拆分、行列變換等

18、)、管理和調度功能、對元數據管理(映射規(guī)則、轉換規(guī)則、加載策略都屬于元數據范疇)和集成和開放性等幾個方面考慮。,數據預處理工具,主流的ETL工具 目前的ETL工具在一定范圍內解決了數據的抽取和轉換。但這些工具基本都不能自動完成數據的抽取,用戶還需利用這些工具編寫適當的轉換程序,對用戶的技術水平要求較高。Oracle Warehouse BuilderInformatica PowerCenterMicrosoft SQL Se

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論