

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)規(guī)模的不斷發(fā)展擴大,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)出了爆發(fā)式的增長,改變了人們的生活,逐漸影響各行各業(yè)原有的生產(chǎn)經(jīng)營模式。網(wǎng)絡(luò)信息資源主要以網(wǎng)頁文本為載體,通過內(nèi)部鏈接指向,組成結(jié)構(gòu)復(fù)雜的信息網(wǎng)絡(luò)。通用搜索引擎面向全網(wǎng)絡(luò)進行網(wǎng)頁抓取,信息的急速增長使得其在時效性和覆蓋面上都很難得到保證。應(yīng)運而生的垂直搜索引擎以主題爬蟲為核心,專注于單一領(lǐng)域信息,靈活性強,很好的滿足了人們對于特定主題信息的查找需求。
本論文基于原有的主題爬蟲算法框架,
2、針對主題爬蟲運行過程中的爬行策略進行研究,采用支持向量機分類模型對網(wǎng)頁主題相關(guān)性和鏈接錨文本主題進行分類預(yù)測,共同決定待爬取鏈接的優(yōu)先級。同時改變鏈接隊列的形式,設(shè)置四段式分級鏈接隊列,以提高主題爬蟲的工作效率和主題收獲率。具體工作內(nèi)容主要包括:
1)對下載的搜狗實驗室網(wǎng)頁文本語料集進行數(shù)據(jù)預(yù)處理,如利用ICTCLAS進行中文分詞、使用卡方檢驗選取特征列表、通過計算TF-IDF值來設(shè)置特征權(quán)重。訓(xùn)練支持向量機分類模型,通過特征
3、維數(shù)選擇、參數(shù)尋優(yōu)得到表現(xiàn)較好的網(wǎng)頁文本主題分類器。
2)將訓(xùn)練得到的網(wǎng)頁文本主題分類器嵌入到通用爬蟲系統(tǒng)中,在提取網(wǎng)頁內(nèi)部鏈接的同時保存對應(yīng)的錨文本信息,抓取到對應(yīng)網(wǎng)頁后進行主題分類,然后對保存的錨文本進行標注,生成錨文本語料集?;阱^文本語料集進行分類模型訓(xùn)練,得到錨文本主題分類器。
3)結(jié)合訓(xùn)練得到的兩個分類器,嵌入到設(shè)計的主題爬蟲系統(tǒng)框架中,將URL隊列劃分為四段鏈式結(jié)構(gòu)。通過當(dāng)前網(wǎng)頁主題和鏈接錨文本主題相關(guān)
4、性一起決定鏈接的抓取優(yōu)先級,壓入不同的鏈中,從而使得主題爬蟲能夠較快的發(fā)現(xiàn)主題相關(guān)頁面,提高抓取效率。
4)以爬蟲的抓取速度和主題收獲率作為評價指標,對本文中設(shè)計的主題爬蟲系統(tǒng)進行測試對比,頁面抓取速度達到298/min,主題收獲率基本穩(wěn)定在80%以上,通過對比,論證系統(tǒng)的實際可行性及其相對優(yōu)勢。
最后利用設(shè)計實現(xiàn)的主題爬蟲以各大門戶網(wǎng)站為入口,進行頁面抓取,得到體育類網(wǎng)頁集,建立索引庫,實現(xiàn)信息檢索,完成對抓取數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于領(lǐng)域本體的主題爬蟲系統(tǒng)研究與實現(xiàn).pdf
- 基于SVM分類算法的主題爬蟲研究.pdf
- 基于SVM的網(wǎng)絡(luò)爬蟲檢測研究與實現(xiàn).pdf
- 支持Ajax技術(shù)的主題網(wǎng)絡(luò)爬蟲系統(tǒng)研究與實現(xiàn).pdf
- 主題爬蟲的研究與實現(xiàn).pdf
- 基于SVM的圖像檢索系統(tǒng)研究與實現(xiàn).pdf
- 主題網(wǎng)絡(luò)爬蟲的研究與實現(xiàn).pdf
- 主題爬蟲算法的研究與實現(xiàn).pdf
- 基于本體的主題爬蟲的設(shè)計與實現(xiàn).pdf
- 基于SVM的智能郵件過濾系統(tǒng)研究與實現(xiàn).pdf
- 基于日志分析的增量主題爬蟲研究與實現(xiàn).pdf
- 基于領(lǐng)域概念定制的主題爬蟲系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 基于廣度優(yōu)先的主題爬蟲的設(shè)計與實現(xiàn).pdf
- 基于網(wǎng)頁內(nèi)容和鏈接的主題爬蟲研究與實現(xiàn).pdf
- 基于內(nèi)容和鏈接的主題爬蟲的研究與實現(xiàn).pdf
- 主題爬蟲系統(tǒng)的研究.pdf
- 基于網(wǎng)格技術(shù)的主題爬蟲算法優(yōu)化的研究與實現(xiàn).pdf
- 基于領(lǐng)域本體的主題爬蟲研究及實現(xiàn).pdf
- 面向農(nóng)業(yè)主題的爬蟲系統(tǒng)設(shè)計與實現(xiàn).pdf
- 基于SVM的P2P流量檢測系統(tǒng)研究與實現(xiàn).pdf
評論
0/150
提交評論