

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p> 4300單詞,2.1萬英文字符,5500漢字</p><p> 出處:Broder A Z, Najork M, Wiener J L. Efficient URL caching for world wide web crawling[C]// 2003:679-689.</p><p> Efficient URL caching for world wide
2、 web crawling</p><p> Andrei Z. Broder, Marc Najork, Janet L. Wiener</p><p> ABSTRACT Crawling the web is deceptively simple: the basic algorithm is (a)Fetch a page (b) Parse it to extract
3、all linked URLs (c) For all the URLs not seen before, repeat (a)–(c). However, the size of the web (estimated at over 4 billion pages) and its rate of change (estimated at 7% per week) move this plan from a trivial progr
4、amming exercise to a serious algorithmic and system design challenge. Indeed, these two factors alone imply that for a reasonably fresh and complete crawl of the web</p><p> Our main conclusion is that cach
5、ing is very effective – in our setup, a cache of roughly 50,000 entries can achieve a hit rate of almost 80%. Interestingly, this cache size falls at a critical point: a substantially smaller cache is much less effective
6、 while a substantially larger cache brings little additional benefit. We conjecture that such critical points are inherent to our problem and venture an explanation for this phenomenon.</p><p> Keywords: Ca
7、ching, Crawling, Distributed crawlers, URL caching, Web graph models, Web crawlers 1. INTRODUCTION A recent Pew Foundation study [31] states that “Search engines have become an indispensable
8、utility for Internet users” and estimates that as of mid-2002, slightly over 50% of all Americans have used web search to find information. Hence, the technology that powers web search is of enormous practical interest.
9、In this paper, we concentrate on one aspect of t</p><p> Both the stream of local URLs and the stream of URLs received from peer crawlers flow into the Duplicate URL Eliminator (DUE). The DUE discards URLs
10、that have been discovered previously. The new URLs are forwarded to the URL Frontier for future download. In order to eliminate duplicate URLs, the DUE must maintain the set of all URLs discovered so far. Given that toda
11、y’s web contains several billion valid URLs, the memory requirements to maintain such a set are significant. Mercator can be config</p><p><b> 中文譯文</b></p><p> 萬維網爬行的有效URL緩存</p&
12、gt;<p> 摘要 要在網絡上爬行非常簡單:基本的算法是:(a)取得一個網頁(b)解析它提取所有的鏈接URLs(c)對于所有沒有見過的URLs重復執(zhí)行 (a)-(c)。但是,網絡的大?。ü烙嬘谐^40億的網頁)和他們變化的頻率(估計每周有7%的變化)使這個計劃由一個微不足道的設計習題變成一個非常 嚴峻的算法和系統(tǒng)設計挑戰(zhàn)。實際上,光是這兩個要素就意味著如果要進行及時地,完全地爬行網絡,步驟(a)必須每秒鐘執(zhí)行大
13、約1000次,因此,成員檢測 (c)必須每秒鐘執(zhí)行超過10000次,并有非常大的數據儲存到主內存中。這個要求有一個分布式構造,使得成員檢測更加復雜。 一個非常重要的方法加速這個檢測就是用cache(高速緩存),這個是把見過的URLs存入主內存中的一個(動態(tài))子集中。這個論文最主要的成果就是仔細 的研究了幾種關于網絡爬蟲的URL緩存技術。我們考慮所有實際的算法:隨機置換,靜態(tài)cache,LRU,和CLOCK,和理論極限:透視cac
14、he和極 大的cache。我們執(zhí)行了大約1800次模擬,用不同的cache大小執(zhí)行這些算法,用真實的log日志數據,獲取自一個非常大的33天的網絡爬行,</p><p> 關鍵詞:高速緩存、爬行、分布式爬蟲URL緩存、網絡圖模型,網絡爬蟲1.介紹 皮尤基金會最新的研究指出:“搜索引擎已經成為互聯網用戶不可或缺的工具”,估計在2002年中期,初略有超過1半的美國人用網絡搜索獲取信息。因此,一 個強大的搜
15、索引擎技術有巨大的實際利益,在這個論文中,我們集中于一方面的搜索技術,也就是搜集網頁的過程,最終組成一個搜索引擎的文集。 搜索引擎搜集網頁通過很多途徑,他們中,直接提交URL,回饋內含物,然后從非web源文件中提取URL,但是大量的文集包含一個進程叫 crawling 或者 SPIDERing,他們遞歸的探索互聯網?;镜乃惴ㄊ牵篎etch a pageParse it to extract all linked URLsF
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 計算機外文翻譯---基于網絡爬蟲的有效url緩存
- 中文語義萬維網本體匹配.pdf
- 數據萬維網自動實體匹配.pdf
- 萬維網信息聚類研究.pdf
- 語義萬維網的不確定知識表示與信任計算.pdf
- 外文翻譯---基于網絡爬蟲的有效url緩存
- 萬維網信息檢索的評價體系研究.pdf
- 語義萬維網中本體映射的研究.pdf
- 基于萬維網服務的Parlay框架實現.pdf
- 外文翻譯---基于網絡爬蟲的有效url緩存
- 關于現代萬維網搜索算法的研究.pdf
- 基于關鍵詞的深度萬維網查詢.pdf
- 語義萬維網中RDF數據的存儲和管理.pdf
- 語義萬維網服務若干關鍵技術的研究.pdf
- 萬維網服務中的若干安全問題研究.pdf
- 萬維網服務事務并發(fā)控制的研究與實現.pdf
- 移動萬維網中廣告點擊欺詐檢測技術的研究.pdf
- 網絡爬蟲外文翻譯---基于網絡爬蟲的有效url緩存
- 基于語義萬維網的智能化檢索的研究.pdf
- 萬維網服務事務處理模型的研究和實現
評論
0/150
提交評論