信息檢索相關性_第1頁
已閱讀1頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、近十年我國信息檢索相關性研究現(xiàn)狀分析——基于共詞分析的視角摘要:相關性是信息檢索領域的核心研究的內容之一,對其進行深入研究將有助于提高信息檢索的效率,推動信息檢索的研究。本文將通過共詞分析的方法,利用知識圖譜對其進行可視化分析研究。關鍵詞:信息檢索;相關性;共詞分析前言相關性一直以來都是信息檢索領域的核心研究內容之一,其概念的起源可以追溯到17世紀的早期圖書館用戶認識到查找相關信息的問題。但由于客觀原因,相關性只是作為一種朦朧意識停留在

2、人們頭腦中,直到20世紀20年代少數(shù)學者Lotka(1926)、Zipf(1949)、Urquhart(1959)、Price(1965)才陸續(xù)從各個領域開始了相關性的研究工作。在信息科學界Saracevic認為Bradfd是最先使用相關性一詞的學者。其在20世紀30年代發(fā)表的《文獻的混沌狀態(tài)》一文中首次提出“主題相關”的概念。而此后關于“相關性”的探討并未引起學界更大范圍的關注。直到1958年國際科學信息會議(ICSI)的召開,相關性

3、(Relevance)才作為信息科學領域的一個重要概念被學術界認可。至此“相關性”逐漸成為信息科學尤其是信息檢索領域經久不衰的研究課題,甚至知識交流學派的代表人物Saracevic認為信息科學之所以成為獨立學科,而不再隸屬于圖書館學或文獻學的原因就在于它開展了相關性的研究也在于相關性能夠解釋科學交流中的諸多問題。足見“相關性”在信息科學中的重要地位。當前,各國學者已對信息檢索的相關性問題展開了深入研究,本文將通過共詞分析法,使用知識圖譜

4、對其進行可視化處理分析。1信息檢索相關性基本概念對信息檢索相關性基本概念方面的研究工作始于20世紀50年代末,各國學者借助數(shù)學工具及各種概念提取方法從各個角度對“相關性”的含義及內容進行了深入剖析。而相關性的基本概念研究以1976年為邊界經歷了前后兩個階段第一階段19591976的主要成果有Maron和Kuhns利用概率論定義相關性的概念,提出相關性并非只是簡單的是非選擇問題。Rees認為相關性受文檔所包含的信息概念的影響,認為相關信息

5、是對用戶原來所具備的知識而言有用的信息Goffman和Newill把相關性當成連接有效性的一種測度,并試圖用數(shù)學方法證明相關性(Relevance)與關聯(lián)性(Relation)之間具有等價關系。Saracevic則建議從文檔、詞與文獻引用等各種文獻特征上來定義檢索的相關性。Cooper利用數(shù)理邏輯給相關性做了一個明確的定義。Wilson則在Cooper研究的基礎上對數(shù)理邏輯相關性描述做了進一步擴充,并將“情境相關性”的概念首次引入到相關

6、性的研究中,這些成果成為第二階段研究工作的基礎。在第二階段,1977年至今,由于相關性各領域研究成果的相繼出現(xiàn),使相關性的概念描述也呈現(xiàn)出許多新的時代特征。首先是從面向用戶及認知方法的觀點重新審視相關性,認為相關性是個多維的認知概念,在很大程度上依賴于用戶個人對信息的理解以及信息需求的情境。相關性是一個動態(tài)的概念它依賴于信息與用戶某一特定時間所需信息之間關系質量的評價,以用戶的觀點來看,相關性是個復雜的、系統(tǒng)的、可測度的概念。其次是一些

7、學者試圖給信息檢索定義一個邏輯模型來理解相關性概念這項工作由Rijsbergen開創(chuàng)之后又吸引了眾多學者的參與。2.信息檢索相關性共詞分析2.1數(shù)據(jù)收集處理本文研究的數(shù)據(jù)收集是以中國知網(wǎng)(cnki)中文數(shù)據(jù)庫中的期刊文獻為基礎,期刊來源為SCI、EI、CSSCI,以“信息檢索”并含“相關性”作為主題進行檢索,檢索年限為2004年至2013年,共檢索文獻95篇。對其關鍵詞進行統(tǒng)計分析,共有關鍵詞202個,對其進行詞頻統(tǒng)計,將詞頻超過2次的

8、關鍵詞作為高頻關鍵詞,共有高頻關鍵詞42個(表1),本文的數(shù)據(jù)分析將基于這些高頻關鍵詞。軟件繪制科學知識圖譜,在此基礎上,采用Kce分析法進行社會網(wǎng)絡分析,建立不同連接度k核(最高為4)的共詞網(wǎng)絡圖譜,經過處理后得到可視化結果,如圖2所示,其中紅色代表關聯(lián)度為4的關鍵詞,綠色為關聯(lián)度為3的關鍵詞,藍色為關聯(lián)度為2的關鍵詞,黑色為關聯(lián)度為1的關鍵詞。圖2Kce分析效果圖2.3.2多維尺度分析使用Uci6.0軟件中的非量綱式多維尺度分析方法

9、分析近十年我國信息檢索相關性的關鍵詞的數(shù)據(jù)結構,統(tǒng)計這些關鍵詞坐標,統(tǒng)計結果如表2所示,并形成散點圖,效果如圖3所示。表2關鍵詞分布坐標關鍵詞X坐標Y坐標所處象限關鍵詞X坐標Y坐標所處象限TEDS模型0.7941.984第2象限評價0.2340.438第3象限本體0.40.145第4象限情報學0.0180.168第2象限標準0.3680.089第3象限數(shù)字圖書館0.2150.92第3象限測試集0.8590.175第2象限搜索引擎0.31

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論