

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、伴隨著信息技術的飛速發(fā)展,互聯(lián)網(wǎng)上的信息數(shù)量已經成爆炸式增長,文本信息的規(guī)模正在以指數(shù)形式急速擴大。豐富多彩的互聯(lián)網(wǎng)為人們提供了海量的信息,Web是Internet上最重要的信息來源,且已經成為人們日常生活、工作中不可少的一部分。Web上的信息不僅僅只包含正文信息,還包含許多干擾信息,這樣會降低Web信息的可利用性。如何在浩瀚如海的文本信息當中及時地獲取有價值的信息,已經成為當今信息獲取中亟待解決的問題。充分的利用數(shù)據(jù)挖掘和文本分類技術
2、,能夠很好的解決這一類問題。
Web信息提取技術和短文本分類技術是文本信息挖掘領域中非常重要的研究內容。Web信息提取技術,首先對Web進行區(qū)域劃分,然后利用算法從不同的區(qū)域間找到正文內容,最后將正文內容準確的提取出來。為了能夠自動化提取Web信息,該類提取技術不應該需要大量的訓練,而且應該具有較好的靈活性和正確率。在Web信息提取處理后,短文本分類處理是一個文本處理的重要步驟,經過短文本分類的處理,才能更好的給用戶提供對其有
3、價值的信息,保證工作的正確率和效率。
本文介紹了Web信息提取技術和短文本分類技術的研究背景、研究意義、國內外研究現(xiàn)狀、相關的理論知識。本文在總結了前輩們關于Web信息提取技術和短文本分類技術研究的基礎上,分別提出了Web信息提取技術和短文本分類技術的新方法,具體的工作主要包括以下兩個方面:
提出了一種能夠準確并且高效的Web文本信息提取方法,并且該方法可以將獲取的文本信息按照原文的意思正確的分段。首先,該方法利用網(wǎng)
4、頁布局標簽
評論
0/150
提交評論