提取商品特征和情感詞的語(yǔ)義約束LDA模型研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩131頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)的普及和在線購(gòu)物所帶來(lái)的便捷性,網(wǎng)絡(luò)購(gòu)物呈現(xiàn)出了前所未有的爆發(fā)式增長(zhǎng)勢(shì)頭,導(dǎo)致購(gòu)物網(wǎng)站上產(chǎn)生了大量的商品評(píng)論文本數(shù)據(jù)。利用自然語(yǔ)言文本處理中的情感分析技術(shù),可以從這些海量的文本數(shù)據(jù)中獲得有用的評(píng)價(jià)知識(shí)。情感分析可以獲取評(píng)價(jià)對(duì)象的情感極性分類,從粒度上可包括三個(gè)層面:(1)文檔級(jí)別的情感分析;(2)句子級(jí)別的情感分析;(3)特征級(jí)別的情感分析。文檔級(jí)別和句子級(jí)別的情感分析可以獲取評(píng)價(jià)對(duì)象的粗粒度情感極性,難以滿足人們進(jìn)一步了解更

2、細(xì)致的商品部件及屬性評(píng)價(jià)情況的要求。要獲取商品局部部件及屬性的情感極性分類知識(shí),需要對(duì)商品評(píng)論進(jìn)行特征級(jí)別的情感分析,即細(xì)粒度的情感分析,其核心任務(wù)是有效提取特征詞和情感詞以及發(fā)現(xiàn)它們之間的關(guān)聯(lián)性。相對(duì)于粗粒度的情感分析,細(xì)粒度的情感分析任務(wù)更具有挑戰(zhàn)性。
  商品評(píng)論是用自然語(yǔ)言表達(dá)的非結(jié)構(gòu)化的文本數(shù)據(jù),其語(yǔ)義關(guān)系和語(yǔ)法結(jié)構(gòu)具有隨意性,并且數(shù)據(jù)量非常龐大,給特征詞和情感詞的提取帶來(lái)了極大的困難。需要綜合運(yùn)用自然語(yǔ)言理解及數(shù)據(jù)挖掘

3、技術(shù),在有效降低文本數(shù)據(jù)維度的基礎(chǔ)上,才有可能實(shí)現(xiàn)細(xì)粒度的特征詞和情感詞挖掘。由于潛在狄利克雷分配(latentDirichlet allocation,LDA)主題模型可以對(duì)文本數(shù)據(jù)進(jìn)行降維,實(shí)現(xiàn)大規(guī)模文本的主題詞提取,同時(shí)利用主題聚類功能來(lái)自動(dòng)獲取詞語(yǔ)間的關(guān)聯(lián)關(guān)系,LDA主題模型在特征詞和情感詞的提取研究中受到了極大的關(guān)注,并得到了廣泛的應(yīng)用。
  特征級(jí)別的情感分析需要更多地發(fā)現(xiàn)局部結(jié)構(gòu)關(guān)系中的特征詞和情感詞,這些詞語(yǔ)相對(duì)于

4、全局特征詞和全局情感詞來(lái)說(shuō)詞頻更低,并且它們之間的關(guān)系隱含在句子、短語(yǔ)等結(jié)構(gòu)中,尤其在具有復(fù)雜詞語(yǔ)語(yǔ)義關(guān)系的中文商品評(píng)論中,局部特征詞和局部情感詞的提取難度明顯要高于全局特征詞和全局情感詞。現(xiàn)有LDA主題模型偏向于發(fā)現(xiàn)全局特征詞和全局情感詞,在主題-詞語(yǔ)的概率分配過(guò)程中沒(méi)有考慮詞語(yǔ)間的語(yǔ)義關(guān)系,導(dǎo)致一些低頻的、具有隱含語(yǔ)義關(guān)系的特征詞和情感詞提取的準(zhǔn)確率和召回率不高,主要表現(xiàn)在:
  (1)難以提取低詞頻特征詞和情感詞。LDA主題

5、模型偏向于發(fā)現(xiàn)高頻的主題詞,導(dǎo)致了詞頻相對(duì)較低的特征詞和情感詞的提取率不高。在中文商品評(píng)論中,經(jīng)常會(huì)出現(xiàn)多個(gè)不同詞語(yǔ)描述同一特征,其中低詞頻特征詞在主題-詞語(yǔ)概率分配中概率較低,往往被忽略;一些僅修飾同一類特征的專屬情感詞由于詞頻較低,也不容易被LDA識(shí)別。
  (2)難以發(fā)現(xiàn)低共現(xiàn)頻率特征詞和情感詞的關(guān)系。LDA主題模型善于發(fā)現(xiàn)具有較高共現(xiàn)頻率的詞語(yǔ)關(guān)系,而難以發(fā)現(xiàn)一些真實(shí)存在的但低頻共現(xiàn)的特征詞-情感詞匹配關(guān)系。在中文商品評(píng)論

6、中,有些情感詞只用來(lái)修飾某一個(gè)或某一類特征,這類情感詞與特征詞的共現(xiàn)關(guān)系容易被其他高頻情感共現(xiàn)關(guān)系所湮沒(méi),使得LDA模型難以發(fā)現(xiàn)這類關(guān)系;同時(shí)LDA也很難提取一些僅包含情感詞的無(wú)特征詞語(yǔ)句子中的特征詞-情感詞隱含匹配關(guān)系。
  (3)全局特征詞對(duì)局部特征詞主題分配的干擾。由于LDA模型對(duì)高頻全局特征詞較敏感,容易將全局特征詞以較高概率分配到不同主題下,而影響了其他相對(duì)低頻的局部特征詞的主題分配,造成高詞頻的全局特征詞的重復(fù)提取而低

7、詞頻的局部特征詞卻難以被LDA識(shí)別。
  (4)難以識(shí)別特征詞和情感詞之間的語(yǔ)義關(guān)系。LDA模型是詞袋型概率生成模型,提取的詞語(yǔ)關(guān)聯(lián)性主要體現(xiàn)在文檔級(jí)別的共現(xiàn),難以更深入地理解詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián),從而可能將文檔共現(xiàn)頻率高但無(wú)語(yǔ)義關(guān)聯(lián)的詞語(yǔ)分配到同一主題,或?qū)⒐铂F(xiàn)頻率低但語(yǔ)義關(guān)聯(lián)強(qiáng)的詞語(yǔ)分配到不同主題,造成提取的主題詞不能真實(shí)反映特征詞和情感詞之間的語(yǔ)義關(guān)系。
  為了解決上述問(wèn)題,實(shí)現(xiàn)細(xì)粒度的特征詞和情感詞提取,需要有指導(dǎo)地

8、進(jìn)行主題詞挖掘,即利用先驗(yàn)知識(shí)對(duì)主題模型進(jìn)行約束,形成監(jiān)督效應(yīng)來(lái)提取符合挖掘目標(biāo)的主題詞。考慮到LDA模型的語(yǔ)義理解能力的欠缺,首先從語(yǔ)義關(guān)系的發(fā)現(xiàn)來(lái)探索詞語(yǔ)間的關(guān)聯(lián)性,然后利用關(guān)聯(lián)性知識(shí)對(duì)主題模型形成約束機(jī)制,更多地發(fā)現(xiàn)特征詞和情感詞之間的隱含關(guān)系。引入詞語(yǔ)之間的語(yǔ)義關(guān)系約束機(jī)制可以在保留LDA主題模型的大規(guī)模文本主題詞提取功能的同時(shí),提升主題模型的語(yǔ)義理解能力,提高識(shí)別局部詞語(yǔ)間關(guān)聯(lián)關(guān)系的能力,更多地提取細(xì)粒度的特征詞和情感詞。主要

9、研究?jī)?nèi)容有:
  (1)中文商品評(píng)論語(yǔ)義關(guān)系的獲取研究。結(jié)合中文商品評(píng)論文本的特點(diǎn),從句法依存、詞義理解和語(yǔ)境相關(guān)等多角度獲取語(yǔ)義關(guān)系,并將語(yǔ)義關(guān)系轉(zhuǎn)化為L(zhǎng)DA模型容易識(shí)別和方便嵌入的方式,為主題模型的改進(jìn)提供有效的語(yǔ)義約束先驗(yàn)知識(shí)。
  (2)語(yǔ)義關(guān)系在LDA模型中的嵌入機(jī)制研究。在保留LDA模型主題詞提取的基礎(chǔ)上,對(duì)語(yǔ)義約束知識(shí)如何嵌入到主題模型進(jìn)行研究。在主題的概率分配關(guān)系中充分反映不同層級(jí)的語(yǔ)義隸屬關(guān)系,并為提取符合

10、語(yǔ)義要求的特征詞和情感詞提供指導(dǎo),解決已有主題模型提取的主題詞不能完全符合語(yǔ)義要求的問(wèn)題。
  (3)語(yǔ)義關(guān)系對(duì)LDA模型的層級(jí)分配關(guān)系研究。由于語(yǔ)義關(guān)系的引入,LDA模型不同層次之間的分配關(guān)系將產(chǎn)生變化。在原有主題模型層級(jí)分配關(guān)系的基礎(chǔ)上,加入語(yǔ)義先驗(yàn)知識(shí)來(lái)影響其概率分布關(guān)系,主要研究的層級(jí)分配關(guān)系包括:文檔-情感、情感-主題和主題-詞語(yǔ)的分配關(guān)系。
  (4)語(yǔ)義約束主題模型的構(gòu)建研究。將語(yǔ)義約束知識(shí)引入到LDA模型,對(duì)

11、LDA進(jìn)行擴(kuò)展的同時(shí)形成了弱監(jiān)督效應(yīng)。已有LDA模型的總體結(jié)構(gòu)將產(chǎn)生變化,反映在層級(jí)的改變以及不同層級(jí)的隸屬關(guān)系變化上。根據(jù)不同的語(yǔ)義任務(wù)提取需求,結(jié)合多種語(yǔ)義約束關(guān)系的獲取及嵌入,在有效進(jìn)行LDA模型擴(kuò)展的基礎(chǔ)上,對(duì)單獨(dú)特征詞提取、特征詞和情感詞同時(shí)提取以及情感極性分類三類模型的構(gòu)建進(jìn)行研究。
  本文的創(chuàng)新性工作主要體現(xiàn)在:
  (1)提出了商品評(píng)論文本的詞語(yǔ)語(yǔ)義關(guān)系獲取方法。針對(duì)中文商品評(píng)論的特點(diǎn),從句法分析、詞義理解

12、和語(yǔ)境相關(guān)等多角度設(shè)計(jì)了特征詞和情感詞之間的語(yǔ)義關(guān)系發(fā)現(xiàn)規(guī)則,并考慮語(yǔ)義關(guān)系作為約束先驗(yàn)知識(shí)加入到LDA模型的方便性,獲取的詞語(yǔ)關(guān)系能夠較好地反映中文商品評(píng)論中特征詞-特征詞、特征詞-情感詞和情感詞-情感詞之間的語(yǔ)義關(guān)聯(lián)。
  (2)設(shè)計(jì)了語(yǔ)義關(guān)系對(duì)LDA主題模型的約束機(jī)制。包括兩個(gè)方面:一是設(shè)計(jì)了語(yǔ)義關(guān)系約束下的主題-詞語(yǔ)分配機(jī)制,實(shí)現(xiàn)主題下細(xì)粒度特征詞和情感詞的有效聚合和區(qū)分;二是設(shè)計(jì)了全局特征詞主題分配約束機(jī)制,減少全局特征

13、詞對(duì)局部詞語(yǔ)分配的干擾,盡可能多地發(fā)現(xiàn)局部特征詞和局部情感詞。語(yǔ)義約束可以指導(dǎo)LDA進(jìn)行主題-詞語(yǔ)的概率分配,影響主題下詞語(yǔ)的聚合度和分離度,彌補(bǔ)LDA對(duì)于語(yǔ)義關(guān)系理解的不足。
  (3)構(gòu)建了4個(gè)帶語(yǔ)義約束的LDA主題模型。對(duì)LDA模型進(jìn)行了擴(kuò)展,在語(yǔ)義先驗(yàn)知識(shí)的指導(dǎo)下進(jìn)行細(xì)粒度主題詞提取,提出了WC-LDA、AC-LDA、SRC-LDA和SWS-LDA模型。在保留LDA主題詞提取特點(diǎn)的基礎(chǔ)上,對(duì)LDA結(jié)構(gòu)進(jìn)行了改進(jìn),利用詞語(yǔ)間

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論