基于時空信息和深度學習的視頻總結和標題生成.pdf_第1頁
已閱讀1頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著攝像機和智能手機的普及,在網上出現(xiàn)了爆炸式指數(shù)增長的視頻,這些大量無組織的網上視頻內容無疑會降低用戶的體驗度。因為要想查看相關視頻并抓住視頻內容里面的主旨是要消耗很多時間并且乏味的,所以我們迫切需要提供一個高效且符合用戶的方法去組織和瀏覽這些大量的視頻數(shù)據(jù)。我們引進了視頻總結和標題生成的方法來滿足上面的需求。我們的框架包括兩部分:一個基于深度卷積神經網絡(CNN)的編碼網絡和一個基于注意力機制的長短時間記憶神經網絡(LSTM)作為解

2、碼網絡。在編碼網絡中,我們首先提取關鍵幀來表示整個視頻內容,然后將關鍵幀輸入到編碼網絡提取視頻特征。在解碼網絡中,我們引進能避免梯度消失的LSTM網絡產生描述視頻內容的語義性句子。
  視頻內容總結是產生一個即對用戶感興趣又具有代表性的壓縮版視頻,視頻內容總結可以分為:關鍵幀(由一系列具有代表性的圖片組成)和片段(由一系列具有代表性的片段組成)。一個好的視頻總結至少具有兩個特性:1)包括視頻中最感興趣的部分,2)保持多樣性去除冗余

3、度。為了完成視頻總結,我們首先利用視頻的顯著線索和動作線索得到穩(wěn)定的顯著權重和動作差別權重,然后用我們提出的選擇模型提取滿足用戶的關鍵信息。我們提出一個獨特的框架,結合這些權重預測每一幀的重要程度,重要的幀作為關鍵幀。我們的方法不需要通過訓練來學習重要標準且能夠預測之前未看過的視頻。
  最近基于注意力機制的編碼-解碼框架的視頻標題生成已經取得進展。然而還存在諸多問題:1)許多已經存在的解碼方法,只考慮視頻序列的動態(tài)時間注意力信息

4、到自然語言過程的建模,而忽略視頻內容和句子語義信息之間的關系。為了強調這個問題,我們提出了一個基于時間注意力機制的LSTM模型并結合語義一致性方法(aLSTMs)進行視頻標題生成。2)已存在的解碼方法,產生每一個單詞,包括視覺單詞(像“gun”,“shooting”)和非視覺單詞(像“the”,“a”)結合注意力機制來關注最相關的視覺信息。然而這些非視覺單詞能夠很簡單的結合自然語言模型就能預測出來。非視覺單詞結合注意力機制可能誤導或者降

5、低整個視頻標題生成的效果。為了強調這個問題,我們提出了一個結合可調節(jié)時間注意力機制的級聯(lián)LSTM(hLSTMat)進行視頻標題生成。這個框架利用時間注意力機制去選擇特定幀預測相關單詞,可調節(jié)時間注意力機制決定關注視覺信息還是自然語言信息。級聯(lián)LSTM同時考慮低層次的視覺信息和高層次的語言信息來幫助我們的視頻標題生成。為了證明上述我們提到的方法有效性,我們在MSVD和MSR-VTT兩個數(shù)據(jù)集上做實驗,結果顯示,我們的方法取得了最好的效果。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論