• 沒有找到結果。

第一章 緒論

1.4 研究方法與流程

為了達成研究目的,我們需要影片字幕的全文、字幕在影片出現時間,還有 字幕的發言者,以及字幕與演講手冊的對應關係。因此可建立以下研究流程《圖 1-1》。

圖1-1 研究流程圖

首先,為了能夠讓字幕可以做文字的檢索,我們需要得到字幕的全文;而為 了讓系統能夠切換影片的時間,則需要字幕在影片中出現的時間。因此,製作一 個影片的字幕檔,如subrip、Station Alpha、Vobsub 等字幕檔格式,其中就包含兩 者,接著再分析字幕檔的內容,就可以得到字幕全文以及字幕時間。在此步驟我 們利用了現有的軟體來分析影片,並辨識文字。我們先使用esrXP 來對整個影片 進行分析,esrXP 利用字幕顏色及字幕外框顏色來過濾影片的每一幀(frame),再依 照畫素(pixel)的變化來決定每段字幕的時間,最後取得過濾出來的字幕圖片,以及 字幕圖片對應到的影片時間。接著將字幕圖片使用Microsoft Office Document Imaging 作光學字元辨識(OCR),來取得字幕的全文。最後將字幕全文輸入到 esrxP 中,即可把文字對應到字幕圖片上,並輸出成需要的字幕檔。

取得字幕的全文之後,我們就可以拿全文來與演講手冊作比對,首要目的是 取得每句字幕的發言者,以便系統呈現;另外,我們將演講手冊分割成數個句子,

並找出字幕與演講手冊句子的對應關係。我們利用字幕與演講手冊句子的最長共

製作字幕檔

字幕對應演講手冊

系統呈現

同子序列(Longest Common Subsequence)來決定字幕含意是否包含在演講手冊的句 子意思當中。設定一個LCS 分數為 LCS 字串長度除以字幕長度,LCS 分數越高表 示共同子序列占字幕的比例越大,因而決定該句字幕是否相關於該演講手冊句子。

接著假設每句字幕都要對應到一個句子,而且每個句子都要被對應到,以及字幕 與句子的固定順序,建立一個挑選矩陣元素的演算法,而滿足這個演算法的組合 中,LCS 分數總和最大的組合,我們就認為是字幕與演講手冊最相似的對應關係。

最後以一個遞迴方法來決定LCS 分數的最大值,並找出此最大值的組合,而得到 字幕與演講手冊句子的對應關係。

最後,將得到的字幕全文以及字幕時間,還有字幕的發言者以及對應到的演 講手冊句子,一起匯入資料庫中,並以系統呈現。系統呈現上,我們對於檢索結 果加上多階層後分類的導覽方式,讓使用者可以對檢索結果進行篩選,可選擇以 字幕出處、發言者及影片區間等分類組合來檢視檢索結果,方便使用者找到想要 檢視的影片片段;影片播放則使用HTML5 的 video 標籤,讓使用者只要使用支援 HTML5 的瀏覽器即可播放影片而不用另外嵌入元件;透過控制 video 標籤的參數 就可以存取影片的任意時間點,而使得影片可以從字幕時間開始播放;另外,在 檢索項目中及影片下方,都有字幕對應到的演講手冊句子,讓使用者更能知道搜 尋到的字幕在演講手冊上是屬於哪個段落,其中影片下方的演講手冊句子會隨著 影片時間而變換,也可讓使用者知道該影片時間對應到的演講手冊段落。

相關文件