研究方法與流程

第一章緒論

1.4 研究方法與流程

為了達成研究目的，我們需要影片字幕的全文、字幕在影片出現時間，還有字幕的發言者，以及字幕與演講手冊的對應關係。因此可建立以下研究流程《圖 1-1》。

圖1-1 研究流程圖

首先，為了能夠讓字幕可以做文字的檢索，我們需要得到字幕的全文；而為了讓系統能夠切換影片的時間，則需要字幕在影片中出現的時間。因此，製作一個影片的字幕檔，如subrip、Station Alpha、Vobsub 等字幕檔格式，其中就包含兩者，接著再分析字幕檔的內容，就可以得到字幕全文以及字幕時間。在此步驟我們利用了現有的軟體來分析影片，並辨識文字。我們先使用esrXP 來對整個影片進行分析，esrXP 利用字幕顏色及字幕外框顏色來過濾影片的每一幀(frame)，再依照畫素(pixel)的變化來決定每段字幕的時間，最後取得過濾出來的字幕圖片，以及字幕圖片對應到的影片時間。接著將字幕圖片使用Microsoft Office Document Imaging 作光學字元辨識(OCR)，來取得字幕的全文。最後將字幕全文輸入到 esrxP 中，即可把文字對應到字幕圖片上，並輸出成需要的字幕檔。

取得字幕的全文之後，我們就可以拿全文來與演講手冊作比對，首要目的是取得每句字幕的發言者，以便系統呈現；另外，我們將演講手冊分割成數個句子，

並找出字幕與演講手冊句子的對應關係。我們利用字幕與演講手冊句子的最長共

製作字幕檔

字幕對應演講手冊

系統呈現

同子序列(Longest Common Subsequence)來決定字幕含意是否包含在演講手冊的句子意思當中。設定一個LCS 分數為 LCS 字串長度除以字幕長度，LCS 分數越高表示共同子序列占字幕的比例越大，因而決定該句字幕是否相關於該演講手冊句子。

接著假設每句字幕都要對應到一個句子，而且每個句子都要被對應到，以及字幕與句子的固定順序，建立一個挑選矩陣元素的演算法，而滿足這個演算法的組合中，LCS 分數總和最大的組合，我們就認為是字幕與演講手冊最相似的對應關係。

最後以一個遞迴方法來決定LCS 分數的最大值，並找出此最大值的組合，而得到字幕與演講手冊句子的對應關係。

最後，將得到的字幕全文以及字幕時間，還有字幕的發言者以及對應到的演講手冊句子，一起匯入資料庫中，並以系統呈現。系統呈現上，我們對於檢索結果加上多階層後分類的導覽方式，讓使用者可以對檢索結果進行篩選，可選擇以字幕出處、發言者及影片區間等分類組合來檢視檢索結果，方便使用者找到想要檢視的影片片段；影片播放則使用HTML5 的 video 標籤，讓使用者只要使用支援 HTML5 的瀏覽器即可播放影片而不用另外嵌入元件；透過控制 video 標籤的參數就可以存取影片的任意時間點，而使得影片可以從字幕時間開始播放；另外，在檢索項目中及影片下方，都有字幕對應到的演講手冊句子，讓使用者更能知道搜尋到的字幕在演講手冊上是屬於哪個段落，其中影片下方的演講手冊句子會隨著影片時間而變換，也可讓使用者知道該影片時間對應到的演講手冊段落。

在文檔中影片字幕檢索系統以臺大文學講座系列影片為例 (頁 12-15)

第一章 緒論

1.4 研究方法與流程

製作字幕檔

字幕對應演講手冊

系統呈現

第一章緒論