True Negative - 經驗融合：兼具安全性及延展性之多媒體人本計算 (I)產學合作計畫成果報告 (總計畫)

Recall Precision 使用 HMSD 之

前

1384 1082 252 1179

56.12% 84.6%

使用 HMSD 之後

1963 503 447 984

79.6% 81.45%

由於在前面這個模組中，我們有可能將兩個過於相近的音樂片段誤認為一個大的音樂片段，所以我們在現在這個模組中將把這類問題解決。音樂追蹤模組的功能是找出一首樂曲和另一首樂曲的交界。它使用特徵是音色和音量。音色指的是使用的樂器，彈的音主要集中的頻率，等等。音量指的就是聲音的大小，聲音帶有多少能量。之所以使用這兩個特徵是因為當樂曲切換時，只要兩首樂曲使用的樂器不同或甚至主要彈的音不同就會有音色上的差異，而樂曲結束和開始時總會伴隨著音量的起伏，所以這兩個特徵就可以用來找出樂曲變換的時間。最後產生的是類似圖(十二)的波形圖，其中的波峰亦即第十二秒，第二十秒，以及第四十六秒即為可能有樂曲切換的時間點。

圖六音樂追蹤模組的波形圖

最後在將音樂分段到每個音樂片段都只包含一首樂曲之後，我們就做音樂的情緒分析。這裡使用的特徵是音色和旋律。音色在之前已解釋過，旋律則可解釋為節奏的快慢以及節奏是否穩定。利用這兩個特徵和高斯混合模型(Gaussian Mixture Model)，我們將音樂歸類為三種情緒。高張力(High-tension)代表的是讓人緊張或興奮的音樂，容易給予人情緒壓力；低張力(Low-tension)代表的是讓人舒緩的音樂，或者可以說類似抒情音樂。

第三種就是毫無情緒的音樂。

由於音樂的情緒分析是一個相當艱深的領域，再加上在電影這邊又有兩個困難。第一，電影中使用的音樂有無數種，但一般的音樂情緒分析使用的音樂頂多一到四種，而音樂種類的增多也大幅度的增高了困難度。第二，電影中不時有對話和音效對音樂造成干擾。而在這種困難的情形下，我們的模組的正確率也不高，結果之一列於表(二)。

表二電影”鐵達尼號”使用音樂的情緒分析模組偵測的結果 Precision Recall High-tension 41% 43%

Low-tension 63% 37%

No mood 41% 65%

Average 48% 48%

這個正確率將近五成，而區分三類情緒的分類(classification)通常效果不佳，也就是亂數猜測的正確率是三成三，而我們的方法比最糟的結果好上 50%。由於這個結果還達不到能夠實用的正確性，所以我們將這個模組修正成為半自動(semi-automatic)的系統。

所謂的半自動指的是我們的程式會回傳一個結果給使用者判斷是否正確，若錯誤則由使用者將之修正。看起來似乎還是所有事情都得使用者做而沒有省下什麼，其實不然，因為如果程式的判斷為正確的話，使用者聽個數秒即可加以判斷，但如果全部由使用者聽完再判斷的話使用者得從頭聽到尾。也就是說，這個系統平均來說還是可以節省使用者一半以上的時間。

經過這幾個模組之後，我們將所有的音樂片段找出，分段，並偵測其中的音樂情緒。

這部分的成果將會在第[3]部分中與影片節奏相結合。

[2] 影片的節奏分析

在這個模組中，我們要偵測的是影片的節奏。所謂的節奏指的是電影進行的速度，

通常會給觀眾心理上實質的影響。這個模組我們使用的是我們實驗室前人的研究成果。

我們使用的特徵是鏡頭長度(shot length)和動作密度(motion activity)。前者是以蒙太奇編輯(montage editing)為根據，後者則是因為影片中的動作成分會明顯的影響我們對於影片進行快慢的感覺。藉由這兩者，我們為每個鏡頭(shot)計算出一個節奏值(tempo value)，並畫出節奏曲線。其中一個範例為圖(十三)。

圖七節奏曲線的範例

在圖(十三)中，橫軸為鏡頭編號，縱軸為節奏值。在第二八三個鏡頭附近，男女主角相擁沒什麼動作而且鏡頭很久，所以節奏值很低。在第二八六個鏡頭到第二九七個鏡頭是女主角正在追逐男主角，動作相較起來較大而且鏡頭較短。而最後在第三一三個鏡頭附近，動作相較於剛剛的追逐來講較小而鏡頭也稍長，所以節奏值也稍小。

在這裡計算出來的節奏值和所構成的曲線，將會在後面與音樂情緒結合而構成數個應用。

[3] 應用

這裡的應用有三種。第一種是音樂事件偵測(music event detection)，亦即把電影中帶有音樂的事件都找出來。由於在部份電影中音樂扮演重要的角色，因此此項應用即使讓人可以從這類電影中找出音樂事件。使用我們前面的幾個模組找出帶有音樂的片段，

再找出對應的鏡頭結合成鏡頭事件即可。

第二種是我們所做應用中的核心部分，情緒事件分析(emotional event detection)。由於在我們的系統中重視音樂，所以我們的情緒事件是以音樂事件為基礎在進行進一步的精製。首先，我們根據兩個主要的規則來設計比重方程式(weighting functions)。第一個規則，我們重視那些節奏值和音樂情緒有同樣趨勢的鏡頭。舉例來講，假設我們現在有一些鏡頭他們的節奏值很高，剛好他們配的又是高張力的音樂，則視覺和聽覺上同時都會有讓我們情緒高昂的效果，產生一種極為極端的情緒，我們認為這會散發強烈的情緒，讓觀眾產生深刻的印象。第二個規則，是重視音樂的告知性(notice-ability)。音樂有預告我們某類鏡頭即將出現的效果，舉例來講假設我們看電影看到一個人快樂的走在路上，背景卻響起悲慘的音樂，這時我們會覺得是否這人即將大禍臨頭。類似這樣，音樂可以告知我們某種情緒的鏡頭即將出現。根據這兩個規則我們訂出數個比重方程式，並依照這個方程式的結果計算出每個鏡頭的重要性，再根據這些重要性組織出情緒事件。

這樣產生的情緒事件被計算出他們的重要性(根據他們包含的鏡頭的平均重要性)，再依照其高低排列，選出最重要的幾個出來。我們的實驗結果將列於”3. 研究成果”中。

第三種應用是原聲帶視覺化(Original Sound Tracks (OST) visualization)，由於原聲帶是電影音樂的精華，而我們認為音樂可以喚醒人們對於電影的氣氛的印象，所以我們從電影原聲帶中挑音樂出來。這時還有兩個問題要解決，一個是我們需要有一些夠具代表性的影片片段，這個問題我們以上一個應用來解決。第二個問題是影片片段的長度和該樂曲不一定相符。我們的做法是取超過樂曲長度的事件量，然後再修剪到符合樂曲長度。這樣製造出來的視覺化原聲帶(visualized OST)可以幫助人們回憶他們看電影時的感覺。實驗結果同樣列於”3. 研究成果”中。

3. 研究成果

情緒事件分析的實驗結果使用主觀測試(subjective test)來檢驗。我們邀請了十一個人來打分數，一分最低五分最高，給分的依據是”這個片段是否讓你印象深刻或者具代

表性”，分數越高當然結果就越好。我們將這樣打出來的分數列於表(三)到表(五)。將其中分數較高的幾個片段的幾個截圖貼於圖(十四)到圖(十六)。

表三鐵達尼號(Titanic)的情緒事件偵測結果電影鐵達尼號

排名第一排名第二排名第三

看過電影的人的給分 4.9 4.5 4.4

沒看電影的人的給分 - - -

表四第六感生死戀(Ghost)的情緒事件偵測結果電影第六感生死戀

排名第一排名第二排名第三排名第四

看過電影的人的給分 4.0 3.5 2.0 4.5

沒看電影的人的給分 3.8 3.2 2.1 5.0

表五我的野蠻女友的情緒事件偵測結果

電影我的野蠻女友

排名第一排名第二排名第三排名第四

看過電影的人的給分 4.6 3.1 4.1 4.6

沒看電影的人的給分 4.5 2.5 3.0 4.5

(a)

(b)

(c)

圖八從電影鐵達尼號的情緒事件中截取的數張截圖：(a)排名第一的事件，(b)排名第二的事件和(c)排名第三的事件

(a)

(b)

圖九從電影鐵達尼號的情緒事件中截取的數張截圖：(a)排名第一的事件和(b)排名第二的事件

(a)

(b)

(c)

圖十從電影我的野蠻女友的情緒事件中截取的數張截圖：(a)排名第一的事件，(b)排名第三的事件和(c)排名第四的事件

表(六)和圖(十七)及圖(十八)則分別是原聲帶視覺化這個應用的主觀測試結果和截圖。這邊的給分標準改為”這個影片是否能讓你回憶起這部電影”，我們並且要求對方必須看過電影才能做答。

表六原聲帶視覺化在＂我的野蠻女友＂和＂鐵達尼號＂的主觀測試結果電影名稱電影我的野蠻女友電影鐵達尼號

平均分數 4.2 4.7

圖十一從我的野蠻女友的原聲帶視覺化結果中截取出的部分截圖

圖十二從鐵達尼號的原聲帶視覺化結果中截取出的部分截圖

上述的結果中我們可以看出，主觀測試的給分布並不差，情緒事件偵測可以將不少具強烈情緒的事件截取出來，而原聲帶視覺化則可以讓人回憶電影的內容。未來我們將繼續將其他情緒偵測模組，諸如語音情緒偵測(mood detection of speech)模組和表情偵測 (mood detection based on facial expression)模組加進我們的系統中，以構成一個更完美的電影情緒偵測系統。

C. 【H.264/AVC 解碼呈現引擎】

本技術開發之目的與其重要性請參閱第 2-6 至 2-7 頁之途述。以下謹就研究方法加以說明。

藉由重疊數個彼此獨立的指令來增加總輸出量是最常見的一種加速的方法，而其中最常見的多媒體資料間獨立特性都會內含於一串的指令中的，排程指令來達到多個指令間的平行化藉以利用具備同時輸出數個指令的處理器來達到加速的目的。其中適合應用於此作法的架構可稱之為非常長指令架構 (VLIW)，該架構可以同一時間執行固定個數的指令，其中固定輸出的指令個數是經由編譯碼器編譯出來的。除了非常長指令架構外，尚有一些特殊的指令集，該指令集可以分成兩大類 :

(A) Single-Instruction Multiple-Data-stream instructions (SIMD)

在多媒體的處理中特別是影像處理，大部分的運算元都會少於 32-bits 的寬度本類指令，為了不要浪費 32-bits 的 ALU 運算，本類指令集會攜帶 16-bits 或是 8-bits 的資料量同時處理數個 16-bits 或是 8-bits 的資料。

在文檔中經驗融合：兼具安全性及延展性之多媒體人本計算 (I) 產學合作計畫成果報告 (總計畫) (頁 129-143)