音樂、電影、視訊的搜尋、註解與分析

第二章文獻探討

2.6 電影視覺與配樂

2.6.2 音樂、電影、視訊的搜尋、註解與分析

用來處理研究聲音影像材料的技術是相當複雜的。已經有一些工具可以拿來作研究，其中有許多原本的用途並不在這上面的。許多的軟體還正在發展之中，

這也是在電腦科學裡面相當活躍的領域。

學者 Marsden et al.(2007)在其研究中指出，在人文領域中對於聲音影像材料的研究流程主要是取得、搜尋、蒐集、註記、轉錄、分析和展現。

(1) 取得、搜尋、蒐集資料

取得聲音影像材料時，必須要注意版權問題。電影和電視節目的資料庫在網際網路上已相當普遍。Internet Movie Database(IMDb)提供評論、劇情簡介、

製作資訊，有時提供預告片，幫助以主題和電影種類的方式搜尋影片。Podscope、

Blinkx、Google Video Upload(Google,2006c)等皆能夠提供搜尋影片。使用這些工具幫助我們有系統、有組織地蒐集聲音影像資料。

(2) 註解

註解係指針對影像及多媒體資料的特定時間點作額外資訊補充。MPEG-7 目前提供註解的功能，雖然它的應用還沒達到一致性，但在美術及人文研究中相當有幫助。不過它有一套針對相容性和操作上的特殊規則。Annodex (2006)取法 MPEG-7 的經驗，提供網路多媒體一個開放式標準的註記。網路上集體註記的功能相當常見。像是 Google Video 和 Youtube，依賴提供影片者的註記，像是影像的形式(style)、街角號誌(the presence of a street sign)的出現等。

某些專案也提供集體的設計和建構影音註記的軟體環境，讓一些人能夠針對 Accessing Searching& Collecting

Annotation

Transcriptio n

Analysis Presentation

相同的影音連續鏡頭工作。Efficient Video Annotation (EVA)(Volkmer,2006) 是一個支援將大量影像和影音作語意概念指標的一個新興網路工具。

Transana(WCER,2006)可幫助指認有興趣的片段(clips)、將這些片段寫入關鍵字、

安排片段、將相關的片段集中、挖掘相似的下關鍵字的內容、和同事分享分析結果等。MixMediaGrid(NCeSS,2005)提供社會科學家以小格(grid)分析聲音、影像質化資料的工具。

人工註解相當耗費時間，解決方法之一即是將部份工作自動化。過去十年來音樂資訊取得(Music Information Retrieval, MIR)領域快速發展。有些人關心的是分段(partitioning)，有些人則是關注節奏(tempo)、敲擊(beats)、和諧 (harmony)、音調(tonality)以及各種相似或分類的註解。其中發展得相當良好的工具有 Marsyas (Tzanetakis, n.d; Tzanetakis & Cook, in press)和 M2K(J.Stephen Downie 及其他人製作，Information Systems Research Laboratory, 2005)。

(3) 分析

作註解、解碼的工作，主要是為了分析使用。資通訊工具主要在聲音影像扮演兩個角色，第一個是微觀分析，針對較小、較快、被隱藏的資訊清楚地展現出來。最主要的例子即是傅立葉分析和擷取依時間而變化的頻率資訊的系統，在演說和音樂的分析中扮演重要的分析角色。第二個主要針對多種資料、資料的多種觀點、聲音資訊的轉錄，強化這些聲音影像的導航，讓學者能夠跳到指定的橋段、

對齊相似的資料、將這些資料以對齊的方式聽、或視覺化。

針對聲音特性、音樂的分析，主要使用的是採用傅立葉分析的工具，或是決定一個訊號的組成分子頻率和相對強度的自動相關方法。這些資訊的呈現方法，

主要透過聲像圖(sonogram)呈現。Wavesurfer 就是一個這樣的工具。Matlab 則是最常見的商用軟體。音樂家們為了各式各樣的目的使用這樣的工具，像是樂器聲調的分析、音調發音的分析以及聲音表現的抑揚頓挫等。然而，音樂和研究者想要研究、發現的東西之間仍然存在很大的鴻溝。舉例來說，聲像圖中顯示的頻率組成分子，並不是總是只和音調有關而已。資通訊工具在音樂領域中的應用，

主要是在讓學者能夠更快速、有效地對音樂作出判斷。

電影分析主要有兩大主題。第一，視覺形式和敘事結構的自動化分析。Virage

VideoLogger 軟體自動創造錄影帶內容結構化指標，去強化搜尋和取得。MoCA 透過比較鏡頭畫面的視覺統計數字和電影類型統計檔案序列，可自動化偵測電影的種類。第二，使用資料庫和撥放軟體，強化手動分析。CINEMETRICS 提供軟體，

幫助手動計算鏡頭長度的敘述性統計量。

(4) 呈現

呈現是指以各種數位科技展現、給予不同的方式呈現視覺影像資料，而不是單單只是紀錄而已。

(5) 視覺化

將聲音影像資料透過圖的方式幫助展示整個型態和結構，去觀察整部片的架構，或幫助針對特定點做研究。最常使用的技巧是使用剪輯軟體重新調整以創造出資訊的結構和組成的視覺化效果。電影研究學者使用商業軟體像是 Final Cut Pro 和 Adobe Premiere，不只能夠剪輯連續鏡頭，並可以以各式各樣的層級檢視電影的組成。剪輯時間線是最多影視剪輯軟體的核心要素，透過時間線，學者能夠將整部片的畫面鏡頭放大或縮小檢視，並且觀看電影的結構以及分析鏡頭之間的轉換。這同樣能夠使用在聲音的分析上，以指標的”波形(waveform)”展示，

快速偵測到聲音和寂靜，並發掘事件的開始和結束。針對因為偵測更高層級或具有"語意(semantic)"特性，CLAM Music Annotation 包含自動視覺化擷取二維依時間變化的和聲和音調資訊。

第三章研究方法

在文檔中從大腦認知觀點探討鏡頭變化對電影票房之影響 (頁 39-42)

第二章 文獻探討

2.6 電影視覺與配樂

2.6.2 音樂、電影、視訊的搜尋、註解與分析

第三章研究方法

第二章文獻探討