21
第四章 影像文件內容擷取及分析
本章節將說明如何對投影片進行文件分析,擷取出投影片中的文字及圖片區
域。因為在教學影片的畫面中,在投影片布幕外,通常還會將其它物體拍進畫面
中,如:天花板、黑板、牆壁等,因此在進行文件分析前需先對教學影片做前置處
理,前置處理包括影像文件擷取及灰階化。4.1 節解釋影像文件內容擷取及分析
的流程,4.2 節說明如何擷取影像文件內容,4.3 節敘述影像文件像素屬性分析,
3.4 節為本章結論。
4.1 影像文件內容擷取及分析之流程
圖 4-1 為影像文件內容擷取及分析的流程圖,主要分成影像文件內容擷取及
影像文件分析兩個階段:
(1) 影像文件內容的擷取是對教學影片的畫面進行處理,由影片畫面中擷取出投
影片區域。透過這個步驟,可以達到過濾非投影片區域、校正歪斜角度的目
的,使擷取出來的影像文件只含有完整的投影片內容。
(2) 影像文件分析是對影像文件的組成物件進行分析,本研究將投影片的組成物
○
件分為文字與圖片兩類,故在經過文件分析後,影像文件中的文字區域及圖
○
片區域分別被擷取出來,以建立影像文件的結構描述。
22
4.2 影像文件內容擷取
影像文件內容的擷取是指將教學影片中屬於投影片的區域找出來,由於攝影
機在教學進行的過程中拍攝的角及位置都不會再改變,因此我們以教學影片的第
一個畫面來進行投影片區域的偵測,並假設教學影片中的第一個畫面是播放第一
張投影片,一般投影片的第一張內容都較單純,需計算的內容較少,因此適合以
此進行偵測投影片區域,圖 4-2 為教學影片中的投影片畫面,圖中的紅色框線代
表我們所要擷取的投影片區域。
教學 影片
去除非投影片 區域並校正
影像 文件
影像文件分 析
文字 圖片
背景 擷取單一畫面
是否為第 一張畫面
取得投影片 區域
是 否
影像文件擷取
影像文件分析
(Texture Segmentation
, 4.3.1)
(Transient Difference , 4.3.2)
圖 3-1 影像文件擷取與分析流程圖
23
4.2.1 投影片區域偵測
以教學影片的第一張畫面做為偵測投影片區域的標準(如圖 4-3(a)),用 Canny
edge detection 演算法找出畫面中直線邊緣(如圖 4-3(b)),令 E={e
1, e2, …, en}為偵測出來的所有邊緣,再以這些邊緣組成的四邊形區域做為可能的投影片區域,但
在畫面中也許會偵測出不只一個四邊形區域,投影片上的圖表、圖片或是布幕周
圍的物體都可能組成四邊形區域,在此我們取所有四邊形區域中面積最大者做為
投影片區域 A = {b
1, b2, b3, b4}(4.1 式)。𝐴 = 𝑏
1, 𝑏
2, 𝑏
3, 𝑏
4∈ 𝐸 𝑀𝐴𝑋 𝑡𝑒 𝑎𝑟𝑒𝑎 𝑜𝑓 𝐴 (4.1) 在教學影片中,投影片區域通常超過畫面大小的二分之一,且在投影機的照
圖 4-2 教學影片中的投影片區域
24
射下,投影片區域的邊緣會有明顯的亮度差異,透過這個特性,我們可以藉由找
出這些邊緣來取得投影片區域。Canny edge detector 擁有低錯誤率、準確定位邊
緣位址及不會重複偵測邊緣的優點,可以有效率地找出可能為投影片區域的邊
緣。
為了提高系統效能,我們只對第一個畫面進行投影片區域偵測,並假設所有
畫面的投影片區域皆相同。若是攝影機在拍攝過程並非固定不動,也可以改為對
每個畫面進行投影片區域的偵測。
(a)
(b) (c)
圖 4-3 影像文件擷取過程:(a)原始教學影片畫面 (b)以 Canny edge
detector 處理後的畫面 (c)去除非投影片區域並調整大小後得到
影像文件,為了使文件分析單純化,將影像文件灰階化
25
4.2.2 校正影像文件
因為在拍攝教學影片時,其拍攝角度常因人為因素或環境限制而難免有些誤
差,因此在取得正確的投影片區域後,我們需要以空間轉換(Spatial Transformation)
的方法,將投影片區域中的內容重新投影至正確的視角,並藉此去除畫面中的非
投影片區域。
變形透視轉換的第一個步驟是以投影片區域的四個座標(src
i)與教學影片畫
面的四個座標(dst
i)計算出兩者關係的雙線性方程式(Bilinear Equations),其方程式
如 4.2 式,
𝑠𝑟𝑐
𝑖= (𝑥
𝑖, 𝑦
𝑖), 𝑑𝑠𝑡
𝑖= (𝑥
𝑖′, 𝑦
𝑖′), 𝑖 = 0, … ,3 𝑥
𝑖′= 𝑐
1𝑥
i+ 𝑐
2𝑦
𝑖+ 𝑐
3𝑥
i𝑦
𝑖+ 𝑐
4𝑦
𝑖′= 𝑐
5𝑥
i+ 𝑐
6𝑦
𝑖+ 𝑐
7𝑥
i𝑦
𝑖+ 𝑐
8(4.2)
srci是形成投影片區域的四個座標,dst
i是形成教學影片畫面的四個座標,如圖 4-4,
以這些座標的對應關係求出 4.1 式中的方程式係數(c
1…c8),再由此方程式對投影 片區域進行空間轉換,擷取出影像文件並將其灰階化,如圖 3-2(c)。
圖 4-4 以空間轉換去除非投影片區域及校正視角,擷取正確的影像文件
26
4.3 影像文件分析
影像文件分析[23, 32]的目的是將文件中的像素分成文字、圖片、背景三種屬
性,文字是指在投影片中出現的不同大小、不同國家所使用的文字,圖片定義為
投影片中任何圖片、線條、標籤、浮水印等,而背景是指在投影片中無顯著變化
的區域。文件分析分為兩個步驟,第一步先將文字區域擷取出來,第二步再計算
文件中的圖片區域,剩餘部分即為背景。所有原始文件已先進行文件分析,並儲
存其結構描述,以節省記憶體空間並加快比對效率。
(a) (b)
(c) (d)
圖 4-5 (a)影像文件 (b)以 Sobel edge detector 邊緣圖 (c)由影像文件
中擷取出來的文字區域 (d)由影像文件中擷取出來的圖片區域
27
4.3.1 文字區域擷取
在投影片中,為了要容易辨識,文字與其周遭像素的像素值通常會有較大的
對比,因此在文字區域擷取時先以 Sobel edge detector 對影像文件進行垂直方向邊
緣偵測[21, 22, 37],建立邊緣圖(Edge Map, EM(x,y)),EM(x,y)的值越大代表(x,y)
這個像素的邊緣強度越高,如圖 4.5(b),EM(x,y)的值介於 0~255 之間。接著先將
強度較弱的邊緣去除,去除邊緣用的門檻值(threshold)會以第一張影像文件與原始
文件進行比對,調整為適當的門檻值。接著以 4.3 式的濾波器(Rectangular filter),
過濾非文字部分的邊緣,取得影像文件中的文字區域(圖 4.5(c))。在本實驗中,門
檻值 T
1設為 30,濾波器的大小設為 31 x 5(m = 31, n = 5),EM(x,y)為邊緣圖中(x,y)
這個點的像素值。
𝐸𝑀 𝑥, 𝑦 = 𝐸𝑀 𝑥, 𝑦 ,
𝑜 𝑖𝑓 𝑎𝑣𝑔 > 𝑇10,
𝑜 𝑒𝑙𝑠𝑒(4.3) 𝑎𝑣𝑔 = 1
𝑚 × 𝑛 𝐸𝑀 𝑥 + 𝑖, 𝑦 + 𝑗
𝑛−1 2 𝑗 =−𝑛−1
2 𝑚−1
2 𝑖=−𝑚−1
2
(4.4)
以 Sobel edge detector 偵測邊緣有處理快速、能夠顯示邊緣強弱的優點,使文
字的邊緣的強度比圖片的明顯,利用這個特性我們可以過濾部分非文字區域的像
素。文字的邊緣密度比圖片高,並成矩形狀,去除邊緣圖中的非矩形部分後,我
們可以透過邊緣密度大小來擷取出影像文件的文字區域,如 4.5 式,TR(x,y)的值
為 1 表示點(x,y)的像素屬性為文字,為 0 則表示像素屬性可能是圖片或背景,在
實驗中門檻值 T
2設定為 70。
28
𝑇𝑅 𝑥, 𝑦 = 1, 𝑖𝑓 𝑒𝑑 > 𝑇
20, 𝑒𝑙𝑠𝑒 (4.5) 𝑒𝑑 = 1
𝑊𝑠 × 𝑊𝑠 𝐸𝑀 𝑥 + 𝑖, 𝑦 + 𝑗
𝑊𝑠−12
𝑗 =−𝑊𝑠−1 2 𝑊𝑠−12
𝑖=−𝑊𝑠−1 2
(4.6)
若是以偵測水平方向邊緣來建立邊緣圖,亦可成功擷取出文字區域,但經實
驗顯示以垂直方向邊緣圖的擷取效果較好,因此本研究採取偵測垂直方向邊緣方
式建立邊緣圖。
4.3.2 圖片區域擷取
針對影像文件的非文字區域,以一個 window 計算每個像素週遭像素值的變
異量[32],將這些變異量(Transient Difference)的總和正規化(Normalize)為 0~1 之
間的值,其計算過程如 4.7 式:
𝑇𝐷 =
𝑊𝑠𝑖=1 𝑊𝑠𝑗 =1|2𝑃 𝑖, 𝑗 − 𝑃 𝑖 − 1, 𝑗 + 𝑃 𝑖, 𝑗 − 1 |
2 × 𝐿𝑁 × 𝑊𝑠
2(4.7)
Ws 是 window 的大小,在實驗中我們將 Ws 設為 7;P(i,j)代表在影像文件中(i,j)這個位置的像素值;LN 是影像文件的灰階數,通常為 256(0~255)。
計算出每個像素的變異量後,因為圖片區域的像素值變異量會比較大,而背
景的像素值變異量則趨近於 0,因此可以利用這個特性將每個像素分類。我們將
像素變異量大於 0.01 的像素屬性設定為「圖片」 ,像素變異量小於 0.01 像素屬性
設定為「背景」 ,如表 4-1,擷取出影像文件的圖片區域,如 4.8 式,PR(x,y)的值
為 1 表示點(x,y)的像素屬性為圖片,為 0 則表示像素屬性可能為文字或背景,圖
4.5(d)。
29
𝑃𝑅 𝑥, 𝑦 = 1,
𝑜 𝑖𝑓 𝑇𝐷 ≥ 0.010,
𝑜𝑒𝑙𝑠𝑒(4.8)
經過文件分析後,可以對影像文件分別擷取出文字及圖片區域,如圖 4-6,
以文字及圖片為特徵即可建立投影片的結構描述,進行比對。
4.4 結論
本研究考慮到可應用於演講、視訊會議等場合,需要進行即時處理,故以一
簡單快速的演算法進行影像文件分析,而不考慮可能更準確但計算費時的演算法。
除了影像文件,我們也以同樣的方式對原始文件進行分析並建立結構描述,在之 圖 4-6 經過文件分析將影像文件區分為文字及圖片,不屬於文字與圖片的
像素即為背景
表 4-1 像素變異量與像素屬性的對應關係 TD >= 0.01 0.01 < TD
像素屬性 圖片 背景
30