第四章影像文件內容擷取及分析

(1)

21

第四章影像文件內容擷取及分析

本章節將說明如何對投影片進行文件分析，擷取出投影片中的文字及圖片區

域。因為在教學影片的畫面中，在投影片布幕外，通常還會將其它物體拍進畫面

中，如:天花板、黑板、牆壁等，因此在進行文件分析前需先對教學影片做前置處

理，前置處理包括影像文件擷取及灰階化。4.1 節解釋影像文件內容擷取及分析

的流程，4.2 節說明如何擷取影像文件內容，4.3 節敘述影像文件像素屬性分析，

3.4 節為本章結論。

4.1 影像文件內容擷取及分析之流程

圖 4-1 為影像文件內容擷取及分析的流程圖，主要分成影像文件內容擷取及

影像文件分析兩個階段:

(1) 影像文件內容的擷取是對教學影片的畫面進行處理，由影片畫面中擷取出投

影片區域。透過這個步驟，可以達到過濾非投影片區域、校正歪斜角度的目

的，使擷取出來的影像文件只含有完整的投影片內容。

(2) 影像文件分析是對影像文件的組成物件進行分析，本研究將投影片的組成物

○

件分為文字與圖片兩類，故在經過文件分析後，影像文件中的文字區域及圖

○

片區域分別被擷取出來，以建立影像文件的結構描述。

(2)

22

4.2 影像文件內容擷取

影像文件內容的擷取是指將教學影片中屬於投影片的區域找出來，由於攝影

機在教學進行的過程中拍攝的角及位置都不會再改變，因此我們以教學影片的第

一個畫面來進行投影片區域的偵測，並假設教學影片中的第一個畫面是播放第一

張投影片，一般投影片的第一張內容都較單純，需計算的內容較少，因此適合以

此進行偵測投影片區域，圖 4-2 為教學影片中的投影片畫面，圖中的紅色框線代

表我們所要擷取的投影片區域。

教學影片

去除非投影片區域並校正

影像文件

影像文件分析

文字圖片

背景擷取單一畫面

是否為第一張畫面

取得投影片區域

是否

影像文件擷取

影像文件分析

(Texture Segmentation

, 4.3.1)

(Transient Difference , 4.3.2)

圖 3-1 影像文件擷取與分析流程圖

(3)

23

4.2.1 投影片區域偵測

以教學影片的第一張畫面做為偵測投影片區域的標準(如圖 4-3(a))，用 Canny

edge detection 演算法找出畫面中直線邊緣(如圖 4-3(b))，令 E={e

1, e2, …, en}為偵

測出來的所有邊緣，再以這些邊緣組成的四邊形區域做為可能的投影片區域，但

在畫面中也許會偵測出不只一個四邊形區域，投影片上的圖表、圖片或是布幕周

圍的物體都可能組成四邊形區域，在此我們取所有四邊形區域中面積最大者做為

投影片區域 A = {b

1, b2, b3, b4}(4.1 式)。

𝐴 = 𝑏

₁

, 𝑏

₂

, 𝑏

₃

, 𝑏

₄

∈ 𝐸 𝑀𝐴𝑋 𝑡𝑕𝑒 𝑎𝑟𝑒𝑎 𝑜𝑓 𝐴 (4.1) 在教學影片中，投影片區域通常超過畫面大小的二分之一，且在投影機的照

圖 4-2 教學影片中的投影片區域

(4)

24

射下，投影片區域的邊緣會有明顯的亮度差異，透過這個特性，我們可以藉由找

出這些邊緣來取得投影片區域。Canny edge detector 擁有低錯誤率、準確定位邊

緣位址及不會重複偵測邊緣的優點，可以有效率地找出可能為投影片區域的邊

緣。

為了提高系統效能，我們只對第一個畫面進行投影片區域偵測，並假設所有

畫面的投影片區域皆相同。若是攝影機在拍攝過程並非固定不動，也可以改為對

每個畫面進行投影片區域的偵測。

(a)

(b) (c)

圖 4-3 影像文件擷取過程:(a)原始教學影片畫面 (b)以 Canny edge

detector 處理後的畫面 (c)去除非投影片區域並調整大小後得到

影像文件，為了使文件分析單純化，將影像文件灰階化

(5)

25

4.2.2 校正影像文件

因為在拍攝教學影片時，其拍攝角度常因人為因素或環境限制而難免有些誤

差，因此在取得正確的投影片區域後，我們需要以空間轉換(Spatial Transformation)

的方法，將投影片區域中的內容重新投影至正確的視角，並藉此去除畫面中的非

投影片區域。

變形透視轉換的第一個步驟是以投影片區域的四個座標(src

i

)與教學影片畫

面的四個座標(dst

_i

)計算出兩者關係的雙線性方程式(Bilinear Equations)，其方程式

如 4.2 式，

𝑠𝑟𝑐

_𝑖

= (𝑥

_𝑖

, 𝑦

_𝑖

), 𝑑𝑠𝑡

_𝑖

= (𝑥

_𝑖^′

, 𝑦

_𝑖^′

), 𝑖 = 0, … ,3 𝑥

_𝑖^′

= 𝑐

₁

𝑥

_i

+ 𝑐

₂

𝑦

_𝑖

+ 𝑐

₃

𝑥

_i

𝑦

_𝑖

+ 𝑐

₄

𝑦

_𝑖^′

= 𝑐

₅

𝑥

_i

+ 𝑐

₆

𝑦

_𝑖

+ 𝑐

₇

𝑥

_i

𝑦

_𝑖

+ 𝑐

₈

(4.2)

srci

是形成投影片區域的四個座標，dst

_i

是形成教學影片畫面的四個座標，如圖 4-4，

以這些座標的對應關係求出 4.1 式中的方程式係數(c

₁…c8

)，再由此方程式對投影片區域進行空間轉換，擷取出影像文件並將其灰階化，如圖 3-2(c)。

圖 4-4 以空間轉換去除非投影片區域及校正視角，擷取正確的影像文件

(6)

26

4.3 影像文件分析

影像文件分析[23, 32]的目的是將文件中的像素分成文字、圖片、背景三種屬

性，文字是指在投影片中出現的不同大小、不同國家所使用的文字，圖片定義為

投影片中任何圖片、線條、標籤、浮水印等，而背景是指在投影片中無顯著變化

的區域。文件分析分為兩個步驟，第一步先將文字區域擷取出來，第二步再計算

文件中的圖片區域，剩餘部分即為背景。所有原始文件已先進行文件分析，並儲

存其結構描述，以節省記憶體空間並加快比對效率。

(a) (b)

(c) (d)

圖 4-5 (a)影像文件 (b)以 Sobel edge detector 邊緣圖 (c)由影像文件

中擷取出來的文字區域 (d)由影像文件中擷取出來的圖片區域

(7)

27

4.3.1 文字區域擷取

在投影片中，為了要容易辨識，文字與其周遭像素的像素值通常會有較大的

對比，因此在文字區域擷取時先以 Sobel edge detector 對影像文件進行垂直方向邊

緣偵測[21, 22, 37]，建立邊緣圖(Edge Map, EM(x,y))，EM(x,y)的值越大代表(x,y)

這個像素的邊緣強度越高，如圖 4.5(b)，EM(x,y)的值介於 0~255 之間。接著先將

強度較弱的邊緣去除，去除邊緣用的門檻值(threshold)會以第一張影像文件與原始

文件進行比對，調整為適當的門檻值。接著以 4.3 式的濾波器(Rectangular filter)，

過濾非文字部分的邊緣，取得影像文件中的文字區域(圖 4.5(c))。在本實驗中，門

檻值 T

₁

設為 30，濾波器的大小設為 31 x 5(m = 31, n = 5)，EM(x,y)為邊緣圖中(x,y)

這個點的像素值。

𝐸𝑀 𝑥, 𝑦 = 𝐸𝑀 𝑥, 𝑦 ,

𝑜 𝑖𝑓 𝑎𝑣𝑔 > 𝑇₁

0,

𝑜 𝑒𝑙𝑠𝑒

(4.3) 𝑎𝑣𝑔 = 1

𝑚 × 𝑛 𝐸𝑀 𝑥 + 𝑖, 𝑦 + 𝑗

𝑛−1 2 𝑗 =−𝑛−1

2 𝑚−1

2 𝑖=−𝑚−1

2

(4.4)

以 Sobel edge detector 偵測邊緣有處理快速、能夠顯示邊緣強弱的優點，使文

字的邊緣的強度比圖片的明顯，利用這個特性我們可以過濾部分非文字區域的像

素。文字的邊緣密度比圖片高，並成矩形狀，去除邊緣圖中的非矩形部分後，我

們可以透過邊緣密度大小來擷取出影像文件的文字區域，如 4.5 式，TR(x,y)的值

為 1 表示點(x,y)的像素屬性為文字，為 0 則表示像素屬性可能是圖片或背景，在

實驗中門檻值 T

2

設定為 70。

(8)

28

𝑇𝑅 𝑥, 𝑦 = 1, 𝑖𝑓 𝑒𝑑 > 𝑇

₂

0, 𝑒𝑙𝑠𝑒 (4.5) 𝑒𝑑 = 1

𝑊𝑠 × 𝑊𝑠 𝐸𝑀 𝑥 + 𝑖, 𝑦 + 𝑗

𝑊𝑠−12

𝑗 =−𝑊𝑠−1 2 𝑊𝑠−12

𝑖=−𝑊𝑠−1 2

(4.6)

若是以偵測水平方向邊緣來建立邊緣圖，亦可成功擷取出文字區域，但經實

驗顯示以垂直方向邊緣圖的擷取效果較好，因此本研究採取偵測垂直方向邊緣方

式建立邊緣圖。

4.3.2 圖片區域擷取

針對影像文件的非文字區域，以一個 window 計算每個像素週遭像素值的變

異量[32]，將這些變異量(Transient Difference)的總和正規化(Normalize)為 0~1 之

間的值，其計算過程如 4.7 式:

𝑇𝐷 =

^𝑊𝑠_𝑖=1 ^𝑊𝑠_{𝑗 =1}

|2𝑃 𝑖, 𝑗 − 𝑃 𝑖 − 1, 𝑗 + 𝑃 𝑖, 𝑗 − 1 |

2 × 𝐿𝑁 × 𝑊𝑠

²

(4.7)

Ws 是 window 的大小，在實驗中我們將 Ws 設為 7；P(i,j)代表在影像文件中(i,j)

這個位置的像素值；LN 是影像文件的灰階數，通常為 256(0~255)。

計算出每個像素的變異量後，因為圖片區域的像素值變異量會比較大，而背

景的像素值變異量則趨近於 0，因此可以利用這個特性將每個像素分類。我們將

像素變異量大於 0.01 的像素屬性設定為「圖片」，像素變異量小於 0.01 像素屬性

設定為「背景」，如表 4-1，擷取出影像文件的圖片區域，如 4.8 式，PR(x,y)的值

為 1 表示點(x,y)的像素屬性為圖片，為 0 則表示像素屬性可能為文字或背景，圖

4.5(d)。

(9)

29

𝑃𝑅 𝑥, 𝑦 = 1,

𝑜 𝑖𝑓 𝑇𝐷 ≥ 0.01

0,

𝑜𝑒𝑙𝑠𝑒

(4.8)

經過文件分析後，可以對影像文件分別擷取出文字及圖片區域，如圖 4-6，

以文字及圖片為特徵即可建立投影片的結構描述，進行比對。

4.4 結論

本研究考慮到可應用於演講、視訊會議等場合，需要進行即時處理，故以一

簡單快速的演算法進行影像文件分析，而不考慮可能更準確但計算費時的演算法。

除了影像文件，我們也以同樣的方式對原始文件進行分析並建立結構描述，在之圖 4-6 經過文件分析將影像文件區分為文字及圖片，不屬於文字與圖片的

像素即為背景

表 4-1 像素變異量與像素屬性的對應關係 TD >= 0.01 0.01 < TD

像素屬性圖片背景

(10)

30

第四章 影像文件內容擷取及分析

第四章 影像文件內容擷取及分析

本章節將說明如何對投影片進行文件分析，擷取出投影片中的文字及圖片區

域。因為在教學影片的畫面中，在投影片布幕外，通常還會將其它物體拍進畫面

中，如:天花板、黑板、牆壁等，因此在進行文件分析前需先對教學影片做前置處

理，前置處理包括影像文件擷取及灰階化。4.1 節解釋影像文件內容擷取及分析

的流程，4.2 節說明如何擷取影像文件內容，4.3 節敘述影像文件像素屬性分析，

3.4 節為本章結論。

4.1 影像文件內容擷取及分析之流程

圖 4-1 為影像文件內容擷取及分析的流程圖，主要分成影像文件內容擷取及

影像文件分析兩個階段:

(1) 影像文件內容的擷取是對教學影片的畫面進行處理，由影片畫面中擷取出投

影片區域。透過這個步驟，可以達到過濾非投影片區域、校正歪斜角度的目

的，使擷取出來的影像文件只含有完整的投影片內容。

(2) 影像文件分析是對影像文件的組成物件進行分析，本研究將投影片的組成物

件分為文字與圖片兩類，故在經過文件分析後，影像文件中的文字區域及圖

片區域分別被擷取出來，以建立影像文件的結構描述。

4.2 影像文件內容擷取

影像文件內容的擷取是指將教學影片中屬於投影片的區域找出來，由於攝影

機在教學進行的過程中拍攝的角及位置都不會再改變，因此我們以教學影片的第

一個畫面來進行投影片區域的偵測，並假設教學影片中的第一個畫面是播放第一

張投影片，一般投影片的第一張內容都較單純，需計算的內容較少，因此適合以

此進行偵測投影片區域，圖 4-2 為教學影片中的投影片畫面，圖中的紅色框線代

表我們所要擷取的投影片區域。

圖 3-1 影像文件擷取與分析流程圖

4.2.1 投影片區域偵測

以教學影片的第一張畫面做為偵測投影片區域的標準(如圖 4-3(a))，用 Canny

edge detection 演算法找出畫面中直線邊緣(如圖 4-3(b))，令 E={e

測出來的所有邊緣，再以這些邊緣組成的四邊形區域做為可能的投影片區域，但

在畫面中也許會偵測出不只一個四邊形區域，投影片上的圖表、圖片或是布幕周

圍的物體都可能組成四邊形區域，在此我們取所有四邊形區域中面積最大者做為

投影片區域 A = {b

𝐴 = 𝑏

, 𝑏

, 𝑏

, 𝑏

∈ 𝐸 𝑀𝐴𝑋 𝑡𝑕𝑒 𝑎𝑟𝑒𝑎 𝑜𝑓 𝐴 (4.1) 在教學影片中，投影片區域通常超過畫面大小的二分之一，且在投影機的照

圖 4-2 教學影片中的投影片區域

射下，投影片區域的邊緣會有明顯的亮度差異，透過這個特性，我們可以藉由找

出這些邊緣來取得投影片區域。Canny edge detector 擁有低錯誤率、準確定位邊

緣位址及不會重複偵測邊緣的優點，可以有效率地找出可能為投影片區域的邊

緣。

為了提高系統效能，我們只對第一個畫面進行投影片區域偵測，並假設所有

畫面的投影片區域皆相同。若是攝影機在拍攝過程並非固定不動，也可以改為對

每個畫面進行投影片區域的偵測。

(a)

(b) (c)

圖 4-3 影像文件擷取過程:(a)原始教學影片畫面 (b)以 Canny edge

detector 處理後的畫面 (c)去除非投影片區域並調整大小後得到

影像文件，為了使文件分析單純化，將影像文件灰階化

4.2.2 校正影像文件

因為在拍攝教學影片時，其拍攝角度常因人為因素或環境限制而難免有些誤

差，因此在取得正確的投影片區域後，我們需要以空間轉換(Spatial Transformation)

的方法，將投影片區域中的內容重新投影至正確的視角，並藉此去除畫面中的非

投影片區域。

變形透視轉換的第一個步驟是以投影片區域的四個座標(src

)與教學影片畫

面的四個座標(dst

)計算出兩者關係的雙線性方程式(Bilinear Equations)，其方程式

如 4.2 式，

𝑠𝑟𝑐

= (𝑥

, 𝑦

), 𝑑𝑠𝑡

= (𝑥

, 𝑦

), 𝑖 = 0, … ,3 𝑥

= 𝑐

𝑥

+ 𝑐

𝑦

+ 𝑐

𝑥

𝑦

+ 𝑐

𝑦

= 𝑐

𝑥

+ 𝑐

𝑦

第四章影像文件內容擷取及分析

第四章影像文件內容擷取及分析

)，再由此方程式對投影片區域進行空間轉換，擷取出影像文件並將其灰階化，如圖 3-2(c)。

像素變異量大於 0.01 的像素屬性設定為「圖片」，像素變異量小於 0.01 像素屬性

設定為「背景」，如表 4-1，擷取出影像文件的圖片區域，如 4.8 式，PR(x,y)的值