• 沒有找到結果。

第四章 影像文件內容擷取及分析

N/A
N/A
Protected

Academic year: 2021

Share "第四章 影像文件內容擷取及分析 "

Copied!
10
0
0

加載中.... (立即查看全文)

全文

(1)

21

第四章 影像文件內容擷取及分析

本章節將說明如何對投影片進行文件分析,擷取出投影片中的文字及圖片區

域。因為在教學影片的畫面中,在投影片布幕外,通常還會將其它物體拍進畫面

中,如:天花板、黑板、牆壁等,因此在進行文件分析前需先對教學影片做前置處

理,前置處理包括影像文件擷取及灰階化。4.1 節解釋影像文件內容擷取及分析

的流程,4.2 節說明如何擷取影像文件內容,4.3 節敘述影像文件像素屬性分析,

3.4 節為本章結論。

4.1 影像文件內容擷取及分析之流程

圖 4-1 為影像文件內容擷取及分析的流程圖,主要分成影像文件內容擷取及

影像文件分析兩個階段:

(1) 影像文件內容的擷取是對教學影片的畫面進行處理,由影片畫面中擷取出投

影片區域。透過這個步驟,可以達到過濾非投影片區域、校正歪斜角度的目

的,使擷取出來的影像文件只含有完整的投影片內容。

(2) 影像文件分析是對影像文件的組成物件進行分析,本研究將投影片的組成物

件分為文字與圖片兩類,故在經過文件分析後,影像文件中的文字區域及圖

片區域分別被擷取出來,以建立影像文件的結構描述。

(2)

22

4.2 影像文件內容擷取

影像文件內容的擷取是指將教學影片中屬於投影片的區域找出來,由於攝影

機在教學進行的過程中拍攝的角及位置都不會再改變,因此我們以教學影片的第

一個畫面來進行投影片區域的偵測,並假設教學影片中的第一個畫面是播放第一

張投影片,一般投影片的第一張內容都較單純,需計算的內容較少,因此適合以

此進行偵測投影片區域,圖 4-2 為教學影片中的投影片畫面,圖中的紅色框線代

表我們所要擷取的投影片區域。

教學 影片

去除非投影片 區域並校正

影像 文件

影像文件分

文字 圖片

背景 擷取單一畫面

是否為第 一張畫面

取得投影片 區域

影像文件擷取

影像文件分析

(Texture Segmentation

, 4.3.1)

(Transient Difference , 4.3.2)

圖 3-1 影像文件擷取與分析流程圖

(3)

23

4.2.1 投影片區域偵測

以教學影片的第一張畫面做為偵測投影片區域的標準(如圖 4-3(a)),用 Canny

edge detection 演算法找出畫面中直線邊緣(如圖 4-3(b)),令 E={e

1, e2, …, en}為偵

測出來的所有邊緣,再以這些邊緣組成的四邊形區域做為可能的投影片區域,但

在畫面中也許會偵測出不只一個四邊形區域,投影片上的圖表、圖片或是布幕周

圍的物體都可能組成四邊形區域,在此我們取所有四邊形區域中面積最大者做為

投影片區域 A = {b

1, b2, b3, b4}(4.1 式)。

𝐴 = 𝑏

1

, 𝑏

2

, 𝑏

3

, 𝑏

4

∈ 𝐸 𝑀𝐴𝑋 𝑡𝑕𝑒 𝑎𝑟𝑒𝑎 𝑜𝑓 𝐴 (4.1) 在教學影片中,投影片區域通常超過畫面大小的二分之一,且在投影機的照

圖 4-2 教學影片中的投影片區域

(4)

24

射下,投影片區域的邊緣會有明顯的亮度差異,透過這個特性,我們可以藉由找

出這些邊緣來取得投影片區域。Canny edge detector 擁有低錯誤率、準確定位邊

緣位址及不會重複偵測邊緣的優點,可以有效率地找出可能為投影片區域的邊

緣。

為了提高系統效能,我們只對第一個畫面進行投影片區域偵測,並假設所有

畫面的投影片區域皆相同。若是攝影機在拍攝過程並非固定不動,也可以改為對

每個畫面進行投影片區域的偵測。

(a)

(b) (c)

圖 4-3 影像文件擷取過程:(a)原始教學影片畫面 (b)以 Canny edge

detector 處理後的畫面 (c)去除非投影片區域並調整大小後得到

影像文件,為了使文件分析單純化,將影像文件灰階化

(5)

25

4.2.2 校正影像文件

因為在拍攝教學影片時,其拍攝角度常因人為因素或環境限制而難免有些誤

差,因此在取得正確的投影片區域後,我們需要以空間轉換(Spatial Transformation)

的方法,將投影片區域中的內容重新投影至正確的視角,並藉此去除畫面中的非

投影片區域。

變形透視轉換的第一個步驟是以投影片區域的四個座標(src

i

)與教學影片畫

面的四個座標(dst

i

)計算出兩者關係的雙線性方程式(Bilinear Equations),其方程式

如 4.2 式,

𝑠𝑟𝑐

𝑖

= (𝑥

𝑖

, 𝑦

𝑖

), 𝑑𝑠𝑡

𝑖

= (𝑥

𝑖

, 𝑦

𝑖

), 𝑖 = 0, … ,3 𝑥

𝑖

= 𝑐

1

𝑥

i

+ 𝑐

2

𝑦

𝑖

+ 𝑐

3

𝑥

i

𝑦

𝑖

+ 𝑐

4

𝑦

𝑖

= 𝑐

5

𝑥

i

+ 𝑐

6

𝑦

𝑖

+ 𝑐

7

𝑥

i

𝑦

𝑖

+ 𝑐

8

(4.2)

srci

是形成投影片區域的四個座標,dst

i

是形成教學影片畫面的四個座標,如圖 4-4,

以這些座標的對應關係求出 4.1 式中的方程式係數(c

1…c8

),再由此方程式對投影 片區域進行空間轉換,擷取出影像文件並將其灰階化,如圖 3-2(c)。

圖 4-4 以空間轉換去除非投影片區域及校正視角,擷取正確的影像文件

(6)

26

4.3 影像文件分析

影像文件分析[23, 32]的目的是將文件中的像素分成文字、圖片、背景三種屬

性,文字是指在投影片中出現的不同大小、不同國家所使用的文字,圖片定義為

投影片中任何圖片、線條、標籤、浮水印等,而背景是指在投影片中無顯著變化

的區域。文件分析分為兩個步驟,第一步先將文字區域擷取出來,第二步再計算

文件中的圖片區域,剩餘部分即為背景。所有原始文件已先進行文件分析,並儲

存其結構描述,以節省記憶體空間並加快比對效率。

(a) (b)

(c) (d)

圖 4-5 (a)影像文件 (b)以 Sobel edge detector 邊緣圖 (c)由影像文件

中擷取出來的文字區域 (d)由影像文件中擷取出來的圖片區域

(7)

27

4.3.1 文字區域擷取

在投影片中,為了要容易辨識,文字與其周遭像素的像素值通常會有較大的

對比,因此在文字區域擷取時先以 Sobel edge detector 對影像文件進行垂直方向邊

緣偵測[21, 22, 37],建立邊緣圖(Edge Map, EM(x,y)),EM(x,y)的值越大代表(x,y)

這個像素的邊緣強度越高,如圖 4.5(b),EM(x,y)的值介於 0~255 之間。接著先將

強度較弱的邊緣去除,去除邊緣用的門檻值(threshold)會以第一張影像文件與原始

文件進行比對,調整為適當的門檻值。接著以 4.3 式的濾波器(Rectangular filter),

過濾非文字部分的邊緣,取得影像文件中的文字區域(圖 4.5(c))。在本實驗中,門

檻值 T

1

設為 30,濾波器的大小設為 31 x 5(m = 31, n = 5),EM(x,y)為邊緣圖中(x,y)

這個點的像素值。

𝐸𝑀 𝑥, 𝑦 = 𝐸𝑀 𝑥, 𝑦 ,

𝑜 𝑖𝑓 𝑎𝑣𝑔 > 𝑇1

0,

𝑜 𝑒𝑙𝑠𝑒

(4.3) 𝑎𝑣𝑔 = 1

𝑚 × 𝑛 𝐸𝑀 𝑥 + 𝑖, 𝑦 + 𝑗

𝑛−1 2 𝑗 =−𝑛−1

2 𝑚−1

2 𝑖=−𝑚−1

2

(4.4)

以 Sobel edge detector 偵測邊緣有處理快速、能夠顯示邊緣強弱的優點,使文

字的邊緣的強度比圖片的明顯,利用這個特性我們可以過濾部分非文字區域的像

素。文字的邊緣密度比圖片高,並成矩形狀,去除邊緣圖中的非矩形部分後,我

們可以透過邊緣密度大小來擷取出影像文件的文字區域,如 4.5 式,TR(x,y)的值

為 1 表示點(x,y)的像素屬性為文字,為 0 則表示像素屬性可能是圖片或背景,在

實驗中門檻值 T

2

設定為 70。

(8)

28

𝑇𝑅 𝑥, 𝑦 = 1, 𝑖𝑓 𝑒𝑑 > 𝑇

2

0, 𝑒𝑙𝑠𝑒 (4.5) 𝑒𝑑 = 1

𝑊𝑠 × 𝑊𝑠 𝐸𝑀 𝑥 + 𝑖, 𝑦 + 𝑗

𝑊𝑠−12

𝑗 =−𝑊𝑠−1 2 𝑊𝑠−12

𝑖=−𝑊𝑠−1 2

(4.6)

若是以偵測水平方向邊緣來建立邊緣圖,亦可成功擷取出文字區域,但經實

驗顯示以垂直方向邊緣圖的擷取效果較好,因此本研究採取偵測垂直方向邊緣方

式建立邊緣圖。

4.3.2 圖片區域擷取

針對影像文件的非文字區域,以一個 window 計算每個像素週遭像素值的變

異量[32],將這些變異量(Transient Difference)的總和正規化(Normalize)為 0~1 之

間的值,其計算過程如 4.7 式:

𝑇𝐷 =

𝑊𝑠𝑖=1 𝑊𝑠𝑗 =1

|2𝑃 𝑖, 𝑗 − 𝑃 𝑖 − 1, 𝑗 + 𝑃 𝑖, 𝑗 − 1 |

2 × 𝐿𝑁 × 𝑊𝑠

2

(4.7)

Ws 是 window 的大小,在實驗中我們將 Ws 設為 7;P(i,j)代表在影像文件中(i,j)

這個位置的像素值;LN 是影像文件的灰階數,通常為 256(0~255)。

計算出每個像素的變異量後,因為圖片區域的像素值變異量會比較大,而背

景的像素值變異量則趨近於 0,因此可以利用這個特性將每個像素分類。我們將

像素變異量大於 0.01 的像素屬性設定為「圖片」 ,像素變異量小於 0.01 像素屬性

設定為「背景」 ,如表 4-1,擷取出影像文件的圖片區域,如 4.8 式,PR(x,y)的值

為 1 表示點(x,y)的像素屬性為圖片,為 0 則表示像素屬性可能為文字或背景,圖

4.5(d)。

(9)

29

𝑃𝑅 𝑥, 𝑦 = 1,

𝑜 𝑖𝑓 𝑇𝐷 ≥ 0.01

0,

𝑜𝑒𝑙𝑠𝑒

(4.8)

經過文件分析後,可以對影像文件分別擷取出文字及圖片區域,如圖 4-6,

以文字及圖片為特徵即可建立投影片的結構描述,進行比對。

4.4 結論

本研究考慮到可應用於演講、視訊會議等場合,需要進行即時處理,故以一

簡單快速的演算法進行影像文件分析,而不考慮可能更準確但計算費時的演算法。

除了影像文件,我們也以同樣的方式對原始文件進行分析並建立結構描述,在之 圖 4-6 經過文件分析將影像文件區分為文字及圖片,不屬於文字與圖片的

像素即為背景

表 4-1 像素變異量與像素屬性的對應關係 TD >= 0.01 0.01 < TD

像素屬性 圖片 背景

(10)

30

後的比對運算都是針對文件分析後的文件,而不再直接對原始圖檔進行運算,提

高處理效率。

由於本研究對投影片物件的擷取方式並不需事先建立背景,故對同一段影片

中的投影片所用的佈景主題並無限制,即使是屬於投影片佈景主題的圖案,在進

行文件分析時其像素屬性也會被辨識為圖片,做為結構描述的一部分。另外,以

事先建立背景的方式擷取投影片物件,很容易因為影片中的光源不勻或對比度太

差而使得擷取物件產生誤判。

參考文獻

相關文件

評估項目 評斷方式 要求基準 計罰方式 故障排除 經甲方通知(不限形. 式)後,未依契約規

2.考生請於 110年9月4日(星期六)

第三節 研究方法 第四節 研究範圍 第五節 電影院簡介 第二章 文獻探討 第一節 電影片映演業 第二節 服務品質 第三節 服務行銷組合 第四節 顧客滿意度 第五節 顧客忠誠度

„ 移動滑鼠游標到縮圖上, 移動滑鼠游標到縮圖上, ACDSee會自動顯示放大 ACDSee 會自動顯示放大 的縮圖

推理論證 批判思辨 探究能力-問題解決 分析與發現 4-3 分析文本、數據等資料以解決問題 探究能力-問題解決 分析與發現 4-4

4 月 10 日晚間 9 點 7 分,歷史上第一張黑洞的影像成功被人類解析出來,是

申請書(線上填寫)、畢業證書影本、身分證明 文件影本、青年存摺封面影本、役畢證明文件 完成1項 職業心理測驗.

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation