基於Augmented XY-cut之文件影像結構分析

全文

(1)國立臺灣師範大學資訊工程研究所碩士論文. 指導教授：李忠謀. 博士. 基於 Augmented XY-cut 之文件影像結構分析 Augmented XY-cut Based Document Layout Structure Analysis. 研究生：鍾易昌撰. 中華民國. 一百年. 一月.

(2) i.

(3) ii.

(4) 摘要. 基於 Augmented XY-cut 之文件影像結構分析鍾易昌. 本研究從多種類文件中都擁有的排版關係，分析其排版結構，再加上可編寫 Rule-Base 文件，來達到協助影像分析目的。一般研究方法為了分析文件影像，需對文件影像進行結構分析，好的結構分析結果可以簡化後續理解程序，本研究利用 Recursive XY-cut 來當作基底，修改成更實用的 Augmented XY-Cut 分析， Augmented XY-Cut 修正 Recursive XY-cut 只能切到文件欄位的缺點，並加入了空白區塊節點，讓 Augmented XY-Cut 更符合文件結構，簡化了 Rule-Base 複雜度。. iii.

(5) ABSTRACT. Augmented XY-cut Based Document Layout Structure Analysis by Yi-Chang Chung. This study use Recursive XY-cut as a base, modified into a more practical Augmented XY-Cut Analysis. General methods for analysis of document images, document image to be on the structural analysis, simplified a good follow-up to understand.. structural analysis can be. Augmented XY-Cut Fixed Recursive. XY-cut field that can only be cut to the shortcomings of the documents and add the whitespace node,. so Augmented XY-Cut more in line with the documents. structure, simplifies the complexity of Rule-Base analysis.. iv.

(6) 請獻給照顧我無微不至的肝. v.

(7) 誌. 謝. 這篇論文能夠完成，首先要感謝我的指導教授李忠謀老師，在碩士的研究生涯中適時給我指導與挑戰，讓我勇於面對問題。再來要感謝帶我研究的簡培修學長，每周固定的討論讓我的研究漸漸的有了雛形。還有實驗室的學弟妹們，在研究和口試的時候幫了我許多忙。最後，我要感謝我的家人，有了你們的支持我才能完成學業，感謝你們！. vi.

(8) 目錄一、. 緒論................................................................................................................. 2 1.1 1.2 1.3 1.4. 二、. 研究背景: ........................................................................................................ 2 研究目的.......................................................................................................... 3 研究的範圍與限制.......................................................................................... 3 論文結構.......................................................................................................... 3 文獻探討......................................................................................................... 4. 2.1 文件結構格式.................................................................................................. 4 2.2 切割文件方法.................................................................................................. 5 2.2.1 Run-length smoothing values................................................................. 5 2.2.2 Docstrum ................................................................................................ 6 2.2.3 Whitespace Analysis .............................................................................. 6 2.2.4 Recursive XY-cut ................................................................................... 7 2.3 文件結構分析.................................................................................................. 9 三、方法與步驟................................................................................................... 10 3.1 系統流程......................................................................................................... 10 3.2 前處理............................................................................................................. 10 3.2.1 二元化.................................................................................................. 11 3.2.2 雜訊過濾.............................................................................................. 11 3.2.3 旋轉校正.............................................................................................. 12 3.3 文件切割......................................................................................................... 15 3.3.1 空白區塊節點...................................................................................... 15 3.3.2 切割分析區塊...................................................................................... 20 3.3.3 結構樹彙整.......................................................................................... 24 3.4 文件內容分析................................................................................................ 26 3.4.1 Rule-Base 基本單位 ............................................................................ 26 3.4.2 Rule-Base 分析語法 ............................................................................ 28 3.4.3 Rule-Base 的使用範例 ........................................................................ 31 四、實驗結果....................................................................................................... 33 4.1 旋轉校正比較................................................................................................. 33 4.2 RXYC 和 AXYC 切割比較 ........................................................................... 35 4.3 切割時間比較................................................................................................. 36 4.4 Rule-Base 分析實驗 ....................................................................................... 38 4.4.1 名片欄位偵測...................................................................................... 38 4.4.2 問卷欄位偵測...................................................................................... 39 五、結論............................................................................................................... 42 參考文獻....................................................................................................................... 43 1.

(9) 一、緒論 1.1 研究背景: 近年來資訊科技蓬勃發展，帶動了人們生活進步，藉由電腦自動化特性，加速了許多業界產能，在各個領域也有相當多應用。而文件影像處理也在資訊發展潮流中，扮演著重要角色。數位文件的出現，取代了部分紙本文件，例如線上問卷、線上訂車票系統、e-mail 服務等應用。但數千年來累積的紙本資料，傳統紙筆考試制度，以及收據憑證使用，讓紙本無法輕易被取代，這使得如何將紙本文件數位化供電腦處理，成為一項重要的課題。. 文件影像分析是為了數位化文件而生，例如郵局信件分類，利用郵遞區號位在信封的固定位置，藉由掃描其影像後讓電腦做辨識分析，加速郵局信件分類。而原來靠人力分類信件，不僅耗時耗力，成本也遠高於電腦自動化處理。在業界也有關於文件影像處理的商用軟體，例如名片王，能夠將名片藉由掃描後做分析處理，方便使用者管理和搜尋。國外也有針對收據與發票的辨識應用，銀行也有對於支票掃描辨識系統等，文件影像分析可說是與人們生活息息相關。. 不過目前文件影像分析，大多在做分析之前，需手動去設定精確的文件欄位資訊，電腦才能從文件影像之中，準確擷取出需要文件影像去做分析，每當有新文件格式產生時，仍然得重新設定文件格式，才能符合新文件需求。亦有方法是針對單一種類文件，可以不用重新設定欄位的方法，例如利用信封特定格式，或各欄位相對關係來做處理，達到自動化欄位擷取。通常這類針對單一種類方法， 2.

(10) 為了提高準確度，會加入很多限定演算法，但相對系統可應用範圍就變小了。. 一般文件為了閱讀方便性，都會進行排版，例如文件標題通常在正上方較醒目地方，而每個段落開始都會有縮排，或是段落標題通常會大於內文等特性，特定格式文件也是會有固定的排版形式方便專員處理。如善用這些排版特性，來當作文件分析依據，便可用來分析大多數文件。. 1.2 研究目的本研究從多種類文件中都擁有的排版關係，分析其排版結構，再加上可編寫 Rule-Base 文件，來達到協助影像分析目的。一般研究方法為了分析文件影像，需對文件影像進行結構分析，好的結構分析結果可以簡化後續理解程序，本研究利用 Recursive XY-cut(RXYC)[10]來當作基底，修改成更實用的 Augmented XY-Cut (AXYC)分析，AXYC 修正 RXYC 只能切到文件欄位的缺點，並加入了空白區塊節點，讓 AXYC 更符合文件結構，簡化了 Rule-Base 複雜度。. 1.3 研究的範圍與限制本研究針對橫列式文件影像進行判讀，以黑白文字影像為主，亦即背景不能為彩色。掃描後的圖檔容許正負 5 度的歪斜及小於 10 pixel 的雜點。. 1.4 論文結構本論文分為五章，第一章簡介研究背景與目的，第二章是文獻探討，第三章則深入探討研究中所使用的理論與方法，第四章則是實驗結果，第五章則是結論。. 3.

(11) 二、文獻探討關於文件排版分析的相關研究有很多，依據用途可分成許多種類，像是針對一般文件結構化分析[1]，還有針對信封[2]內容偵測擷取，或專為中文名片[3]做的影像切割，商業文件[4]欄位與簽名擷取和表格[5]偵測等多種辨識分析方法，大部份文件都是文字為主，表格和圖片為輔的分析，而他們共通點都是需要先做文件切割(Document segmentation)，將其分割成較小單位後，再根據不同文件種類，對應不同演算法，將文件內容架構解析出來，再來辨識其文件內容。. 2.1 文件結構格式每一種文件都有其獨特的排版格式，而傳統文件分類可根據排版不同分為 Manhattan layouts 和 non-Manhattan layouts [6]。Manhattan layouts 是指每塊切割區塊，都能用一個矩形表示其範圍，且不會和其他區塊互相重疊，如圖 1 左。反之 non-Manhattan layouts 無法利用單純矩形，將文件區塊切割出來，如圖 1 右。影像切割就是要了解文件的排版結構，所以這兩種排版方式切割方法會有很大差異，而本篇研究將會以 Manhattan layouts 分析為主。. 圖 1. Manhattan layouts(左) 與 non-Manhattan layouts(右) 4.

(12) 文件切割目的是將文件切成幾個有結構意義的區塊，通常是具有相同排版關係的區塊，例如段落文字、表格、或是圖片等，切成一塊有意義的範圍。而根據文件切割方法又可分為 Top-down [7]和 Bottom-up [8]兩種模式。Top-down 的概念是將文件由大到小，由上而下的切割成不同的小單位。而 Bottom-up 則是反過來，從各個小的影像單位組合成一個較大區塊，以此來當作文件的分析單位。. 2.2 切割文件方法切割文件有很多方法，一般常用的有 Run-length、Docstrum 和 RXYC 等，每種切割方法都有各自優缺點和用途，在下面小節將會分別介紹。. 2.2.1 Run-length smoothing values Run-length smoothing values [9] (簡稱 RLSA)是一個最早被使用的切割法之一，此方法是先將文件二元化以後，以水平方向將較小的空白填滿，再用連通概念將文件以行單位切割出來，RLSA 目的是在分析文件影像中文字位置，以行當作單位來表示，優點是使用簡單方便，但是無法直接表示影像圖片，需要額外處理，一般是使用在結構較單純的文件影像上。. 圖 2. 文件(左)在 RLAS 分析時，會將字與字中間填滿(中)，. 分析 Connected-components 位置，找出每行對應位置(右) 5.

(13) 2.2.2 Docstrum Docstrum [11]是一種 Bottom-up 的切割結構方法，適用於 Manhattan layouts。此方法是先將文件影像用連通物件方式，找出文件中每個連通單位，如圖 3 所示，再以其矩形範圍當基準，將附近相鄰的物件做連結，由小而大將整個物件切割出來。此方法的優點是比較不會受到雜訊和格線的影響，缺點是會受到文字大小影響切割準確度。. 圖 3. Docstrum 會由小到大從字母組合成單字，再從單字組合成句子等，一路向上分析. 2.2.3 Whitespace Analysis Whitespace Analysis [12]是一種比較特別 Top-down 切割方法，適用於 non-Manhattan layouts。主要概念是找出影像中最大的空白矩形區塊做切割，再從重複搜尋第二第三大空白矩形，直到搜尋至一定數量的空白區塊為止，接著反過來分離非空白區塊，就是文件內容了。這個方法好處是可以應用在 non-Manhattan layouts 的文件格式中，缺點是搜尋空白的時間較長，一般會限制搜尋空白區塊數量上限，但就只能切到文件欄位，區塊內的行與單字需要額外方法分析出來。. 6.

(14) 圖 4. WhiteSpace 搜尋出空白區塊(左) 刪除空白區塊，剩下文字區塊(右). 2.2.4 Recursive XY-cut Recursive XY-cut [10](簡稱 RXYC)是一種 Top-down 的切割結構方法，適用於 Manhattan layouts。主要概念是利用水平投影和垂直投影找出最大空白範圍，以此劃分為二成兩大區塊，再重複動作繼續往下切，當切割影像小於一門檻值後才停止。傳統 RXYC 是針對文件欄位做切割，其中的內容還需要用其他方法搭配分析出來。除了切割以外，RXYC 同時也會建立一個文件分析的結構樹，先從整張文件當作 Root node 資訊，在切割時，切割的區塊也以 node 方式建立儲存，直到切割停止。RXYC 的大致演算法流程如下: Step 1. 以整張影像建立 Root node Step 2. 判斷圖片是否小於門檻值，如是則停止切割 Step 3. 對圖片做水平和垂直投影，找出最大的空白投影區段 Step 4. 依最大空白投影做分割，將圖片切割成兩塊，分別建立 node 資訊 Step 5. 切開的兩塊影像再帶入 Step 2~ Step 5 步驟內，直到 Step 2.停止切割圖 5 是從[10]的參考範例，左邊是原始的文件影像，而經由 RXYC 的切割之後，文件會被切割成如圖 5 右所顯示的區塊，分析每一區塊的實體物件範圍後，加上前述切割時所建立的結構樹，可得到圖 6 右邊的結果。RXYC 的優點是速度很 7.

(15) 快，切割的結構樹可以當作分析的依據，但缺點是容易受到雜訊或格線影響。. 圖 5. 圖 6. 原始影像(左)，RXYC 切割的情況(右)，參考自[10]. 當 RXYC 切割後分析的欄位 (左)，切割產生的結構樹(右) ，參考自[10]. 在本研究裡所使用的切割法 AXYC 是以 RXYC 去做修改而成的，利用 RXYC 可同時產生排版分析所需要的物理結構樹，再加上 Whitespace Analysis 概念為輔助，將文件中的空白區塊也加入結構樹中，來當作分析資料。Whitespace Analysis 本身是很耗時的演算法，但是 AXYC 執行時間較短，利用 AXYC 切割空白的話，可以讓分析文件更有效率。. 8.

(16) 2.3 文件結構分析一般切割完文件以後，根據其文字區塊位置，依照文章排版方式，將文件的物理結構(Physical layout structure)分析出。有些切割方法如 RXYC，本身切割就是依據文件的結構性，切割完後其物理架構也相對分析完畢。如果只有單純將文字影像切割成的單一小區塊，例如 Docstrum，就需要再做物理結構分析的動作。結構化的資料結構包含了排版資訊，文章先後順序，文件欄位的座標資訊都包含內，因此可以當做一項分析的依據。文件物理結構通常會跟文件邏輯結構(Logical layout structure)有所關聯。邏輯結構是由各邏輯單位所組成，而邏輯單位指的就是文件的內容單位，例如論文封面包含標題、作者、摘要、章節等，或是郵件信封含有郵遞區號、地址、收件人名稱等邏輯單位。邏輯結構可以從物理結構中分析出，Stefan Klink, Thomas Kieninger [13]利用規則(Rule-base)，和的模糊比對(fuzzy match)來辨認出文件的邏輯單位，但是預設的邏輯單位固定不能修改，偵測過程無法動態調整。而由 Gaceb 等人所提出信封欄位偵測方法[2]，是用信封具有規格化特性，在其各欄位的相對位置建立模組，再加上文字辨識(OCR)當作分析條件，找出信封中各個欄位資訊。雖然使用 OCR 可以增加判斷條件，但是 OCR 準確度也影響了偵測結果，且針對信封文件的關鍵字，就只能針對信封使用，無法用來偵測其他類別文件。以上方法都是針對單一種文件做處理，雖然在各個目標上都有很好的成效，但是如需應用到不同類別文件時，則會有相當大的困難度，本研究目標是從多種類文件中都擁有的排版關係，藉由分析其排版結構，再加上可編寫的 Rule-Base 文件，來達到協助影像分析的目的。 9.

(17) 三、方法與步驟 3.1 系統流程文件分析從掃描好的影像開始，經過一連串前處理將文件影像做校正，然後利用 AXYC 進行切割，以找出文件物理排版結構。最後利用 Rule-Base 分析文件邏輯結構，完成文件分析。處理流程如圖 7 所示，各步驟將於後續章節說明。. 圖 7. 文件分析流程圖. 3.2 前處理一般原始影像資料並不適合直接拿來做文件切割，因為其中文件本身可能帶有污漬，或是在掃描過程中，掃描平台帶有灰塵雜物，一併掃入而產生雜訊，亦或是在掃描過程中，未將文件放正而產生誤差，特別是以送紙器的掃描方式，最容易因滾輪帶動力量不平均而造成影像歪斜，這些影像需要進行前處理，將文件影像修正成可供分析的文件影像。 10.

(18) 3.2.1 二元化二元化是影像處理中相當常用的前處理方法，一般圖檔帶有色彩或灰階資訊，但並不是所有影像分析都需要這些資訊，這些資訊甚至可能造成處理上困難，將影像經過二元化處理後，不但可以簡化文件複雜度，還可以強化文件特性。一般文件都是黑白文字內容為主，轉成黑白後對分析有所幫助。本研究使用 Otsu[14] 二元化演算法，此方法利用影像灰階值統計分布圖(histogram)，如圖 8，加上統計分群的方法，將灰階值分成黑白兩類，藉此訂出二元化的門檻值 (threshold)。Otsu 的優點是對處理文字影像和空白背景的分界相當準確，在文件分析中經常被使用到。. 圖 8. Otsu 利用統計的方式將影像的灰階值分成黑白兩群. 3.2.2 雜訊過濾由於掃描文件本身會帶有一定程度雜訊，而在影像格式轉換時也會產生少許雜訊，這對 AXYC 造成很大的影響，如圖 9 左在沒有處理噪點時，會產生許多無意義的空白區塊。雖然在二元化的過程中，已過濾了大部分雜訊，但是仍有少數雜點散佈在空白區塊的情況。本研究利用搜尋 Connected Components 的方式，將小於 10 個 Pixel 的影像分離出來，填入白色後再做切割，其結果如圖 9 右。 11.

(19) 圖 9. 因為噪點產生多餘切割(左圖)，經過處理後切割變少了(右圖). 3.2.3 旋轉校正在掃描過程中因為人為因素，或是機器老化與故障，使得文件影像有所偏移，間接影響演算法準確度，需要做旋轉校正。Sarin Watcharabutsarakham [15]提出利用 RXYC 切割數，來當作旋轉校正判定依據。當影像歪斜時，RXYC 無法切出歪斜的文字空白隙縫，反之影像文件角度正確時，則可以切割到最小的單位。此方法需先設定好搜尋範圍、偵測的單位量尺，再針對每個量尺角度做切割，從中找出此範圍最佳的校正角度。研究中用的 AXYC 是基於 RXYC 衍生產物，亦可以拿來當作旋轉校正依據，如圖 10 是兩種情況比較，紅色為含有文字影像的區塊，藍色為空白的區塊，左圖的文件經過-3∘的旋轉過後，AXYC 就無法切割文字區塊內，右圖是未經過旋轉的文件，AXYC 則可以很清楚的切割出每個文字區塊。. 圖 10 旋轉-3∘文件影像的 AXYC(左)，未旋轉文件影像的 AXYC(右) 12.

(20) 但是實際上此方法仍有一定誤差，如圖 11 歪斜 -2.8∘文件影像，雖然紅色的影像區塊被詳細切割出來，但整張影像仍是歪斜的狀態，這造成在紅色影像區塊附近，產生了多餘的藍色空白區塊。這是因為文字間空隙是個矩形，可容許小角度歪斜，而多餘的區塊切割會對影像分析相當不利。. 圖 11. 旋轉-2.8∘文件影像的 AXYC. 圖 12 左是統計影像切割數的圖表，當角度在 -3∘~ +3∘的範圍下沒有明顯的坡峰，最大值可能同時產在一個範圍內。為了解決這個問題，研究中參考了水平節點數量，如圖 12 右，水平節點數量會再接近 0∘時大幅下降，這是因為當文件旋轉到 0∘時，文字旁多餘的空白區塊減少，多餘切割的情況也就相對的減少了。不過此現象只會出現在當文件在接近 0∘附近產生，所以仍需先利用影像切割數量找到坡峰附近，再利用水平節點數量找到坡谷。. 13.

(21) 圖 12 影像切割數量在小角度時無法準確判定，但利用水平節點統計可以準確找到正確角度. 為了簡化演算法，研究中將影像切割數減去水平節點數，來當作旋轉校正的參考依據。如圖 13，當旋轉角度為 0∘時，會呈現一個很明顯的坡峰，做為旋轉校正判定的依據。. 圖 13. 影像切割數量減去水平節點數後會在文件 0∘時形成一個坡峰. 14.

(22) 3.3 文件切割文件切割是文件分析中最重要核心之一，好的切割結構可以讓後續的分析更簡單明瞭，本研究發展的切割方法 AXYC，目的是將文件排版用簡潔穩定的樹狀結構表達出來，方便後續的 Rule-Base 分析文件的內容。AXYC 是將 RXYC 和 Whitespace Analysis 兩種概念結合使用，圖 14 是原始 RXYC 流程圖，詳細的演算法描述在第二章，而 AXYC 將對紅色區塊部分進行調整，在後面分成小節說明。. 圖 14. RXYC 演算法流程圖. 3.3.1 空白區塊節點空白區塊在排版中是一個很重要的資訊，文件欄位就是利用空白區塊來當作分隔依據，段落縮排與凸排可以用每行前面的空白大小來分析，文字間句子也可以利用空白區塊判定，所以 AXYC 將空白節點加入可以增加分析文件結構的資訊。原本的 RXYC 並沒有針對空白部分做保留，如何將空白加入結構樹當中，便是一個重要問題。以圖 15 為例，左邊假設是原始影像，經過圖 14 的流程後可以得到圖 15 中間的結果，以及右邊分析結構樹。. 15.

(23) 圖 15. 圖 16. RXYC 的分析範例，R 代表 Root. AXYC 加入空白區塊的順位，水平切割時(左)和垂直切割時(右)的順序不同. 首先 AXYC 針對空白種類做分析，從圖 16 為例，文件的空白可以分成三大類：水平邊界空白、切割空白和垂直邊界空白。AXYC 基於橫列式文件的排版，依照每種空白對排版的影響，排定切割優先順序。水平邊界空白優先切割，可幫助對於「行」的判定。接著原本的切割線修改成切割空白，最後才將垂直邊界空白切出。垂直邊界空白對於欄位的判定有很大的幫助，所以垂直切割時，會同時將垂直邊界一併切割。為了切割各個區塊，AXYC 會針對影像區塊做投影分析，假設目前分析到的區塊為 S 是由 M*N 的 pixels 所組成的影像區塊，當 AXYC 對 S 做投影分析時，將產生一排由空白和非空白交替而成的間距數列，如圖 17，空白的投影間隔以 W 16.

(24) 圖 17. AXYC 分析區塊 S 水平垂直投影，找出所有投影間隔距離. 表示，非空白的投影間隔以 B 表示，再依據投影的方向分成兩類， W h 、 B h 表示水平投影的間隔距離， W v 、 B v 表示垂直投影的間隔距離，假設水平投影間隔數為 m，可以表示成以下數列：. W. h 0. , B1h ,W2h ,...,Wmh- 2 , Bmh 1,Wmh. . 而垂直投影間隔數為 n，可以表示成以下數列：. W. v 0. , B1v ,W2v ,...,Wnv- 2 , Bnv1,Wnv. . 其中 W0h 、 Wmh 、 W0v 、 Wnv 分別代表上下左右的邊界空白，接著 AXYC 會針對 B h h 之間的 W h 做搜尋，找出最大的 W h 作切割的參考，水平最大空白間隔 Wmax h 為：. . h h h h h Wmax h  max W2 ,W4 ,...,Wn4 ,Wn2. 17. .

(25) v 而垂直最大空白間隔 Wmax v 為：. . v v v v v Wmax v  max W2 , W4 ,...,Wm4 , Wm2. . 當找到最大水平空白間隔後，可將影像區塊切割為上下兩部分，其距離分別以 h h Wtop 和 Wdown 表示，其值的計算為：. h Wtop . max h 1 2. W i 1. h 2i. . max h 1 2. B i 0. h 2i 1. ，. n 1 2. W. h Wdown  i. h 2i. n 1 2. B. . max h 1 2. i. v. h 2 i 1. max h 2. v. 最大的垂直空白亦可切成左右兩部分，其距離分別以 Wleft 和 Wright 表示，其值的計算為：. v Wleft . max v 1 2. max v 1 2. i 1. i 0. W2vi . 圖 18. v v W  B right  2i 1 ，. m 1 2. W. i. max v 1 2. v 2i. . m 1 2. B i. max v 2. AXYC 找出最大投影空白間隔後，訂出各切割區塊大小 18. v 2 i 1.

(26) 圖 19. 加入空白區塊的切割演算法. 最後的分析數列就可做為切割選擇的依據，如圖 18 所示。根據數列參數，可以定義出加入空白區塊後的切割演算法，如圖 19 所示。利用此演算法切割圖 15 左的文件影像，如圖 20 所示。圖 21 是和 RXYC 兩者間的比較。. 圖 20 加入空白節點後的切割過程 V: 垂直排列節點，H 水平排列節點，W 空白區塊節點，B 含影像節點. 19.

(27) 圖 21. (上)RXYC 所切割出來的區塊與結構樹，(下)加了空白區塊後的切割區塊與結構樹. 3.3.2 切割分析區塊 RXYC 只有將文件切成「欄位」，並沒切割到「行」和「字」等單位，而一般文件通常需要分析到「行」或「字」之間，切割條件勢必需調整才能做更詳細的分析。然而當 RXYC 的門檻值設定被去除，直接將 RXYC 切到最小單位，會產生兩個問題，一是產生跨行切割，二是切割到文字內，如圖 22 所示。. 圖 22. 用原 RXYC 的判定條件切割會在字與行之間產生誤判的問題 20.

(28) 為了解決跨行切割，AXYC 的切割判定條件，改成最大切割空白面積，如圖 23，RXYC 會因為垂直投影的寬度較大，優先選擇垂直切割造成切割錯誤，而 AXYC 在橫列式的文件中，因為行的寬度遠大於文字間的寬度與高度，使得水平切割面積大於垂直切割面積，優先選擇水平切割，避免了跨行切割的情況。加入此條件後，跨行切割的狀況就減少了，如圖 24 所示。. 圖 23. 圖 24. AXYC 利用矩形面積避免跨行割. AXYC 利用空白矩形判斷切割，減少跨行的情況. 圖 25 中，有些文件的排版將行中間文字拉開，切割時導致跨行切割的狀況，為了避免這種情況，在做垂直切割時，切割的兩區塊寬度不能相差太大，因此如 21.

(29) 同時有水平含垂直切割時，且垂直切割矩形比較大，但兩邊切割後影像寬度懸殊時，AXYC 仍以水平切割優先，如圖 26 所示。實驗中以兩邊比值互不大於 3 為門檻。經過設定後的切割結果如圖 27 所示。. 圖 25. 圖 26. 因排版關係產生跨行切割. 垂直切割時切割後兩影像區塊寬度相差太大時，通常是切割到欄位邊緣. 圖 27. 加入垂直切割兩邊比值互不大於 3 之後的切割結果. 在處理完跨行切割後，接著是文字切割的問題，為了避免切割到文字間，需要設定切割門檻值。AXYC 會先計算一個文字高度值 WS 來當作門檻值的基本的 22.

(30) 單位。假設 AXYC 切割到最小時會將文件影像切成 k 個影像區塊，每個影像區塊可表示為 B1 , B2 ,..., Bk ，而其高度的排列為 BH 1 , BH 2 ,..., BH k ，由小到大排序後為 BH1 , BH 2 ,..., BH k ，而 WS 以此數列中間值做為參考，其定義如下：. WS  BH  k  2  . 為了求得 WS 值，AXYC 先將 WS = 1 做一次切割，切割出所有影像單位後，算出 WS 再重新切割一次，藉此動態設定每一張文件的 WS 值，來讓門檻值皆符合不同文件的需求。在偵測水平切割，AXYC 使用了最小切割範圍的設定，如圖 28 所示，基於橫列式的文件內容，最小區塊的水平切割是發生在切割兩行之間，所以水平切割值少要大於兩行才能執行偵測。而為了避免有些文字遠大於兩行高度，最小切割範圍還設定了寬度限制，一般是以文件中預定的最大文字上限做設定，實驗中採用 5 倍的 WS 來當作門檻值。而為避免上限邊界空白也切割至文字內，其切割高度亦設一切割上限，實驗中採用 0.35WS 作為切割上限。圖 29 是經過統整之後完整的 AXYC 分析的演算法。利用此演算法可避免跨行切割和文字切割的問題，如圖 30 所示。. 圖 28. 水平切割的最小接割範圍，以避免切割文字之間. 23.

(31) 圖 29. 圖 30. AXYC 區塊切割分析演算法. AXYC 修正了跨行和切到文字的問題. 3.3.3 結構樹彙整 AXYC 切割好的結構樹，每個 node 會包含數個分支，直到最底層的空白區塊或影像區塊。如圖 31 所示，右上的結構樹是取自左圖紅色框範圍的文字影像，結構樹會隨著切割時的情況長出。但是這樣結構樹分析起來並不方便，好比說如圖 31，左上是切割產生出的結構樹，其中「業務部」三個字，被拆成「業務」和 24.

(32) 「部」兩部分在不同節點，要分析需回到上一層搜尋，這樣的搜尋費時費力，所以需對結構樹做整理，將同方向切割的子樹砍掉，再將最底層的影像區塊和空白區塊，接到最上層第一次出現此方向的節點上，整理過後的結構樹，在搜尋和套用 Bule-base 就比較方便了。. 圖 31. 經過整理後的結構樹才能方便使用. 25.

(33) 3.4 文件內容分析不同的文件雖然有不同的內容，但一般都有相同的概念，就是能從小的單位組合成大的單位，圖 32 是一種文件結構的分析圖，雖然不是每個種類的文件都含有同樣的結構，但大多數都是由小到大組合起來。. 圖 32. 文件的物理結構圖，參考自[16]. 在上一節分析完文件的物理結構以後，會產生一個基本的物理結構樹。結構樹內容包含了由大到小切割資訊，以及每個和空白和非空白物件資訊，當套用不同種類 Rule-Base 後，就可以組合對應出其各自分析內容。藉由 Rule-Base 規則，可以將文件由下而上 Bottom-up 出文件內容，或是將物件本身資訊，轉換成特殊意義物件，分析出其邏輯意義。這些 Rule-Base 隨使用目的而改寫，然而描述這些 Rule-Base 內容需要有共通的語法，接下來介紹的就是本研究設計的 Rule-Base 語法。. 3.4.1 Rule-Base 基本單位在分析結構樹之前，要先定義一些初始單位，這些初始單位從是先前 26.

(34) AXYC，所分析出來的節點單位。從 AXYC 定義出的基本 Rule-Base 單位如下： 1. Brect：非空白區塊 2. Wrect：空白區塊 3. HRectList：水平方向的區塊組 4. VRectList：垂直方向的區塊組 5. Page：整張影像以圖 33 為例，左邊的圖所顯示一個水平排列的區塊，稱做 HRectList，圖上方顯示的原始樹的結構，中間的圖是垂直排列區塊，稱做 VRectList，而右邊的圖顯示最底層的單位 Brect 和 Wrect，分別代表著非空白和空白區塊。整個結構樹的方向性是由上而下，由左而右。. 圖 33. Rule-Base 單位對應 AXYC 所切割的結構樹. 27.

(35) 3.4.2 Rule-Base 分析語法本研究提供一些基本語法來分析文件邏輯結構，定義的方式都是以結構樹既有的資訊來當作依據，包含基本長寬大小，以及上述所定義的基本單位。語法格式如下: 定義名稱 := 函式名稱參數 1 參數 2 參數 3 … 定義名稱 1. 定義名稱 2 … := 函式名稱參數 1 參數 2 參數 3 …. 定義名稱是提供給使用者自行定義的，當有新物件分析出來時，用來對新物件命名，接著是一個”:=”代表著定義名稱結束，如定義名稱不只一個，則可以連續定義，但是其相對應函式必頇是適用多重定義語法。而函式名稱是程式預先設定好的分析方法，需要的參數則接在名稱後面，中間由空白所分隔。本研究提供一連串分析函式，藉由這些函式可以分析文件基本內容，函式的列表如下： 1. RectSize 區塊大小分析用途：利用區塊長寬大小，來劃分區塊的內容格式：RectSize 適用範圍寬最小值寬最大值高最小值高最大值適用單位解釋：寬和高的單位用 WS 為單位，適用範圍和是適用單位可以是一個自行定義的區塊範例： bigChar := RectSize HRectList 0 5 1.25 5 Brect bigChar 是指在所有 HRectList 中，寬在 0~5 倍 Word_Size 高在 1.25~5 倍 Word_size 的 Brect. 28.

(36) 2. RectRatio 區塊比例分析用途：利用區塊長寬比例，來劃分區塊內容格式：RectRatio 適用範圍高除寬最小比值高除寬最大比值適用單位解釋：區塊的高和寬相除(H/W)後，如在範圍內就會套用此分析。範例： cChar := RectRatio HRectList 0.7 1.4 Brect cChar 是指在所有 HRectList 中，高和寬的比例在 0.7~1.4 之間的 Brect 3. AtPosition 區塊位置分析用途：利用在區塊組的位置特性來分析內容格式：AtPosition 適用範圍位置參數適用單位解釋：位置參數為適用範圍內的位置，包含 First、Last 和 Inside 的關鍵字範例： address := AtPosition block First cblock address 是在 block 區塊裡面的第一個位置的 cblock 4. Group 將物件群組用途：是一個群組函式，根據條件將物件群組起來格式：Group 群組條件適用範圍群組單位 1 群組單位 2 … 解釋：群組條件包括 Type 和 Indent，Type 是會根據群組單位將相鄰的物件連結群組起來，Indent 是會根據物件的縮排來群組。群組單位可以是一個到多個不同種類單位，群組之後會產生一個新的單位將這些群組單位包裝起來。範例：. D := Group Type A B C. D 是在 A 裡的 B 和 C 所組成的。從圖 34 可以看到群組的過程，左邊是原本的樹結構，經過 GroupType 的分析後，就會產生 D 這個單位把 B. 29.

(37) 和 C 裝起來。. 圖 34. 5. UnGroup 取消群組用途：將群組物件刪除，其子節點加入父節點內格式：取消群組 := UnGroup 範例：. D := UnGroup. 原本的 D 物件刪除後，其子節點依序加入 A 節點中，保持排序結構. 圖 35. 6. ContainType 將內含特定物件的單位做轉換用途：分析物件組內的單位，如果符合特性的話就做轉換。格式：ContainType 分析種類適用單位分析參數適用範圍解釋：分析種類有包含 Num(特定數量)、MoreNum(大於數量) 、LessNum(小於數量)等參數。範例： name := ContainType Num bigcChar 3 HRectList 假如 HRectList 內含有剛好 3 個數量的 bigcChar，那將之轉換成 name. 30.

(38) 7. MatchType. 將特殊排列組合的物件做轉換. 用途：利用物件內的排列方式，來分析物件的內容格式：MatchType 適用範圍排列單位 1 排列單位 2 … 解釋：MatchType 是一個多對應的函示，”:=”符號前面有多少對應名稱，後面就有多少對應的排列單位，函是會依照排列的順序性去搜尋適當的組合範例： D E F := MatchType G A B C 當 G 內部裡有 ABC 排列順序的物件時，就會依照對應順序轉換成 DEF. 圖 36. 3.4.3 Rule-Base 的使用範例本研究用實際例子來示範此系統的應用，以論文封面為例子如圖 37 左所示，經過 RXYC 之後轉換成如圖 37 右的切割資訊。論文的封面包含了標題、指導教授、論文題目、作者、日期等欄位，假設要取出這些資訊的話，以下是參考的 Rule-Base 範例： // 大塊的空白可以當作切割欄位的依據 cutSpace := RectSize VRectList 5 200 3 100 Wrect // 相鄰的行可以組成區塊 block := Group Type VRectList HRectList Wrect // 有的欄位是單獨的行 line := AtPosition VRectList Inside HRectList // 執行到這就會將論文分割成如圖 38 左邊的分割區塊 // 再依照欄位的順序性各次對應後，就會產生圖 38 右邊對應結果 title cutSpace advisor cutSpace subject cutSpace author cutSpace date cutSpace := MatchType VRectList block cutSpace line cutSpace block cutSpace line cutSpace line cutSpace. 31.

(39) 圖 37. 圖 38. 原始文件影像(左) 經過 AXYC 切割(右). Rule-Base 分析其結構(左) 最後分析出內容欄位(右). 32.

(40) 四、實驗結果實驗先針對 AXYC 和 RXYC 兩者之間比較，從旋轉校正開始，和兩者切割的誤差。再綜合 WhiteSpace 做執行時間比較，最後測試 AXYC 應用在 Rule-Base 邏輯分析的實驗成果。實驗資料是由 37 張 90mm×54mm 大小 600dpi 解析度的名片影像和 87 張 A4 大小 300dpi 解析度的問卷影像所組成。名片和問卷是兩個差異很大的文件影像，名片屬於小型影像文件，排版樣示變化較多，還包含了相當多資訊欄位，問卷相較於名片屬於大型影像文件，包含的資訊欄位種類較少，實驗這兩種差異度大的影像可比較其結果。實驗的環境是在 Windows 7 的作業系統底下，CPU 是 Intel Core i5 2.27GHz，使用 JAVA 作為實驗用的程式語言。. 4.1 旋轉校正比較此次實驗針對 RXYC 旋轉校正和 AXYC 修正公式後的校正來做比較。原 RXYC 有設定門檻值限制，實驗中將 RXYC 的門檻限制拿掉之後，也加入比較。為了產生實驗需要的測試影像，實驗組是從名片中挑出 10 張，和問卷中挑出 10 張，分別從 -5∘~ 5∘之間，每 0.5∘旋轉產生的影像做測資，總計 21×10×2 = 420 張實驗影像，再經由 RXYC、無限制門檻值 RXYC 和 AXYC 修正公式後做比較。設定偵測範圍從 -6∘~ 6∘之間，測量尺標每 0.5∘偵測一次。每次的偵測都會回傳參考值，再由各演算法找出最佳校正結果，與當初設定的旋轉角度做比較，算出角度誤差。以下是實驗的平均誤差結果。. 33.

(41) 圖 39. 旋轉校正的平均誤差分析. 從圖 40 可以看出名片平均誤差大於問卷平均誤差，這是因為問卷是小型文件，文字集中度較低，所以不容易旋轉讓文字投影產生交集。原始 RXYC 因為切割的欄位較大，所以切割數量差異低，大塊區間也比較難產生投影交集。而縮小切割門檻值後，誤差值很明顯變小了，這是因為切割單位變小，文字間隔較容易產生投影交集，影響切割的結果。AXYC 加入了水平節點數校正後，讓平均誤差值縮小到量尺之間，算是相當準確。也證明出，AXYC 對於角度的敏感度相當高。. 圖 40. 各演算法的旋轉切割範例，RXYC(左上)，RXYC 無門檻限制(右上)，AXYC 修正(下). 34.

(42) 4.2 RXYC 和 AXYC 切割比較 RXYC 只切割到文件欄位，為了能夠切割文字，研究中取消門檻值限制。但造成 RXYC 切割時產生跨行切割錯誤，AXYC 則修正了這種情況。此次實驗要比較 RXYC 切割錯誤的情況和 AXYC 修正後的情況。實驗中切割了 37 張名片影像和 87 張問卷影像共 124 張影像來進行比較，判定是只要有任一跨行切割，整張圖就算切割錯誤。以下是兩者比較結果。. 圖 41. RXYC 和 AXYC 切割錯誤率的比較. 名片由於排版的變化性高，文字變化較大，所以產生切割的錯誤率較高。而 RXYC 原本設計是針對文件欄位切割，並未針對行和文字切割做設計，所以錯誤率較高。AXYC 的設計有效降低此錯誤率發生，跨行錯誤率低表示當使用 AXYC 時，能夠預估行的切割是相當穩定的，這對接下來 Rule-Base 分析幫助很大，單純的物理結構可以讓 Rule-Base 分析更精確。. 圖 42. RXYC 將姓名切割成兩塊(左)，AXYC 則修正了這種狀況(右). 35.

(43) 圖 43. 圖中是問卷的部分，RXYC 有大量跨行切割(左)，AXYC 則修正後的結果(右). 4.3 切割時間比較 AXYC 將空白區塊切割出來，用來作文件排版分析，而 Whitespace 也是利用空白區塊來分析文件欄位。但是 Whitespace 的演算法相當耗時，為了取得平衡需要對切割的空白數量設定門檻值 n。本實驗針對 RXYC、AXYC 和 Whitespace 做比較，為了瞭解 Whitespace 在切割空白數量上的差異，分別設定 n = 10 和 n = 40 做比較。實驗的結果如下。. 圖 44. 各演算法的平均執行時間(單位:秒). 36.

(44) 圖 45. RXYC(左上) , AXYC (右上) Whitespace, n = 10 (左下). n = 40 (右下). 灰色為刪去空白區塊後結果. 如圖 44 所示，問卷要花的時間普遍比名片來的長，這是因為問卷影像較大，包含影像物件較多的緣故。RXYC 和 AXYC 平均都在半秒內就可以切割完成，而 Whitespace 本來在名片上速度還不錯，但是到了問卷時間就ｙ增加了一倍。 Whitespace 本來是為了切割出文件的欄位，所以通常 n 不會設太大，但是 AXYC 完全將空白區塊都切割出來，所以實驗嘗試將 n 放大，讓 Whitespace 可以切割更細，但時間大幅成長，相較之下 AXYC 將排版分析到文字的單位，而 Whitespace 則需額外的演算法才能分析到行或文字。另外，RXYC 和 AXYC 的差異非常小，這是因為其中最花時間的部分，是在計算水平和垂直投影量，而這部分是程式是採用預先建表計算，讓切割分析時花的時間較少，即使為了求 WS 而重複切割，表仍不需重建，這讓 AXYC 仍可保有 RXYC 切割快速的優點。. 37.

(45) 4.4 Rule-Base 分析實驗當影像經過 AXYC 切割過後，下一步是利用 Rule-Base 分析其邏輯結構，偵測文件的內容。而偵測的準確率和 Rule-Base 的分析息息相關。本實驗針對名片和問卷編寫部分的 Rule-Base 欄位做測試，提供準確率數據來當作參考。. 4.4.1 名片欄位偵測實驗中使用 37 張名片來當作測試目標，偵測名片中姓名、公司和地址欄位，從圖 46 中可以看到分析結果。姓名的準確度相當高，這是因為姓名在名片排版中，都放在最醒目的位置，而公司在名片中也具有排版的特色，所以準確度也還不錯，地址的排版特徵並不突出，所以準確度稍低。由此可知，AXYC 和 Rule-Base 較適合偵測此具有排版特徵的欄位. 圖 46. Rule-Base 語法偵測名片欄位的 Precision 和 Recall. 圖 47. AXYC 和 Rule-Base 分析後的名片結果 38.

(46) 4.4.2 問卷欄位偵測問卷的內容包含標題、說明和問題選項，一般的問卷分析都是以偵測選填區域為主，本實驗問卷是以勾選和填寫式的問卷為主，由於問卷的說明格式差異大，所以實驗將 87 張問卷依欄位內容，同分成四大類：含說明框、含排版特徵說明、未含排版特徵說明和無標題說明問卷。利用 Rule-Base 方便修改特性，針對特性不同的問卷使用不同的 Rule-Base 分析。偵測的方式以「行」為單位，針對標題、說明、選填和題組做偵測。分析完合併數據後，可以得到以下的實驗結果。雖然問卷的內容較多，排版樣式複雜，但是仍然有 75%以上的準確率。. 圖 48. 問卷欄位偵測準確率. 39.

(47) 圖 49. 含有框線的說明問卷，綠色是填選區域，藍色是題組區域. 40.

(48) 圖50. 說明含有排版特徵的問卷，綠色是填選區域，藍色是題組區域. 41.

(49) 五、結論本研究驗證了 AXYC 可以用來取代 RXYC 作為文件切割方法，AXYC 繼承 RXYC 既切割又可分析物理結構的特性，並有效切割出比 RXYC 更小的文件單位，具有相當穩定性。結構樹包含完整文件資訊，小至文字大至文件欄位，很適合用在 Rule-Base 分析上，只要簡單的語法就分析文件內容。Rule-Base 的可修改性也增加了文件應用範圍，不再受限於單一種類文件。而 AXYC 也可用來偵測文件的旋轉校正，經過修正後的演算法正確率提高，讓切割效果更好。在切割速度上也保留了 RXYC 速度快的優點，即使切割的數量變多，切割的成長時間相當的少，相較於 Whitespace 速度又快上好幾倍。不過 AXYC 也保留了 RXYC 的缺點，對於含有格線或是被格線包圍的文字，仍無法切割並分析其排版，而 Rule-Base 語法仍有擴充空間，研究中只提供最基本的語法，使用上仍有其限制。從名片實驗結果中，雖然只用排版特性去分析名片欄位，仍然可得到不錯的結果，證實了排版是一個相當實用的特徵。但是面對排版特徵不明顯的欄位，光靠排版較無法應付文件的多樣性。不過其分析的結果仍可當作文件分析的前處理，當分析出可能的欄位之後，可搭配其他演算法做更進一步的分析。. 42.

(50) 參考文獻 [1]. Han Wang; Li, S.Z.; Ragupathi, S., "Document segmentation and classification with top-down approach," Knowledge-Based Intelligent Electronic Systems, 1997. KES '97. Proceedings., 1997 First International Conference on , vol.1, no., pp.243-247 vol.1, 27-23 May 1997. [2]. Gaceb, D. Eglin, V.; LeBourgeois, F.; Emptoz, H., "Physical Layout Segmentation of Mail Application Dedicated to Automatic Postal Sorting System," Document Analysis Systems, 2008. DAS '08. The Eighth IAPR International Workshop on , pp.408-414, 16-19 Sept. 2008. [3]. Huiying Zhu; Yuexian Zou, "A cross-connected components-based layout analysis algorithm for Chinese business card," Industrial Electronics and Applications, 2008. ICIEA 2008. 3rd IEEE Conference on , pp.2530-2534, 3-5 June 2008. [4]. Matrakas, M.D.; Bortolozzi, F., "Segmentation and validation of commercial documents logical structure," Information Technology: Coding and Computing, 2000. Proceedings. International Conference on , pp.242-246, 2000. [5]. Akira Amano; Naoki Asada; Masayuki Mukunoki; Masahito Aoyama "Table form document analysis based on the document structure grammar" International Journal of Document Analysis (2006) 8(2): 201–213. [6]. R. Cattoni; T. Coianiz, S. Messelodi; C.M. Modena, "Geometric Layout Analysis Techniques for Document Image Understanding: A Review," IRST Technical Report 9703-09, 1998.. [7]. G. Nagy; S Seth; S. D. Stoddard. "Document analysis with an expert system." In Proc. Patem Recognition Practice, volume 11, pages 149-159,Amsterdam, 1985.. [8]. F. M. Wahl; K. Y. Wong; and R. G. Casey. "Block segmentation and text extraction in mixed textlgraphics images. Computer Vision, Graphics and Image Processing", 20:375-390, 1982.. [9]. Papamarkos, N.; Tzortzakis, J.; Gatos, B., "Determination of run-length smoothing values for document segmentation," Electronics, Circuits, and Systems, 1996. ICECS '96., Proceedings of the Third IEEE International Conference on , vol.2, no., pp.684-687 vol.2, 13-16 Oct 1996. [10]. Jaekyu Ha; Haralick, R.M.; Phillips, I.T., "Recursive X-Y cut using bounding boxes of connected components," Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on , vol.2, pp.952-955 vol.2, 14-16 Aug 1995. 43.

(51) [11]. O'Gorman, L., "The document spectrum for page layout analysis," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.15, no.11, pp.1162-1173, Nov 1993. [12]. H.S. Baird, "Background Structure in Document Images," Document Image Analysis, H. Bunke, P. Wang, and H.S. Baird, eds.,pp. 17-34, World Scientific, 1994.. [13]. Stefan Klink; Thomas Kieninger, "Rule-based document structure understanding with a fuzzy combination of layout and textual features" International Journal on Document Analysis and Recognition, vol.4 pp.18-26, 2001. [14]. N. Otsu, "A threshold selection method from gray-level histograms",IEEE Trans. Systems Man Cybernet. 9 (1) (1979) 62–66.. [15]. Sarin Watcharabutsarakham, "Page Segmentation for Content Sequence," Signal Processing, International Conference on, 2006. [16]. Aniko Simon; Jean-Christophe Pret; and A. Peter Johnson, "A Fast Algorithm for Bottom-Up Document Layout Analysis," Pattern Analysis and Machine Intelligence, IEEE Transactions on ,VOL. 19, NO. 3, MARCH 1997. 44.

(52)