• 沒有找到結果。

基於Augmented XY-cut之文件影像結構分析

N/A
N/A
Protected

Academic year: 2021

Share "基於Augmented XY-cut之文件影像結構分析"

Copied!
51
0
0

加載中.... (立即查看全文)

全文

(1)國立臺灣師範大學 資訊工程研究所碩士論文. 指導教授:李忠謀. 博士. 基於 Augmented XY-cut 之 文件影像結構分析 Augmented XY-cut Based Document Layout Structure Analysis. 研究生:鍾易昌 撰. 中華民國. 一百 年. 一 月.

(2) i.

(3) ii.

(4) 摘 要. 基於 Augmented XY-cut 之文件影像結構分析 鍾易昌. 本研究從多種類文件中都擁有的排版關係,分析其排版結構,再加上可編寫 Rule-Base 文件,來達到協助影像分析目的。一般研究方法為了分析文件影像,需 對文件影像進行結構分析,好的結構分析結果可以簡化後續理解程序,本研究利 用 Recursive XY-cut 來當作基底,修改成更實用的 Augmented XY-Cut 分析, Augmented XY-Cut 修正 Recursive XY-cut 只能切到文件欄位的缺點,並加入了空 白區塊節點,讓 Augmented XY-Cut 更符合文件結構,簡化了 Rule-Base 複雜度。. iii.

(5) ABSTRACT. Augmented XY-cut Based Document Layout Structure Analysis by Yi-Chang Chung. This study use Recursive XY-cut as a base, modified into a more practical Augmented XY-Cut Analysis. General methods for analysis of document images, document image to be on the structural analysis, simplified a good follow-up to understand.. structural analysis can be. Augmented XY-Cut Fixed Recursive. XY-cut field that can only be cut to the shortcomings of the documents and add the whitespace node,. so Augmented XY-Cut more in line with the documents. structure, simplifies the complexity of Rule-Base analysis.. iv.

(6) 請獻給照顧我無微不至的肝. v.

(7) 誌. 謝. 這篇論文能夠完成,首先要感謝我的指導教授李忠謀老師,在碩士的研究生 涯中適時給我指導與挑戰,讓我勇於面對問題。再來要感謝帶我研究的簡培修學 長,每周固定的討論讓我的研究漸漸的有了雛形。還有實驗室的學弟妹們,在研 究和口試的時候幫了我許多忙。最後,我要感謝我的家人,有了你們的支持我才 能完成學業,感謝你們!. vi.

(8) 目錄 一、. 緒論................................................................................................................. 2 1.1 1.2 1.3 1.4. 二、. 研究背景: ........................................................................................................ 2 研究目的.......................................................................................................... 3 研究的範圍與限制.......................................................................................... 3 論文結構.......................................................................................................... 3 文獻探討......................................................................................................... 4. 2.1 文件結構格式.................................................................................................. 4 2.2 切割文件方法.................................................................................................. 5 2.2.1 Run-length smoothing values................................................................. 5 2.2.2 Docstrum ................................................................................................ 6 2.2.3 Whitespace Analysis .............................................................................. 6 2.2.4 Recursive XY-cut ................................................................................... 7 2.3 文件結構分析.................................................................................................. 9 三、 方法與步驟................................................................................................... 10 3.1 系統流程......................................................................................................... 10 3.2 前處理............................................................................................................. 10 3.2.1 二元化.................................................................................................. 11 3.2.2 雜訊過濾.............................................................................................. 11 3.2.3 旋轉校正.............................................................................................. 12 3.3 文件切割......................................................................................................... 15 3.3.1 空白區塊節點...................................................................................... 15 3.3.2 切割分析區塊...................................................................................... 20 3.3.3 結構樹彙整.......................................................................................... 24 3.4 文件內容分析................................................................................................ 26 3.4.1 Rule-Base 基本單位 ............................................................................ 26 3.4.2 Rule-Base 分析語法 ............................................................................ 28 3.4.3 Rule-Base 的使用範例 ........................................................................ 31 四、 實驗結果....................................................................................................... 33 4.1 旋轉校正比較................................................................................................. 33 4.2 RXYC 和 AXYC 切割比較 ........................................................................... 35 4.3 切割時間比較................................................................................................. 36 4.4 Rule-Base 分析實驗 ....................................................................................... 38 4.4.1 名片欄位偵測...................................................................................... 38 4.4.2 問卷欄位偵測...................................................................................... 39 五、 結論............................................................................................................... 42 參考文獻....................................................................................................................... 43 1.

(9) 一、 緒論 1.1 研究背景: 近年來資訊科技蓬勃發展,帶動了人們生活進步,藉由電腦自動化特性,加 速了許多業界產能,在各個領域也有相當多應用。而文件影像處理也在資訊發展 潮流中,扮演著重要角色。數位文件的出現,取代了部分紙本文件,例如線上問 卷、線上訂車票系統、e-mail 服務等應用。但數千年來累積的紙本資料,傳統紙 筆考試制度,以及收據憑證使用,讓紙本無法輕易被取代,這使得如何將紙本文 件數位化供電腦處理,成為一項重要的課題。. 文件影像分析是為了數位化文件而生,例如郵局信件分類,利用郵遞區號位 在信封的固定位置,藉由掃描其影像後讓電腦做辨識分析,加速郵局信件分類。 而原來靠人力分類信件,不僅耗時耗力,成本也遠高於電腦自動化處理。在業界 也有關於文件影像處理的商用軟體,例如名片王,能夠將名片藉由掃描後做分析 處理,方便使用者管理和搜尋。國外也有針對收據與發票的辨識應用,銀行也有 對於支票掃描辨識系統等,文件影像分析可說是與人們生活息息相關。. 不過目前文件影像分析,大多在做分析之前,需手動去設定精確的文件欄位 資訊,電腦才能從文件影像之中,準確擷取出需要文件影像去做分析,每當有新 文件格式產生時,仍然得重新設定文件格式,才能符合新文件需求。亦有方法是 針對單一種類文件,可以不用重新設定欄位的方法,例如利用信封特定格式,或 各欄位相對關係來做處理,達到自動化欄位擷取。通常這類針對單一種類方法, 2.

(10) 為了提高準確度,會加入很多限定演算法,但相對系統可應用範圍就變小了。. 一般文件為了閱讀方便性,都會進行排版,例如文件標題通常在正上方較醒 目地方,而每個段落開始都會有縮排,或是段落標題通常會大於內文等特性,特 定格式文件也是會有固定的排版形式方便專員處理。如善用這些排版特性,來當 作文件分析依據,便可用來分析大多數文件。. 1.2 研究目的 本研究從多種類文件中都擁有的排版關係,分析其排版結構,再加上可編寫 Rule-Base 文件,來達到協助影像分析目的。一般研究方法為了分析文件影像,需 對文件影像進行結構分析,好的結構分析結果可以簡化後續理解程序,本研究利 用 Recursive XY-cut(RXYC)[10]來當作基底,修改成更實用的 Augmented XY-Cut (AXYC)分析,AXYC 修正 RXYC 只能切到文件欄位的缺點,並加入了空白區塊 節點,讓 AXYC 更符合文件結構,簡化了 Rule-Base 複雜度。. 1.3 研究的範圍與限制 本研究針對橫列式文件影像進行判讀,以黑白文字影像為主,亦即背景不能 為彩色。掃描後的圖檔容許正負 5 度的歪斜及小於 10 pixel 的雜點。. 1.4 論文結構 本論文分為五章,第一章簡介研究背景與目的,第二章是文獻探討,第三 章則深入探討研究中所使用的理論與方法,第四章則是實驗結果,第五章則是 結論。. 3.

(11) 二、 文獻探討 關於文件排版分析的相關研究有很多,依據用途可分成許多種類,像是針對 一般文件結構化分析[1],還有針對信封[2]內容偵測擷取,或專為中文名片[3]做 的影像切割,商業文件[4]欄位與簽名擷取和表格[5]偵測等多種辨識分析方法,大 部份文件都是文字為主,表格和圖片為輔的分析,而他們共通點都是需要先做文 件切割(Document segmentation),將其分割成較小單位後,再根據不同文件種類, 對應不同演算法,將文件內容架構解析出來,再來辨識其文件內容。. 2.1 文件結構格式 每一種文件都有其獨特的排版格式,而傳統文件分類可根據排版不同分為 Manhattan layouts 和 non-Manhattan layouts [6]。Manhattan layouts 是指每塊切割區 塊,都能用一個矩形表示其範圍,且不會和其他區塊互相重疊,如圖 1 左。反之 non-Manhattan layouts 無法利用單純矩形,將文件區塊切割出來,如圖 1 右。影像 切割就是要了解文件的排版結構,所以這兩種排版方式切割方法會有很大差異, 而本篇研究將會以 Manhattan layouts 分析為主。. 圖 1. Manhattan layouts(左) 與 non-Manhattan layouts(右) 4.

(12) 文件切割目的是將文件切成幾個有結構意義的區塊,通常是具有相同排版關 係的區塊,例如段落文字、表格、或是圖片等,切成一塊有意義的範圍。而根據 文件切割方法又可分為 Top-down [7]和 Bottom-up [8]兩種模式。Top-down 的概念 是將文件由大到小,由上而下的切割成不同的小單位。而 Bottom-up 則是反過來, 從各個小的影像單位組合成一個較大區塊,以此來當作文件的分析單位。. 2.2 切割文件方法 切割文件有很多方法,一般常用的有 Run-length、Docstrum 和 RXYC 等,每 種切割方法都有各自優缺點和用途,在下面小節將會分別介紹。. 2.2.1 Run-length smoothing values Run-length smoothing values [9] (簡稱 RLSA)是一個最早被使用的切割法之 一,此方法是先將文件二元化以後,以水平方向將較小的空白填滿,再用連通概 念將文件以行單位切割出來,RLSA 目的是在分析文件影像中文字位置,以行當 作單位來表示,優點是使用簡單方便,但是無法直接表示影像圖片,需要額外處 理,一般是使用在結構較單純的文件影像上。. 圖 2. 文件(左)在 RLAS 分析時,會將字與字中間填滿(中),. 分析 Connected-components 位置,找出每行對應位置(右) 5.

(13) 2.2.2 Docstrum Docstrum [11]是一種 Bottom-up 的切割結構方法,適用於 Manhattan layouts。 此方法是先將文件影像用連通物件方式,找出文件中每個連通單位,如圖 3 所示, 再以其矩形範圍當基準,將附近相鄰的物件做連結,由小而大將整個物件切割出 來。此方法的優點是比較不會受到雜訊和格線的影響,缺點是會受到文字大小影 響切割準確度。. 圖 3. Docstrum 會由小到大從字母組合成單字,再從單字組合成句子等,一路向上分析. 2.2.3 Whitespace Analysis Whitespace Analysis [12]是一種比較特別 Top-down 切割方法,適用於 non-Manhattan layouts。主要概念是找出影像中最大的空白矩形區塊做切割,再從 重複搜尋第二第三大空白矩形,直到搜尋至一定數量的空白區塊為止,接著反過 來分離非空白區塊,就是文件內容了。這個方法好處是可以應用在 non-Manhattan layouts 的文件格式中,缺點是搜尋空白的時間較長,一般會限制搜尋空白區塊數 量上限,但就只能切到文件欄位,區塊內的行與單字需要額外方法分析出來。. 6.

(14) 圖 4. WhiteSpace 搜尋出空白區塊(左) 刪除空白區塊,剩下文字區塊(右). 2.2.4 Recursive XY-cut Recursive XY-cut [10](簡稱 RXYC)是一種 Top-down 的切割結構方法,適用於 Manhattan layouts。主要概念是利用水平投影和垂直投影找出最大空白範圍,以此 劃分為二成兩大區塊,再重複動作繼續往下切,當切割影像小於一門檻值後才停 止。傳統 RXYC 是針對文件欄位做切割,其中的內容還需要用其他方法搭配分析 出來。除了切割以外,RXYC 同時也會建立一個文件分析的結構樹,先從整張文 件當作 Root node 資訊,在切割時,切割的區塊也以 node 方式建立儲存,直到切 割停止。RXYC 的大致演算法流程如下: Step 1. 以整張影像建立 Root node Step 2. 判斷圖片是否小於門檻值,如是則停止切割 Step 3. 對圖片做水平和垂直投影,找出最大的空白投影區段 Step 4. 依最大空白投影做分割,將圖片切割成兩塊,分別建立 node 資訊 Step 5. 切開的兩塊影像再帶入 Step 2~ Step 5 步驟內,直到 Step 2.停止切割 圖 5 是從[10]的參考範例,左邊是原始的文件影像,而經由 RXYC 的切割之 後,文件會被切割成如圖 5 右所顯示的區塊,分析每一區塊的實體物件範圍後, 加上前述切割時所建立的結構樹,可得到圖 6 右邊的結果。RXYC 的優點是速度很 7.

(15) 快,切割的結構樹可以當作分析的依據,但缺點是容易受到雜訊或格線影響。. 圖 5. 圖 6. 原始影像(左),RXYC 切割的情況(右),參考自[10]. 當 RXYC 切割後分析的欄位 (左),切割產生的結構樹(右) ,參考自[10]. 在本研究裡所使用的切割法 AXYC 是以 RXYC 去做修改而成的,利用 RXYC 可同時產生排版分析所需要的物理結構樹,再加上 Whitespace Analysis 概念為輔 助,將文件中的空白區塊也加入結構樹中,來當作分析資料。Whitespace Analysis 本身是很耗時的演算法,但是 AXYC 執行時間較短,利用 AXYC 切割空白的話, 可以讓分析文件更有效率。. 8.

(16) 2.3 文件結構分析 一般切割完文件以後,根據其文字區塊位置,依照文章排版方式,將文件的 物理結構(Physical layout structure)分析出。有些切割方法如 RXYC,本身切割就 是依據文件的結構性,切割完後其物理架構也相對分析完畢。如果只有單純將文 字影像切割成的單一小區塊,例如 Docstrum,就需要再做物理結構分析的動作。 結構化的資料結構包含了排版資訊,文章先後順序,文件欄位的座標資訊都包含 內,因此可以當做一項分析的依據。 文件物理結構通常會跟文件邏輯結構(Logical layout structure)有所關聯。邏輯 結構是由各邏輯單位所組成,而邏輯單位指的就是文件的內容單位,例如論文封 面包含標題、作者、摘要、章節等,或是郵件信封含有郵遞區號、地址、收件人 名稱等邏輯單位。邏輯結構可以從物理結構中分析出,Stefan Klink, Thomas Kieninger [13]利用規則(Rule-base),和的模糊比對(fuzzy match)來辨認出文件的邏 輯單位,但是預設的邏輯單位固定不能修改,偵測過程無法動態調整。 而由 Gaceb 等人所提出信封欄位偵測方法[2],是用信封具有規格化特性,在 其各欄位的相對位置建立模組,再加上文字辨識(OCR)當作分析條件,找出信封 中各個欄位資訊。雖然使用 OCR 可以增加判斷條件,但是 OCR 準確度也影響了 偵測結果,且針對信封文件的關鍵字,就只能針對信封使用,無法用來偵測其他 類別文件。 以上方法都是針對單一種文件做處理,雖然在各個目標上都有很好的成效, 但是如需應用到不同類別文件時,則會有相當大的困難度,本研究目標是從多種 類文件中都擁有的排版關係,藉由分析其排版結構,再加上可編寫的 Rule-Base 文件,來達到協助影像分析的目的。 9.

(17) 三、 方法與步驟 3.1 系統流程 文件分析從掃描好的影像開始,經過一連串前處理將文件影像做校正,然後 利用 AXYC 進行切割,以找出文件物理排版結構。最後利用 Rule-Base 分析文件 邏輯結構,完成文件分析。處理流程如圖 7 所示,各步驟將於後續章節說明。. 圖 7. 文件分析流程圖. 3.2 前處理 一般原始影像資料並不適合直接拿來做文件切割,因為其中文件本身可能帶 有污漬,或是在掃描過程中,掃描平台帶有灰塵雜物,一併掃入而產生雜訊,亦 或是在掃描過程中,未將文件放正而產生誤差,特別是以送紙器的掃描方式,最 容易因滾輪帶動力量不平均而造成影像歪斜,這些影像需要進行前處理,將文件 影像修正成可供分析的文件影像。 10.

(18) 3.2.1 二元化 二元化是影像處理中相當常用的前處理方法,一般圖檔帶有色彩或灰階資 訊,但並不是所有影像分析都需要這些資訊,這些資訊甚至可能造成處理上困 難,將影像經過二元化處理後,不但可以簡化文件複雜度,還可以強化文件特性。 一般文件都是黑白文字內容為主,轉成黑白後對分析有所幫助。本研究使用 Otsu[14] 二元化演算法,此方法利用影像灰階值統計分布圖(histogram),如圖 8, 加上統計分群的方法,將灰階值分成黑白兩類,藉此訂出二元化的門檻值 (threshold)。Otsu 的優點是對處理文字影像和空白背景的分界相當準確,在文件 分析中經常被使用到。. 圖 8. Otsu 利用統計的方式將影像的灰階值分成黑白兩群. 3.2.2 雜訊過濾 由於掃描文件本身會帶有一定程度雜訊,而在影像格式轉換時也會產生少許 雜訊,這對 AXYC 造成很大的影響,如圖 9 左在沒有處理噪點時,會產生許多無 意義的空白區塊。雖然在二元化的過程中,已過濾了大部分雜訊,但是仍有少數 雜點散佈在空白區塊的情況。本研究利用搜尋 Connected Components 的方式,將 小於 10 個 Pixel 的影像分離出來,填入白色後再做切割,其結果如圖 9 右。 11.

(19) 圖 9. 因為噪點產生多餘切割(左圖),經過處理後切割變少了(右圖). 3.2.3 旋轉校正 在掃描過程中因為人為因素,或是機器老化與故障,使得文件影像有所偏移, 間接影響演算法準確度,需要做旋轉校正。Sarin Watcharabutsarakham [15]提出利 用 RXYC 切割數,來當作旋轉校正判定依據。當影像歪斜時,RXYC 無法切出歪 斜的文字空白隙縫,反之影像文件角度正確時,則可以切割到最小的單位。此方 法需先設定好搜尋範圍、偵測的單位量尺,再針對每個量尺角度做切割,從中找 出此範圍最佳的校正角度。 研究中用的 AXYC 是基於 RXYC 衍生產物,亦可以拿來當作旋轉校正依據, 如圖 10 是兩種情況比較,紅色為含有文字影像的區塊,藍色為空白的區塊,左 圖的文件經過-3∘的旋轉過後,AXYC 就無法切割文字區塊內,右圖是未經過旋 轉的文件,AXYC 則可以很清楚的切割出每個文字區塊。. 圖 10 旋轉-3∘文件影像的 AXYC(左),未旋轉文件影像的 AXYC(右) 12.

(20) 但是實際上此方法仍有一定誤差,如圖 11 歪斜 -2.8∘文件影像,雖然紅色的 影像區塊被詳細切割出來,但整張影像仍是歪斜的狀態,這造成在紅色影像區塊 附近,產生了多餘的藍色空白區塊。這是因為文字間空隙是個矩形,可容許小角 度歪斜,而多餘的區塊切割會對影像分析相當不利。. 圖 11. 旋轉-2.8∘文件影像的 AXYC. 圖 12 左是統計影像切割數的圖表,當角度在 -3∘~ +3∘的範圍下沒有明顯 的坡峰,最大值可能同時產在一個範圍內。為了解決這個問題,研究中參考了水 平節點數量,如圖 12 右,水平節點數量會再接近 0∘時大幅下降,這是因為當文 件旋轉到 0∘時,文字旁多餘的空白區塊減少,多餘切割的情況也就相對的減少 了。不過此現象只會出現在當文件在接近 0∘附近產生,所以仍需先利用影像切 割數量找到坡峰附近,再利用水平節點數量找到坡谷。. 13.

(21) 圖 12 影像切割數量在小角度時無法準確判定,但利用水平節點統計可以準確找到正確角度. 為了簡化演算法,研究中將影像切割數減去水平節點數,來當作旋轉校正的 參考依據。如圖 13,當旋轉角度為 0∘時,會呈現一個很明顯的坡峰,做為旋轉 校正判定的依據。. 圖 13. 影像切割數量減去水平節點數後會在文件 0∘時形成一個坡峰. 14.

(22) 3.3 文件切割 文件切割是文件分析中最重要核心之一,好的切割結構可以讓後續的分析更 簡單明瞭,本研究發展的切割方法 AXYC,目的是將文件排版用簡潔穩定的樹狀 結構表達出來,方便後續的 Rule-Base 分析文件的內容。AXYC 是將 RXYC 和 Whitespace Analysis 兩種概念結合使用,圖 14 是原始 RXYC 流程圖,詳細的演算 法描述在第二章,而 AXYC 將對紅色區塊部分進行調整,在後面分成小節說明。. 圖 14. RXYC 演算法流程圖. 3.3.1 空白區塊節點 空白區塊在排版中是一個很重要的資訊,文件欄位就是利用空白區塊來當作 分隔依據,段落縮排與凸排可以用每行前面的空白大小來分析,文字間句子也可 以利用空白區塊判定,所以 AXYC 將空白節點加入可以增加分析文件結構的資 訊。原本的 RXYC 並沒有針對空白部分做保留,如何將空白加入結構樹當中,便 是一個重要問題。以圖 15 為例,左邊假設是原始影像,經過圖 14 的流程後可以 得到圖 15 中間的結果,以及右邊分析結構樹。. 15.

(23) 圖 15. 圖 16. RXYC 的分析範例,R 代表 Root. AXYC 加入空白區塊的順位,水平切割時(左)和垂直切割時(右)的順序不同. 首先 AXYC 針對空白種類做分析,從圖 16 為例,文件的空白可以分成三大 類:水平邊界空白、切割空白和垂直邊界空白。AXYC 基於橫列式文件的排版, 依照每種空白對排版的影響,排定切割優先順序。水平邊界空白優先切割,可幫 助對於「行」的判定。接著原本的切割線修改成切割空白,最後才將垂直邊界空 白切出。垂直邊界空白對於欄位的判定有很大的幫助,所以垂直切割時,會同時 將垂直邊界一併切割。 為了切割各個區塊,AXYC 會針對影像區塊做投影分析,假設目前分析到的 區塊為 S 是由 M*N 的 pixels 所組成的影像區塊,當 AXYC 對 S 做投影分析時, 將產生一排由空白和非空白交替而成的間距數列,如圖 17,空白的投影間隔以 W 16.

(24) 圖 17. AXYC 分析區塊 S 水平垂直投影,找出所有投影間隔距離. 表示,非空白的投影間隔以 B 表示,再依據投影的方向分成兩類, W h 、 B h 表示 水平投影的間隔距離, W v 、 B v 表示垂直投影的間隔距離,假設水平投影間隔數 為 m,可以表示成以下數列:. W. h 0. , B1h ,W2h ,...,Wmh- 2 , Bmh 1,Wmh. . 而垂直投影間隔數為 n,可以表示成以下數列:. W. v 0. , B1v ,W2v ,...,Wnv- 2 , Bnv1,Wnv. . 其中 W0h 、 Wmh 、 W0v 、 Wnv 分別代表上下左右的邊界空白,接著 AXYC 會針對 B h h 之間的 W h 做搜尋,找出最大的 W h 作切割的參考,水平最大空白間隔 Wmax h 為:. . h h h h h Wmax h  max W2 ,W4 ,...,Wn4 ,Wn2. 17. .

(25) v 而垂直最大空白間隔 Wmax v 為:. . v v v v v Wmax v  max W2 , W4 ,...,Wm4 , Wm2. . 當找到最大水平空白間隔後,可將影像區塊切割為上下兩部分,其距離分別以 h h Wtop 和 Wdown 表示,其值的計算為:. h Wtop . max h 1 2. W i 1. h 2i. . max h 1 2. B i 0. h 2i 1. ,. n 1 2. W. h Wdown  i. h 2i. n 1 2. B. . max h 1 2. i. v. h 2 i 1. max h 2. v. 最大的垂直空白亦可切成左右兩部分,其距離分別以 Wleft 和 Wright 表示,其值的 計算為:. v Wleft . max v 1 2. max v 1 2. i 1. i 0. W2vi . 圖 18. v v W  B right  2i 1 ,. m 1 2. W. i. max v 1 2. v 2i. . m 1 2. B i. max v 2. AXYC 找出最大投影空白間隔後,訂出各切割區塊大小 18. v 2 i 1.

(26) 圖 19. 加入空白區塊的切割演算法. 最後的分析數列就可做為切割選擇的依據,如圖 18 所示。根據數列參數,可以 定義出加入空白區塊後的切割演算法,如圖 19 所示。利用此演算法切割圖 15 左 的文件影像,如圖 20 所示。圖 21 是和 RXYC 兩者間的比較。. 圖 20 加入空白節點後的切割過程 V: 垂直排列節點,H 水平排列節點,W 空白區塊節點,B 含影像節點. 19.

(27) 圖 21. (上)RXYC 所切割出來的區塊與結構樹,(下)加了空白區塊後的切割區塊與結構樹. 3.3.2 切割分析區塊 RXYC 只有將文件切成「欄位」,並沒切割到「行」和「字」等單位,而 一般文件通常需要分析到「行」或「字」之間,切割條件勢必需調整才能做更 詳細的分析。然而當 RXYC 的門檻值設定被去除,直接將 RXYC 切到最小單 位,會產生兩個問題,一是產生跨行切割,二是切割到文字內,如圖 22 所示。. 圖 22. 用原 RXYC 的判定條件切割會在字與行之間產生誤判的問題 20.

(28) 為了解決跨行切割,AXYC 的切割判定條件,改成最大切割空白面積,如 圖 23,RXYC 會因為垂直投影的寬度較大,優先選擇垂直切割造成切割錯誤, 而 AXYC 在橫列式的文件中,因為行的寬度遠大於文字間的寬度與高度,使得 水平切割面積大於垂直切割面積,優先選擇水平切割,避免了跨行切割的情 況。加入此條件後,跨行切割的狀況就減少了,如圖 24 所示。. 圖 23. 圖 24. AXYC 利用矩形面積避免跨行割. AXYC 利用空白矩形判斷切割,減少跨行的情況. 圖 25 中,有些文件的排版將行中間文字拉開,切割時導致跨行切割的狀況, 為了避免這種情況,在做垂直切割時,切割的兩區塊寬度不能相差太大,因此如 21.

(29) 同時有水平含垂直切割時,且垂直切割矩形比較大,但兩邊切割後影像寬度懸殊 時,AXYC 仍以水平切割優先,如圖 26 所示。實驗中以兩邊比值互不大於 3 為 門檻。經過設定後的切割結果如圖 27 所示。. 圖 25. 圖 26. 因排版關係產生跨行切割. 垂直切割時切割後兩影像區塊寬度相差太大時,通常是切割到欄位邊緣. 圖 27. 加入垂直切割兩邊比值互不大於 3 之後的切割結果. 在處理完跨行切割後,接著是文字切割的問題,為了避免切割到文字間,需 要設定切割門檻值。AXYC 會先計算一個文字高度值 WS 來當作門檻值的基本的 22.

(30) 單位。假設 AXYC 切割到最小時會將文件影像切成 k 個影像區塊,每個影像區塊 可表示為 B1 , B2 ,..., Bk ,而其高度的排列為 BH 1 , BH 2 ,..., BH k ,由小到大排序後為 BH1 , BH 2 ,..., BH k ,而 WS 以此數列中間值做為參考,其定義如下:. WS  BH  k  2  . 為了求得 WS 值,AXYC 先將 WS = 1 做一次切割,切割出所有影像單位後,算出 WS 再重新切割一次,藉此動態設定每一張文件的 WS 值,來讓門檻值皆符合不同 文件的需求。 在偵測水平切割,AXYC 使用了最小切割範圍的設定,如圖 28 所示,基於 橫列式的文件內容,最小區塊的水平切割是發生在切割兩行之間,所以水平切割 值少要大於兩行才能執行偵測。而為了避免有些文字遠大於兩行高度,最小切割 範圍還設定了寬度限制,一般是以文件中預定的最大文字上限做設定,實驗中採 用 5 倍的 WS 來當作門檻值。而為避免上限邊界空白也切割至文字內,其切割高 度亦設一切割上限,實驗中採用 0.35WS 作為切割上限。圖 29 是經過統整之後完 整的 AXYC 分析的演算法。利用此演算法可避免跨行切割和文字切割的問題,如 圖 30 所示。. 圖 28. 水平切割的最小接割範圍,以避免切割文字之間. 23.

(31) 圖 29. 圖 30. AXYC 區塊切割分析演算法. AXYC 修正了跨行和切到文字的問題. 3.3.3 結構樹彙整 AXYC 切割好的結構樹,每個 node 會包含數個分支,直到最底層的空白區 塊或影像區塊。如圖 31 所示,右上的結構樹是取自左圖紅色框範圍的文字影像, 結構樹會隨著切割時的情況長出。但是這樣結構樹分析起來並不方便,好比說如 圖 31,左上是切割產生出的結構樹,其中「業務部」三個字,被拆成「業務」和 24.

(32) 「部」兩部分在不同節點,要分析需回到上一層搜尋,這樣的搜尋費時費力,所 以需對結構樹做整理,將同方向切割的子樹砍掉,再將最底層的影像區塊和空白 區塊,接到最上層第一次出現此方向的節點上,整理過後的結構樹,在搜尋和套 用 Bule-base 就比較方便了。. 圖 31. 經過整理後的結構樹才能方便使用. 25.

(33) 3.4 文件內容分析 不同的文件雖然有不同的內容,但一般都有相同的概念,就是能從小的單位 組合成大的單位,圖 32 是一種文件結構的分析圖,雖然不是每個種類的文件都 含有同樣的結構,但大多數都是由小到大組合起來。. 圖 32. 文件的物理結構圖,參考自[16]. 在上一節分析完文件的物理結構以後,會產生一個基本的物理結構樹。結構 樹內容包含了由大到小切割資訊,以及每個和空白和非空白物件資訊,當套用不 同種類 Rule-Base 後,就可以組合對應出其各自分析內容。藉由 Rule-Base 規則, 可以將文件由下而上 Bottom-up 出文件內容,或是將物件本身資訊,轉換成特殊 意義物件,分析出其邏輯意義。這些 Rule-Base 隨使用目的而改寫,然而描述這 些 Rule-Base 內容需要有共通的語法,接下來介紹的就是本研究設計的 Rule-Base 語法。. 3.4.1 Rule-Base 基本單位 在分析結構樹之前,要先定義一些初始單位,這些初始單位從是先前 26.

(34) AXYC,所分析出來的節點單位。從 AXYC 定義出的基本 Rule-Base 單位如下: 1. Brect:非空白區塊 2. Wrect:空白區塊 3. HRectList:水平方向的區塊組 4. VRectList:垂直方向的區塊組 5. Page:整張影像 以圖 33 為例,左邊的圖所顯示一個水平排列的區塊,稱做 HRectList,圖上 方顯示的原始樹的結構,中間的圖是垂直排列區塊,稱做 VRectList,而右邊的圖 顯示最底層的單位 Brect 和 Wrect,分別代表著非空白和空白區塊。整個結構樹的 方向性是由上而下,由左而右。. 圖 33. Rule-Base 單位對應 AXYC 所切割的結構樹. 27.

(35) 3.4.2 Rule-Base 分析語法 本研究提供一些基本語法來分析文件邏輯結構,定義的方式都是以結構樹既 有的資訊來當作依據,包含基本長寬大小,以及上述所定義的基本單位。語法格 式如下: 定義名稱 := 函式名稱 參數 1 參數 2 參數 3 … 定義名稱 1. 定義名稱 2 … := 函式名稱 參數 1 參數 2 參數 3 …. 定義名稱是提供給使用者自行定義的,當有新物件分析出來時,用來對新物 件命名,接著是一個”:=”代表著定義名稱結束,如定義名稱不只一個,則可以連 續定義,但是其相對應函式必頇是適用多重定義語法。而函式名稱是程式預先設 定好的分析方法,需要的參數則接在名稱後面,中間由空白所分隔。 本研究提供一連串分析函式,藉由這些函式可以分析文件基本內容,函式的 列表如下: 1. RectSize 區塊大小分析 用途:利用區塊長寬大小,來劃分區塊的內容 格式:RectSize 適用範圍 寬最小值 寬最大值 高最小值 高最大值 適用單位 解釋:寬和高的單位用 WS 為單位,適用範圍和是適用單位可以是一個自行 定義的區塊 範例: bigChar := RectSize HRectList 0 5 1.25 5 Brect bigChar 是指在所有 HRectList 中,寬在 0~5 倍 Word_Size 高在 1.25~5 倍 Word_size 的 Brect. 28.

(36) 2. RectRatio 區塊比例分析 用途:利用區塊長寬比例,來劃分區塊內容 格式:RectRatio 適用範圍 高除寬最小比值 高除寬最大比值 適用單位 解釋:區塊的高和寬相除(H/W)後,如在範圍內就會套用此分析。 範例: cChar := RectRatio HRectList 0.7 1.4 Brect cChar 是指在所有 HRectList 中,高和寬的比例在 0.7~1.4 之間的 Brect 3. AtPosition 區塊位置分析 用途:利用在區塊組的位置特性來分析內容 格式:AtPosition 適用範圍 位置參數 適用單位 解釋:位置參數為適用範圍內的位置,包含 First、Last 和 Inside 的關鍵字 範例: address := AtPosition block First cblock address 是在 block 區塊裡面的第一個位置的 cblock 4. Group 將物件群組 用途:是一個群組函式,根據條件將物件群組起來 格式:Group 群組條件 適用範圍 群組單位 1 群組單位 2 … 解釋:群組條件包括 Type 和 Indent,Type 是會根據群組單位將相鄰的物件 連結群組起來,Indent 是會根據物件的縮排來群組。群組單位可以是一 個到多個不同種類單位,群組之後會產生一個新的單位將這些群組單 位包裝起來。 範例:. D := Group Type A B C. D 是在 A 裡的 B 和 C 所組成的。從圖 34 可以看到群組的過程,左邊是 原本的樹結構,經過 GroupType 的分析後,就會產生 D 這個單位把 B. 29.

(37) 和 C 裝起來。. 圖 34. 5. UnGroup 取消群組 用途:將群組物件刪除,其子節點加入父節點內 格式:取消群組 := UnGroup 範例:. D := UnGroup. 原本的 D 物件刪除後,其子節點依序加入 A 節點中,保持排序結構. 圖 35. 6. ContainType 將內含特定物件的單位做轉換 用途:分析物件組內的單位,如果符合特性的話就做轉換。 格式:ContainType 分析種類 適用單位 分析參數 適用範圍 解釋:分析種類有包含 Num(特定數量)、MoreNum(大於數量) 、LessNum(小 於數量)等參數。 範例: name := ContainType Num bigcChar 3 HRectList 假如 HRectList 內含有剛好 3 個數量的 bigcChar,那將之轉換成 name. 30.

(38) 7. MatchType. 將特殊排列組合的物件做轉換. 用途:利用物件內的排列方式,來分析物件的內容 格式:MatchType 適用範圍 排列單位 1 排列單位 2 … 解釋:MatchType 是一個多對應的函示,”:=”符號前面有多少對應名稱,後 面就有多少對應的排列單位,函是會依照排列的順序性去搜尋適當的組合 範例: D E F := MatchType G A B C 當 G 內部裡有 ABC 排列順序的物件時,就會依照對應順序轉換成 DEF. 圖 36. 3.4.3 Rule-Base 的使用範例 本研究用實際例子來示範此系統的應用,以論文封面為例子如圖 37 左所 示,經過 RXYC 之後轉換成如圖 37 右的切割資訊。論文的封面包含了標題、指 導教授、論文題目、作者、日期等欄位,假設要取出這些資訊的話,以下是參考 的 Rule-Base 範例: // 大塊的空白可以當作切割欄位的依據 cutSpace := RectSize VRectList 5 200 3 100 Wrect // 相鄰的行可以組成區塊 block := Group Type VRectList HRectList Wrect // 有的欄位是單獨的行 line := AtPosition VRectList Inside HRectList // 執行到這就會將論文分割成如圖 38 左邊的分割區塊 // 再依照欄位的順序性各次對應後,就會產生圖 38 右邊對應結果 title cutSpace advisor cutSpace subject cutSpace author cutSpace date cutSpace := MatchType VRectList block cutSpace line cutSpace block cutSpace line cutSpace line cutSpace. 31.

(39) 圖 37. 圖 38. 原始文件影像(左) 經過 AXYC 切割(右). Rule-Base 分析其結構(左) 最後分析出內容欄位(右). 32.

(40) 四、 實驗結果 實驗先針對 AXYC 和 RXYC 兩者之間比較,從旋轉校正開始,和兩者切割 的誤差。再綜合 WhiteSpace 做執行時間比較,最後測試 AXYC 應用在 Rule-Base 邏輯分析的實驗成果。實驗資料是由 37 張 90mm×54mm 大小 600dpi 解析度的 名片影像和 87 張 A4 大小 300dpi 解析度的問卷影像所組成。名片和問卷是兩 個差異很大的文件影像,名片屬於小型影像文件,排版樣示變化較多,還包含 了相當多資訊欄位,問卷相較於名片屬於大型影像文件,包含的資訊欄位種類 較少,實驗這兩種差異度大的影像可比較其結果。實驗的環境是在 Windows 7 的作業系統底下,CPU 是 Intel Core i5 2.27GHz,使用 JAVA 作為實驗用的程式 語言。. 4.1 旋轉校正比較 此次實驗針對 RXYC 旋轉校正和 AXYC 修正公式後的校正來做比較。原 RXYC 有設定門檻值限制,實驗中將 RXYC 的門檻限制拿掉之後,也加入比較。 為了產生實驗需要的測試影像,實驗組是從名片中挑出 10 張,和問卷中挑出 10 張,分別從 -5∘~ 5∘之間,每 0.5∘旋轉產生的影像做測資,總計 21×10×2 = 420 張實驗影像,再經由 RXYC、無限制門檻值 RXYC 和 AXYC 修正公式後 做比較。設定偵測範圍從 -6∘~ 6∘之間,測量尺標每 0.5∘偵測一次。每次的 偵測都會回傳參考值,再由各演算法找出最佳校正結果,與當初設定的旋轉角 度做比較,算出角度誤差。以下是實驗的平均誤差結果。. 33.

(41) 圖 39. 旋轉校正的平均誤差分析. 從圖 40 可以看出名片平均誤差大於問卷平均誤差,這是因為問卷是小型文 件,文字集中度較低,所以不容易旋轉讓文字投影產生交集。原始 RXYC 因為 切割的欄位較大,所以切割數量差異低,大塊區間也比較難產生投影交集。而 縮小切割門檻值後,誤差值很明顯變小了,這是因為切割單位變小,文字間隔 較容易產生投影交集,影響切割的結果。AXYC 加入了水平節點數校正後,讓 平均誤差值縮小到量尺之間,算是相當準確。也證明出,AXYC 對於角度的敏 感度相當高。. 圖 40. 各演算法的旋轉切割範例,RXYC(左上),RXYC 無門檻限制(右上),AXYC 修正(下). 34.

(42) 4.2 RXYC 和 AXYC 切割比較 RXYC 只切割到文件欄位,為了能夠切割文字,研究中取消門檻值限制。 但造成 RXYC 切割時產生跨行切割錯誤,AXYC 則修正了這種情況。此次實驗 要比較 RXYC 切割錯誤的情況和 AXYC 修正後的情況。實驗中切割了 37 張名 片影像和 87 張問卷影像共 124 張影像來進行比較,判定是只要有任一跨行切 割,整張圖就算切割錯誤。以下是兩者比較結果。. 圖 41. RXYC 和 AXYC 切割錯誤率的比較. 名片由於排版的變化性高,文字變化較大,所以產生切割的錯誤率較高。 而 RXYC 原本設計是針對文件欄位切割,並未針對行和文字切割做設計,所以 錯誤率較高。AXYC 的設計有效降低此錯誤率發生,跨行錯誤率低表示當使用 AXYC 時,能夠預估行的切割是相當穩定的,這對接下來 Rule-Base 分析幫助 很大,單純的物理結構可以讓 Rule-Base 分析更精確。. 圖 42. RXYC 將姓名切割成兩塊(左),AXYC 則修正了這種狀況(右). 35.

(43) 圖 43. 圖中是問卷的部分,RXYC 有大量跨行切割(左),AXYC 則修正後的結果(右). 4.3 切割時間比較 AXYC 將空白區塊切割出來,用來作文件排版分析,而 Whitespace 也是利用 空白區塊來分析文件欄位。但是 Whitespace 的演算法相當耗時,為了取得平衡需 要對切割的空白數量設定門檻值 n。本實驗針對 RXYC、AXYC 和 Whitespace 做 比較,為了瞭解 Whitespace 在切割空白數量上的差異,分別設定 n = 10 和 n = 40 做比較。實驗的結果如下。. 圖 44. 各演算法的平均執行時間(單位:秒). 36.

(44) 圖 45. RXYC(左上) , AXYC (右上) Whitespace, n = 10 (左下). n = 40 (右下). 灰色為刪去空白區塊後結果. 如圖 44 所示,問卷要花的時間普遍比名片來的長,這是因為問卷影像較大, 包含影像物件較多的緣故。RXYC 和 AXYC 平均都在半秒內就可以切割完成,而 Whitespace 本來在名片上速度還不錯,但是到了問卷時間就y增加了一倍。 Whitespace 本來是為了切割出文件的欄位,所以通常 n 不會設太大,但是 AXYC 完全將空白區塊都切割出來,所以實驗嘗試將 n 放大,讓 Whitespace 可以切割更 細,但時間大幅成長,相較之下 AXYC 將排版分析到文字的單位,而 Whitespace 則需額外的演算法才能分析到行或文字。 另外,RXYC 和 AXYC 的差異非常小,這是因為其中最花時間的部分,是在 計算水平和垂直投影量,而這部分是程式是採用預先建表計算,讓切割分析時花 的時間較少,即使為了求 WS 而重複切割,表仍不需重建,這讓 AXYC 仍可保有 RXYC 切割快速的優點。. 37.

(45) 4.4 Rule-Base 分析實驗 當影像經過 AXYC 切割過後,下一步是利用 Rule-Base 分析其邏輯結構,偵 測文件的內容。而偵測的準確率和 Rule-Base 的分析息息相關。本實驗針對名片 和問卷編寫部分的 Rule-Base 欄位做測試,提供準確率數據來當作參考。. 4.4.1 名片欄位偵測 實驗中使用 37 張名片來當作測試目標,偵測名片中姓名、公司和地址欄 位,從圖 46 中可以看到分析結果。姓名的準確度相當高,這是因為姓名在名 片排版中,都放在最醒目的位置,而公司在名片中也具有排版的特色,所以準 確度也還不錯,地址的排版特徵並不突出,所以準確度稍低。由此可知,AXYC 和 Rule-Base 較適合偵測此具有排版特徵的欄位. 圖 46. Rule-Base 語法偵測名片欄位的 Precision 和 Recall. 圖 47. AXYC 和 Rule-Base 分析後的名片結果 38.

(46) 4.4.2 問卷欄位偵測 問卷的內容包含標題、說明和問題選項,一般的問卷分析都是以偵測選填區 域為主,本實驗問卷是以勾選和填寫式的問卷為主,由於問卷的說明格式差異 大,所以實驗將 87 張問卷依欄位內容,同分成四大類:含說明框、含排版特徵 說明、未含排版特徵說明和無標題說明問卷。利用 Rule-Base 方便修改特性,針 對特性不同的問卷使用不同的 Rule-Base 分析。偵測的方式以「行」為單位,針 對標題、說明、選填和題組做偵測。分析完合併數據後,可以得到以下的實驗結 果。雖然問卷的內容較多,排版樣式複雜,但是仍然有 75%以上的準確率。. 圖 48. 問卷欄位偵測準確率. 39.

(47) 圖 49. 含有框線的說明問卷,綠色是填選區域,藍色是題組區域. 40.

(48) 圖50. 說明含有排版特徵的問卷,綠色是填選區域,藍色是題組區域. 41.

(49) 五、 結論 本研究驗證了 AXYC 可以用來取代 RXYC 作為文件切割方法,AXYC 繼承 RXYC 既切割又可分析物理結構的特性,並有效切割出比 RXYC 更小的文件單 位,具有相當穩定性。結構樹包含完整文件資訊,小至文字大至文件欄位,很適 合用在 Rule-Base 分析上,只要簡單的語法就分析文件內容。Rule-Base 的可修改 性也增加了文件應用範圍,不再受限於單一種類文件。而 AXYC 也可用來偵測文 件的旋轉校正,經過修正後的演算法正確率提高,讓切割效果更好。在切割速度 上也保留了 RXYC 速度快的優點,即使切割的數量變多,切割的成長時間相當的 少,相較於 Whitespace 速度又快上好幾倍。 不過 AXYC 也保留了 RXYC 的缺點,對於含有格線或是被格線包圍的文 字,仍無法切割並分析其排版,而 Rule-Base 語法仍有擴充空間,研究中只提供 最基本的語法,使用上仍有其限制。從名片實驗結果中,雖然只用排版特性去分 析名片欄位,仍然可得到不錯的結果,證實了排版是一個相當實用的特徵。但是 面對排版特徵不明顯的欄位,光靠排版較無法應付文件的多樣性。不過其分析的 結果仍可當作文件分析的前處理,當分析出可能的欄位之後,可搭配其他演算法 做更進一步的分析。. 42.

(50) 參考文獻 [1]. Han Wang; Li, S.Z.; Ragupathi, S., "Document segmentation and classification with top-down approach," Knowledge-Based Intelligent Electronic Systems, 1997. KES '97. Proceedings., 1997 First International Conference on , vol.1, no., pp.243-247 vol.1, 27-23 May 1997. [2]. Gaceb, D. Eglin, V.; LeBourgeois, F.; Emptoz, H., "Physical Layout Segmentation of Mail Application Dedicated to Automatic Postal Sorting System," Document Analysis Systems, 2008. DAS '08. The Eighth IAPR International Workshop on , pp.408-414, 16-19 Sept. 2008. [3]. Huiying Zhu; Yuexian Zou, "A cross-connected components-based layout analysis algorithm for Chinese business card," Industrial Electronics and Applications, 2008. ICIEA 2008. 3rd IEEE Conference on , pp.2530-2534, 3-5 June 2008. [4]. Matrakas, M.D.; Bortolozzi, F., "Segmentation and validation of commercial documents logical structure," Information Technology: Coding and Computing, 2000. Proceedings. International Conference on , pp.242-246, 2000. [5]. Akira Amano; Naoki Asada; Masayuki Mukunoki; Masahito Aoyama "Table form document analysis based on the document structure grammar" International Journal of Document Analysis (2006) 8(2): 201–213. [6]. R. Cattoni; T. Coianiz, S. Messelodi; C.M. Modena, "Geometric Layout Analysis Techniques for Document Image Understanding: A Review," IRST Technical Report 9703-09, 1998.. [7]. G. Nagy; S Seth; S. D. Stoddard. "Document analysis with an expert system." In Proc. Patem Recognition Practice, volume 11, pages 149-159,Amsterdam, 1985.. [8]. F. M. Wahl; K. Y. Wong; and R. G. Casey. "Block segmentation and text extraction in mixed textlgraphics images. Computer Vision, Graphics and Image Processing", 20:375-390, 1982.. [9]. Papamarkos, N.; Tzortzakis, J.; Gatos, B., "Determination of run-length smoothing values for document segmentation," Electronics, Circuits, and Systems, 1996. ICECS '96., Proceedings of the Third IEEE International Conference on , vol.2, no., pp.684-687 vol.2, 13-16 Oct 1996. [10]. Jaekyu Ha; Haralick, R.M.; Phillips, I.T., "Recursive X-Y cut using bounding boxes of connected components," Document Analysis and Recognition, 1995., Proceedings of the Third International Conference on , vol.2, pp.952-955 vol.2, 14-16 Aug 1995. 43.

(51) [11]. O'Gorman, L., "The document spectrum for page layout analysis," Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.15, no.11, pp.1162-1173, Nov 1993. [12]. H.S. Baird, "Background Structure in Document Images," Document Image Analysis, H. Bunke, P. Wang, and H.S. Baird, eds.,pp. 17-34, World Scientific, 1994.. [13]. Stefan Klink; Thomas Kieninger, "Rule-based document structure understanding with a fuzzy combination of layout and textual features" International Journal on Document Analysis and Recognition, vol.4 pp.18-26, 2001. [14]. N. Otsu, "A threshold selection method from gray-level histograms",IEEE Trans. Systems Man Cybernet. 9 (1) (1979) 62–66.. [15]. Sarin Watcharabutsarakham, "Page Segmentation for Content Sequence," Signal Processing, International Conference on, 2006. [16]. Aniko Simon; Jean-Christophe Pret; and A. Peter Johnson, "A Fast Algorithm for Bottom-Up Document Layout Analysis," Pattern Analysis and Machine Intelligence, IEEE Transactions on ,VOL. 19, NO. 3, MARCH 1997. 44.

(52)

參考文獻

相關文件

Segmented Bushy Path 分為兩個步驟,第一個步驟是文件結構的切割 (Text Segmentation),也就是分析文件內容並將文件內容切割成幾個具有代 表的結構。Text Segmentation

Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval pp.298-306.. Automatic Classification Using Supervised

由於 DEMATEL 可以讓我們很有效的找出各準則構面之因果關係,因此國內外 有許多學者皆運用了 DEMATEL

本研究以 2.4 小節中之時程延遲分析技術相關研究成果為基礎,針對 Global Impact Technique、Net Impact Technique、As-Planned Expanded Technique、Collapsed

本研究採用的方法是將階層式與非階層式集群法結合。第一步先運用

通常在研究賽格威這類之平衡系統時在於機構之設計是十分的昂貴,本論文

本研究在於國內汽車產業的經營策略之分析,藉由對已選定的個案進行仔 細地資料蒐集與分析,以期最終從中獲致結論。本研究方法,基本上依 Porter 競 爭分析及

本研究透過文獻回顧收集地籍圖之相關資料,了解地籍圖之多元 應用,並以 Delphi 與 PDA 為開發工具,結合 ER/Studio 之資料庫關係 架構,在 PC 端採用 Windows