• 沒有找到結果。

OCR 軟體辨識率增進程度驗證

第四章 實驗

第三節 OCR 軟體辨識率增進程度驗證

本研究提出的方法在後續應用上,需要連結外部 OCR 軟體,進而辨識出文

字方能得到名片的語意內容。因此,經過本方法作版面分析後,擷取出的文字

行是否比不作任何處理的名片影像能得到更高的辨識率,是需要驗證的。

在此實驗中,我們使用手機自行拍攝中文名片影像作為 dataset,並和 3 種

OCR 比較使用本方法處理後之影像辨識率增進程度。

使用之手機為Sony Ericsson Xperia™ mini pro 內建相機,規格如表 3。

表 3、相機規格

感光元件 CMOS

最高解析度 2592 *1744 /五百萬畫素

相機功能 自動對焦(具近拍功能)

實驗環境條件設定如下:

1. 不限定影像中名片所在區域,但名片面積至少佔影像面積的八成。

2. 相機拍攝角度不固定。

3. 名片之上、下,左、右,四個邊界都在影像內。

4. 使用五百萬畫素、無閃光、自動對焦拍攝模式。

5. 使用一般商用,字體為印刷體之中文名片進行實驗。

拍攝 88 張名片,其中第 1 張到第 50 張為名片底色單一,名片外背景顏色

單一,沒有反白區域的名片影像,第 1 到第 25 張和第 26 到 50 張是同樣的名片,

但以不同角度拍攝,前 25 張為垂直拍攝,後 25 張為具透視扭曲的非垂直拍攝,

簡稱為 Simple Card Dataset,見圖 30;第 51 到第 88 張為名片底色非單一,名

片以外背景(例:桌面)具有深淺紋理,模擬一般拍攝情況的名片影像,簡稱

為 Complex Card Dataset,見圖 31。

圖 30、Simple Card Dataset 名片範例

圖 31、Complex Card Dataset 名片範例

比較驗證用的 OCR 引擎為商業 OCR 軟體 ABBYY FineReader 11[29]、視窗

軟體 Microsoft MODI[30]、open-source 引擎 Tesseract 3.0[31],其中 ABBYY 具

有自動影像前處理系統,能自動校正梯形圖片,處理雜訊和保留文件排版結構,

Microsoft MODI 無法校正梯形圖片,但有處理雜訊功能,Tesseract 則無處理雜 訊功能。

此實驗為證實本研究方法可增加複雜名片字元辨識度,使用 Complex Card

Dataset 作為測試資料,測試環境為將名片放置在有紋理的桌上, 拍攝角度任 意,因此有旋轉或梯形拍攝的情況。

Complex Card Dataset 經過本研究的方法擷取出文字行後,將切割出僅有單 一文字行資訊,背景黑色文字白色的單色影像序列送入 OCR 引擎,並和不作

任何處理的名片影像比較辨識率,見表 4。

表 4、OCR 字元 recall 增進─使用 Complex Card Dataset 所有影像 原始影像

+OCR Engine

Our Method +OCR Engine

ABBYY FineReader 11 67.87% 87.52%

Microsoft MODI 62.91% 72.84%

Tesseract 3.0 28.74% 77.06%

不作任何處理的名片影像平均辨識率均不足 7 成,探究其原因,其中有 7 張 原始名片影像是 OCR 軟體完全不能辨識的,見圖 32,也就是辨識率為 0,辨識 出的字元數是 0 個,因此拉低原始辨識率。接下來的實驗,保留 Complex Card

Dataset 中 OCR 軟體可以直接辨識,不須取出文字行的 31 張名片影像計算辨識 率,避免得到的數值無法代表一般情況,實驗數據見表 5。

圖 32、OCR engine 共同原始辨識率最低的影像

表 5、OCR 字元 recall 增進─去除 OCR 軟體無法直接辨識之影像 原始影像

+OCR Engine

Our Method +OCR Engine

ABBYY FineReader 11 80.60% 89.00%

Microsoft MODI 68.83% 76.57%

Tesseract 3.0 30.09% 78.32%

在複雜名片方面,無論是有無將 OCR 軟體無法辨識的名片去除,使用本方 法+ABBYY 皆能維持 87%字元辨識率,而且 MODI 和 Tesseract 之字元辨識率 也能藉由本方法得到提升,足以驗證本方法可以適用在多種 OCR 軟體上。

相關文件