OCR 軟體辨識率增進程度驗證

第四章實驗

第三節 OCR 軟體辨識率增進程度驗證

本研究提出的方法在後續應用上，需要連結外部 OCR 軟體，進而辨識出文

字方能得到名片的語意內容。因此，經過本方法作版面分析後，擷取出的文字

行是否比不作任何處理的名片影像能得到更高的辨識率，是需要驗證的。

在此實驗中，我們使用手機自行拍攝中文名片影像作為 dataset，並和 3 種

OCR 比較使用本方法處理後之影像辨識率增進程度。

使用之手機為Sony Ericsson Xperia™ mini pro 內建相機，規格如表 3。

表 3、相機規格

感光元件 CMOS

最高解析度 2592 *1744 /五百萬畫素

相機功能 自動對焦（具近拍功能）

實驗環境條件設定如下：

1. 不限定影像中名片所在區域，但名片面積至少佔影像面積的八成。

2. 相機拍攝角度不固定。

3. 名片之上、下，左、右，四個邊界都在影像內。

4. 使用五百萬畫素、無閃光、自動對焦拍攝模式。

5. 使用一般商用，字體為印刷體之中文名片進行實驗。

拍攝 88 張名片，其中第 1 張到第 50 張為名片底色單一，名片外背景顏色

單一，沒有反白區域的名片影像，第 1 到第 25 張和第 26 到 50 張是同樣的名片，

但以不同角度拍攝，前 25 張為垂直拍攝，後 25 張為具透視扭曲的非垂直拍攝，

簡稱為 Simple Card Dataset，見圖 30；第 51 到第 88 張為名片底色非單一，名

片以外背景（例：桌面）具有深淺紋理，模擬一般拍攝情況的名片影像，簡稱

為 Complex Card Dataset，見圖 31。

圖 30、Simple Card Dataset 名片範例

圖 31、Complex Card Dataset 名片範例

比較驗證用的 OCR 引擎為商業 OCR 軟體 ABBYY FineReader 11[29]、視窗

軟體 Microsoft MODI[30]、open-source 引擎 Tesseract 3.0[31]，其中 ABBYY 具

有自動影像前處理系統，能自動校正梯形圖片，處理雜訊和保留文件排版結構，

Microsoft MODI 無法校正梯形圖片，但有處理雜訊功能，Tesseract 則無處理雜訊功能。

此實驗為證實本研究方法可增加複雜名片字元辨識度，使用 Complex Card

Dataset 作為測試資料，測試環境為將名片放置在有紋理的桌上，拍攝角度任意，因此有旋轉或梯形拍攝的情況。

Complex Card Dataset 經過本研究的方法擷取出文字行後，將切割出僅有單一文字行資訊，背景黑色文字白色的單色影像序列送入 OCR 引擎，並和不作

任何處理的名片影像比較辨識率，見表 4。

表 4、OCR 字元 recall 增進─使用 Complex Card Dataset 所有影像 原始影像

＋OCR Engine

Our Method +OCR Engine

ABBYY FineReader 11 67.87% 87.52%

Microsoft MODI 62.91% 72.84%

Tesseract 3.0 28.74% 77.06%

不作任何處理的名片影像平均辨識率均不足 7 成，探究其原因，其中有 7 張原始名片影像是 OCR 軟體完全不能辨識的，見圖 32，也就是辨識率為 0，辨識出的字元數是 0 個，因此拉低原始辨識率。接下來的實驗，保留 Complex Card

Dataset 中 OCR 軟體可以直接辨識，不須取出文字行的 31 張名片影像計算辨識率，避免得到的數值無法代表一般情況，實驗數據見表 5。

圖 32、OCR engine 共同原始辨識率最低的影像

表 5、OCR 字元 recall 增進─去除 OCR 軟體無法直接辨識之影像 原始影像

＋OCR Engine

Our Method +OCR Engine

ABBYY FineReader 11 80.60% 89.00%

Microsoft MODI 68.83% 76.57%

Tesseract 3.0 30.09% 78.32%

在複雜名片方面，無論是有無將 OCR 軟體無法辨識的名片去除，使用本方法＋ABBYY 皆能維持 87%字元辨識率，而且 MODI 和 Tesseract 之字元辨識率也能藉由本方法得到提升，足以驗證本方法可以適用在多種 OCR 軟體上。

在文檔中基於霍夫轉換之複雜名片文字行擷取 (頁 38-42)

第四章 實驗

第三節 OCR 軟體辨識率增進程度驗證

第四章實驗