第三章 研究設計與實施
第二節 研究方法及工具
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
61
第二節 研究方法及工具
本研究探討 OCR 技術對古籍全文資料庫建置的幫助,及全文資料庫建置計 畫的需求及考量。藉由國內外文獻的探討、辨識數據的分析、機構人員的觀點等,
從多層面向觀點,探討全文資料庫建置的需求性及實施性。
研究主要使用「文獻分析法」、「準實驗研究法」及「深度訪談法」。首先,
蒐集與研究相關的主題文獻,進行文獻的分析探討,瞭解研究進行的要點;接著,
運用準實驗研究法進行辨識,蒐集並統計所得辨識數據;最後,運用深度訪談法 進行訪談,蒐集研究對象的觀點看法,整理並歸納出全文資料庫建置的最佳決策 模式。針對不同研究方法,選擇適當的研究工具,包含不同的 OCR 辨識軟體及 訪談問題大綱。本節針對使用的研究方法及研究工具進行分述說明:
壹、 研究方法
本研究使用的研究方法,分別為「文獻分析法」、「準實驗研究法」及「深度 訪談法」,以下針對各研究方法進行分述說明:
一、 文獻分析法
本研究為探討古籍全文資料庫建置的實施性,首先,探討古籍典藏的狀況,
瞭解建置全文資料庫的發展;接著,介紹 OCR 技術的發展、辨識的流程步驟,
瞭解影響辨識率的因素;再者,介紹明人文集的特色、內容資訊及現存情形,瞭 解研究的需求使用;緊接著,介紹古籍的版式及使用字體,瞭解辨識文本的可能 分類方法;最後,介紹數位資源的影響,瞭解學者對於數位資源的需求、看法及 期待。綜合整理,歸納出機構對於數位全文化的辨識選擇、應用需求與功能期盼,
作為日後機構建置全文資料庫的決策參考。參考文獻的來源,包含:研究計畫報 告、書籍、手冊、期刊文獻、碩博士論文、網站資訊等。
二、 準實驗研究法
本研究為探討 OCR 軟體對古籍的辨識率,挑選單一 OCR 軟體進行不同古 籍版式的辨識比對。OCR 軟體選擇較為新穎的商務型 OCR 軟體「ABBYY
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
62
FineReader 14」;古籍選擇國家圖書館所珍藏之古籍文本,挑選收錄明代文人著 作的文集。透過相同的 OCR 軟體辨識,比較不同古籍版式的辨識率影響,綜合 辨識結果,瞭解古籍版式及影像品質之影響程度,找出能協助古籍辨識率提升的 合適方法。
三、 深度訪談法
本研究為探討機構人員對於數位典藏計畫的考量,以臺灣地區有參與數位典 藏計畫並執行數位典藏全文化經驗之典藏機構為研究對象,邀請內部的專業人員 藉由半結構式訪談,瞭解機構實施數位典藏計畫的考量以及全文資料庫的需求。
訪談問卷依據文獻分析結果,作為訪談大綱設計的基礎,採用半結構式訪談,針 對研究的問題及目的,設計訪談的主題大綱。訪談主題包含:受訪者基本資料、
館藏資源與數位化情形、對於全文檢索需求與評估,透過訪談的方式,彙總整理 機構人員對於古籍數位典藏的看法及全文資料庫的需求。
貳、 研究工具
本研究使用的工具,包含 OCR 軟體及訪談問題大綱。OCR 軟體挑選兩種不 同的軟體,透過不同 OCR 軟體的辨識比對,找出古籍影響不同軟體辨識率的共 同因素;訪談問題大綱綜合研究問題及目的,設計出訪談的主題問題,作為日後 全文資料庫建置計畫的執行考量。以下針對各研究工具進行分述說明:
一、 OCR 軟體
隨著科技的發展,OCR 軟體也如雨後春筍般不斷開發出,將 OCR 軟體分為 一般型 OCR 辨識軟體及商務型 OCR 辨識軟體兩類。一般型 OCR 辨識軟體指應 用 OCR 技術從事簡單文字符號的影像辨識,通常放置於網路上提供使用者便捷 且快速的辨識功能,如 Online OCR、i2OCR 等;商務型 OCR 辨識軟體指廠商應 用 OCR 技術專門開發來辨識物件內容的軟體,如 ABBYY FineReader、丹青文 件辨識系統等。兩者相比,由於技術廠商在不斷執行辨識作業中,會強化修正 OCR 系統的辨識能力,因此,商務型 OCR 辨識軟體會比一般型 OCR 辨識軟體
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
63
更具適應不同類型字體變化的能力,能直接反應在 OCR 辨識的精確率上。
本研究挑選商務型 OCR 辨識軟體進行古籍影像的辨識測試,由於一般型 OCR 辨識軟體的辨識率過低無法提供研究數值分析,因此挑選商務型 OCR 辨識 軟體作為本研究的測試工具。選擇使用的 OCR 軟體為泰比科技(ABBYY)所開發 的 ABBYY FineReader 14,雖然該 OCR 軟體不像丹青文件管理系統是專門設計 為辨識中文漢字使用的 OCR 軟體,但基於 OCR 軟體版本的新穎性,因而決定 選擇使用 ABBYY FineReader 14 作本研究的辨識工具。
ABBYY FineReader 14 在使用上有提供幾項功能:一、提供文件影像與辨識 文本的直接比較;二、針對辨識古籍影像能提供影像切頁、傾斜校正、雜訊去除 等初步制式化前置處理作業;三、辨識會自動切劃文字區塊與影像區塊,若系統 切割方式錯誤也能採用人工方式劃分辨識區塊。
二、 深度訪談問題大綱
本研究「運用光學字元辨識技術建置數位典藏全文資料庫之評估」深度訪談 問題大綱,以文獻分析為基礎綜合研究問題與目面向設計出訪談問題大鋼。參考 有參與古籍數位典藏甚至全文化的機構之專業人員,作為本研究預定的訪談對象,
並針對計畫參與人員可能遭遇經驗與本研究欲探討的問題相關處,設計成半結構 式的訪談問題大綱。本研究之訪談問題大綱如下表所示(見表 3-2-2):