第三章 研究設計與實施
第五節 資料整理與分析
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
70
第五節 資料整理與分析
本研究為瞭解 OCR 技術是否有助於古籍全文資料庫的建置,透過準實驗研 究及深度訪談兩種研究法進行資料蒐集,準實驗研究法操作 OCR 軟體針對不同 版式古籍之辨識結果進行比較分析;深度訪談法針對實際執行過數位全文化計畫 之機構實際參與計畫的人員進行訪談。透過兩種研究方法所獲得數據資料,進行 統計整理、歸納分析的作業,下列根據資料整理與分析方法進行分述說明:
壹、 OCR 辨識數據整理分析
本研究選擇 ABBYY 公司所開發設計之 OCR 軟體,進行 40 冊不同版面格式 之古籍的辨識測試。將 40 種不同集冊之古籍以編號 AM01 至 AM40 依序排列,
由於各集冊古籍挑選 5 頁數位影像進行 OCR 辨識測試,因此各影像編號按照原 古籍次序呈現 AM01-1 至 AM40-5 的排列方式。使用 SPSS 統計軟體協助古籍影 像各變項與實際辨識率的相關分析,就古籍版式而言由於各類型版式影響程度的 不一,僅挑選實際影響文字區塊排列的行段數與行字數,作為古籍版式差異的變 項值;古籍影像透過目視判斷進行影像品質分級,分級結果作為數位影像差異的 變項值;OCR 辨識精確率按照所辨識影像之正確文字數佔整總頁面文字數的百 分比,作為辨識率差異的變項值。透過三種自變項值對辨識率的影響,探討哪類 型古籍影像版式有利於 OCR 軟體的辨識。
貳、 深度訪談內容整理分析
本研究挑選實際執行古籍數位典藏計畫之機構,內部有參與數位全文化流程 之機構人員,進行半結構式的深度訪談。訪談過程採錄音方式記錄,結束後將訪 談音檔整理成訪談逐字稿,針對訪談逐字稿內容進行不同問題面向的內容分析與 彙總整理,下列針對整理分析方法與步驟分述說明:
一、 訪談資料謄錄
訪談期間以錄音的方式進行紀錄,並紀錄訪談過程中的種種現象,包括受訪
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
71
者的表情、語音的轉變等。將錄音檔內容以逐字繕打的方式詳細謄錄文字稿,並 需詳細標註各訪談對象的編號、訪談地點、訪談時間等資訊。
二、 訪談資料分析
綜合研究目的及問題,將逐字文字稿內容加以重新整理歸納,整理的同時按 照訪談對象的編號進行先後排序。
三、 加入註解
根據訪談過程中所記錄的內容,如有涉及機構或個人隱私,會以註解成〇〇 的方式填入所謄錄的文字逐字稿中,避免抽遺文句可能造成的詞彙不通順情形。
四、 訪談資料詮釋
完成整理及註解的逐字內容,需要加入資料的詮釋,包含受訪者編號及段落 內容的行數,方便論文資料呈現時有呈現參考的依據。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
72
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
73