第一章 緒論
第四節 名詞解釋
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5
一、 參考文獻
本研究之參考文獻,以語言區分,包含中文及英文兩種語言為主;以類型區 分,包含專書、期刊論文、碩博士論文、會議論文、開發手冊及網路資源為主。
二、 研究方法
本研究受時間、資源等因素限制,僅採用準實驗研究法及深度訪談法進行,
透過兩種研究方法瞭解各變項對於 OCR 辨識精確率的影響,以及機構人員對於 古籍全文資料庫建置的經驗觀點,交互擬定出最適當的全文資料庫建置流程。
運用準實驗研究法,實際使用 OCR 軟體進行不同古籍物件的辨識測試,瞭 解古籍影像各變項對 OCR 辨識率的影響;運用深度訪談法,訪談參與數位典藏 全文化計畫之機構人員,瞭解典藏機構對於全文資料庫的需求考量、執行建置計 畫經驗,以及對於 OCR 技術的認知觀點。礙於使用研究方法的差異,容易受實 質操作影響而產生具差異性的數據資料,為本研究的限制。
三、 研究對象
本研究之研究對象,古籍物件以國圖典藏之明代版本古籍為主;OCR 軟體 以所挑選較新穎之商務型辨識軟體為主;訪談人員以有執行數位典藏全文化經驗 之機構人員為主。綜合文獻探討,發現全文辨識精確度,深受軟體性能及古籍版 面狀況影響。
礙於研究對象的限制,針對古籍版式的差異,僅能推論該朝代古籍版式對於 辨識率的影響,針對其他不同朝代之古籍可能有不同的影響結果;針對開發軟體 的差異,僅能推論所選 OCR 軟體的辨識率影響,針對其他 OCR 軟體之辨識率 可能有不同的影響結果。
第四節 名詞解釋
針對本研究涉及的重要詞彙,包含「數位典藏」、「光學字元辨識」、「全文資 料庫」、「明人文集」等詞彙,進行名詞解釋之介紹:
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
6
壹、 數位典藏
數位典藏(Digital Archives)源自於典藏的概念,指資源以數位形式典藏的 過程。隨著時代的演變,不同於傳統的儲存載體,帶給物件典藏極大的轉變。在 數位時代中,針對物件進行數位化處理,運用拍攝、全文輸入、掃描等方式,並 加上詮釋資料(Metadata)的描述,以數位化方式儲存各種典藏物件。數位典藏 的主要目的,在於確保數位資源的可用性、持久性及整合性,期許透過數位化方 式,達到長期保存的效果,好持續供後人使用(陳和琴,2001;項潔、陳雪華、
鄭惇方,2002)。
貳、 光學字元辨識
光學字元辨識(Optical Character Recognition,簡稱 OCR)技術結合光線、
模板及文本三者,運用光線透光的原理,將黑色不透光文字投影至模板上,即顯 現出能辨識的文本內容(Mariner,2010)。辨識方法先運用數位掃描設備獲取印 刷或手寫文本影像,將影像輸入軟體系統中以不同識別演算法辨識分析文本中的 文字特徵,將原為影像形式的文字內容轉製成可操作的文字編碼,並可轉入資料 庫中供使用者查檢使用(李佩瑛、程琬如,2009)。OCR 的應用能加速資訊的 流通與傳播,傳統紙質載體能透過 OCR 技術的協助,將紙本內容轉載成數位形 式,協助文件資訊更加容易取得(Sun、Liu、Zhang、Comfort,1992)。
參、 全文資料庫
全文資料庫(Full-text database)指以將原件所含之文字為素材,保留原件 文字內容及版面格式所建構成的資料庫。將各類形式文件,包括古籍、圖書、期 刊、報紙等轉製成數位全文,供使用者線上瀏覽及內容檢索。採用階層式的目錄 排列,將原件的章、節、段落等內文標誌(Markup)下來,提供全文使用的檢 索點,並保留與內容相應的頁碼及行次,提供使用者核對文件時有個參考的依據
(謝清俊、林晰,1997)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
7
肆、 明人文集
明人文集(Anthology of Chinese Literature in Ming)指集結了明代文人著作 的集冊,包含了集部中的別集及總集,別集指彙集單一作者各式體裁著作的集冊;
總集指彙集眾多作者著作的集冊(陳寶良,2004)。文集因社會文化因素影響,
造成集冊的數量龐大,加上作者群分散於不同社會階層中,使得文集內容呈現上 具多樣性,涵蓋了明代政治、文學、思想、社會等多元資訊(張璉,2004)。由 於收錄體裁豐富,加上集冊數量具優勢性,使得文集可以協助進行正史的校正,
是鑽研明代歷史的重要文獻史料(陳梧桐,2004)。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
8
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
9