• 沒有找到結果。

運用光學字元辨識技術建置數位典藏全文資料庫之評估:以明人文集為例 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "運用光學字元辨識技術建置數位典藏全文資料庫之評估:以明人文集為例 - 政大學術集成"

Copied!
185
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學圖書資訊與檔案學研究所 碩士學位論文 Master’s Thesis Graduate Institute of Library, Information and Archival Studies National Chengchi University. 政 治 大. 立 運用光學字元辨識技術建置數位典藏全文資料. ‧ 國. 學. 庫之評估:以明人文集為例. ‧. The Analysis of Use Optical Character Recognition to Establish the Full-text Retrieval Database:A Case Study of the Anthology of Chinese Literature in Ming. er. io. sit. y. Nat. al. n. v i n Ch 指導教授:林巧敏 e n g c h i U 博士 Adviser: Dr. Chiao-Min Lin. 研究生:蔡瀚緯 Author: Han-Wei Tsai. 中華民國一〇六年六月 June, 2017.

(2) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(3) 謝 辭 研究所生涯的兩年,看似漫長卻日月如梭、看似艱辛卻又耐人尋味,想當年 滿心期盼的就讀政大,一轉眼的時間就要離開了,回想兩年來真的要感激的人實 在太多了。 首先,最感謝我父母一路上的支持,讓我得以無後顧之憂的專心完成學業, 希望我的成果能成為你們的驕傲;再者,非常感謝我的指導教授林巧敏老師,不 管在課業、計畫或者論文上,都給予我充足的空間可以自由發揮,非常感激與慶. 政 治 大 志銘老師、蔡明月老師、王梅玲老師、邱炯友老師以及薛理桂老師,謝謝你們的 立. 幸可以成為巧敏老師的學生,也非常謝謝政大圖檔所上所有教導過我的老師,陳. ‧ 國. 學. 細心教導。. 論文方面,謝謝我的兩位口委老師─陳舜德老師以及陳淑君老師,不僅在忙. ‧. 碌之餘抽空評論論文內容,且給予許多改善的意見,非常謝謝兩位,也謝謝我的. y. Nat. io. sit. 所有受訪者,即使我愚昧的不斷詢問仍不吝於分享,感謝所有受訪者願意耗費寶. al. er. 貴時間協助我完成論文研究。工作方面,謝謝所上吳傳萱助教、毛明雯助教;謝. n. v i n 謝總圖典閱組相如姐、瓊文、筱喬;謝謝社資研發組的伊廷學姐、文芳學姐,謝 Ch engchi U 謝各位的從旁協助,讓我吸收到許多寶貴的經驗,受益良多。. 另外,非常感謝政大圖檔所第 20 屆一同努力的同學們,由衷感激琬琳、冠 羽以及顏琳,謝謝妳們這兩年來的幫忙與照顧,也謝謝鈺婷、輝彥、儀甄、鎮宇、 姿瑩等其它同學,謝謝你們為這艱辛的研究生活帶來點歡笑,得以有勇氣去面對 各種考驗。最後,特別感謝我最親愛的女友,在我就讀研究所期間,能陪伴在因 壓力而暴躁的我身邊,並不斷地給予我支持與鼓勵,讓我有勇氣能完成階段性的 目標,非常謝謝妳陪在我身旁。 一路走來,謝謝所有曾經協助、幫助我的人,非常感謝有你們的支持,才會.

(4) 有現在的我,對你們致上我萬分的感激與謝意。. 蔡瀚緯. 謹誌於. 中華民國 106 年 7 月. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(5) 摘 要 數位典藏是將物件以數位影像的形式進行典藏,並放置在網路系統供使用者 瀏覽,能達到流通推廣與保存維護的效果。但在目前資訊爆炸的時代,數位典藏 若僅透過詮釋資料描述是無法有效幫助使用者獲得內容資訊,唯有將之建置成全 文檢索模式,才能方便使用者快速檢索到所需資訊,而光學字元辨識技術(簡稱 OCR)能協助進行全文內容的輸出。 本研究藉由實際操作 OCR 軟體辨識明代古籍,探究古籍版式及影像對於軟. 政 治 大 員,探究機構或個人對於計畫施行之觀點與考量。結果發現,雖然實際辨識結果 立 體辨識結果之影響;藉由深度訪談訪問有實際參與數位典藏全文化經驗之機構人. ‧ 國. 學. 顯示古籍版式與影像會對於 OCR 辨識有所影響,綜合訪談內容得知目前技術層 面已克服古籍版式的侷限,但對於影像品質的要求仍然很高,意指古籍影像之品. ‧. 質對 OCR 的辨識影響程度最大;雖然 OCR 辨識技術已經有所突破,顯示能善. y. Nat. io. sit. 用此技術協助進行全文資料庫的建立,但礙於技術陌生、經費預算、人力資源等. al. er. 因素,使得多數機構尚未運用此技術協助執行數位典藏全文化。. n. v i n 本研究建議,機構日後若有興趣執行數位典藏全文化計畫,首先,需要制定 Ch engchi U. 經常出適合機構執行的作業流程,並且瞭解自身欲處理物件之狀況,好挑選出適 合的輸入處理模式;再者,需要多與技術廠商溝通協調,瞭解所挑選之物件是否 符合處理上的成本效益;最後,綜合典藏機構與使用者之需求考量下,建議未來 採取與 OCR 廠商合作的方式,由使用者自行挑選需要物件進行 OCR 辨識,校 對完成後將全文內容回饋給典藏機構。這樣不僅能瞭解使用者需求為何,也能降 低機構全文校對所耗費的成本。. 關鍵字:數位典藏、光學字元辨識、全文資料庫、明人文集.

(6) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(7) Abstract Digital Archives, placed in the network system for users to browse, change the collection into the digital images, and can help to preserve the collection and promote the content information. However, in the era of information explosion, Digital Archives can’t help users to retrieve the information in the collection by simply recording metadata. So, only when built into the full text retrieval can Digital Archives provide users with a quick retrieval of the information they want. And the Optical Character Recognition (OCR) can help to output the full text information.. 政 治 大. The study explores the ancient books’ format and impact of image quality on the. 立. recognition results by recognizing the ancient books of the Ming dynasty with the. ‧ 國. 學. OCR software. The study also explores institutional as well as individual views and. ‧. considerations by in-depth interviewing institutional staff with experiences in the full. sit. y. Nat. text of Digital Archives plan. From the result we can discover that though the ancient. io. al. er. books’ format and image quality do have influences on the recognition results, the. v. n. overall interview suggests that the technology has overcome the limitation of the. Ch. engchi. i n U. format under the high requirement for the image quality; that is, the quality of ancient books’ images is the most influential factor in the recognition results. Although the OCR already has the breakthrough in assisting the establishment of the full text database, most institutions have not yet applied this technology to full-textualization of the Digital Archives due to technical unfamiliar, budget, human resources and other factors. The study suggests that if some day one institution is interested in working on the the full text of the Digital Archives project, it firstly needs to develop a proper.

(8) SOP and needs to understand the conditions of their ready-to-be-textualized collections so that it can adopt a suitable input mode. Secondly, this institution needs to communicate with the OCR company more so that it can realize whether the chosen collection fits the cost-effectiveness. Finally, under the considerations of both the institution and users, the study suggests that institutions can cooperate with OCR companies in the future, so users can choose collections for OCR recognition on their own and give the full text to the institutions as feedback after proofreading. This can not only understand users’ needs but also reduce the cost of the proofreading for the institution.. 立. 政 治 大. ‧ 國. 學. Keywords: Digital Archives, Optical Character Recognition, Full-Text Database,. ‧. Anthology of Chinese Literature in Ming. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.

(9) 目 次 圖目次......................................................................................................................... III 表目次......................................................................................................................... III 第一章. 緒論............................................................................................................ 1. 第一節. 研究背景及動機........................................................................................ 1. 第二節. 研究目的及問題........................................................................................ 3. 第三節. 研究範圍及限制........................................................................................ 4. 第四節. 名詞解釋.................................................................................................... 5. 第二節. 政 治 大 古籍數位化概況分析.............................................................................. 10 立 OCR 辨識技術發展 ................................................................................ 19. 第三節. 明人文集文本特性與研究...................................................................... 32. 第四節. 古籍版面格式分析.................................................................................. 42. 第五節. 學者全文檢索需求.................................................................................. 51. 學. ‧. 研究設計與實施 ..................................................................................... 59. Nat. 第三章. y. 第一節. 文獻探討.................................................................................................... 9. ‧ 國. 第二章. 第二節. 研究方法及工具...................................................................................... 61. 第三節. 研究對象.................................................................................................. 64. 第四節. 研究步驟與流程...................................................................................... 66. 第五節. 資料整理與分析...................................................................................... 70. er. al. n. 第四章. sit. 研究架構.................................................................................................. 59. io. 第一節. Ch. engchi. i n U. v. 研究結果分析 ......................................................................................... 73. 第一節. 影像辨識結果分析.................................................................................. 73. 第二節. 辨識錯誤文字分析.................................................................................. 92. 第三節. 深度訪談分析........................................................................................ 101. 第五章. 結論與建議 ........................................................................................... 135. 第一節. 結論........................................................................................................ 135. 第二節. 建議........................................................................................................ 138. 第三節. 後續研究建議........................................................................................ 142. 參考文獻.................................................................................................................... 145 附錄一:深度訪談大綱 ........................................................................................... 155 I.

(10) 附錄二:字體部件類似 ........................................................................................... 157 附錄三:字形外觀相近 ........................................................................................... 165 附錄四:字體拆開辨識 ........................................................................................... 170 附錄五:字體筆畫差異 ........................................................................................... 171 附錄六:繁體以簡體辨識 ....................................................................................... 172 附錄七:古今異體差異 ........................................................................................... 173. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(11) 圖目次 圖 2-4-1 古籍版式種類 ........................................................................................ 44 圖 3-1-1 研究架構圖 ............................................................................................ 60 圖 3-4-1 研究流程圖 ............................................................................................ 69 圖 4-1-1 影像檢核項目個數與百分比統計圖 .................................................... 86 圖 5-2-1 數位典藏全文化作業流程圖 .............................................................. 139. 立. 政 治 大 表目次. ‧ 國. 學. 表 3-2-2 訪談問題大綱 ........................................................................................ 64. ‧. 表 3-3-1 明人文集 ................................................................................................ 65. sit. y. Nat. 表 3-3-2 訪談對象編號、相關背景與業務經驗陳述 ........................................ 66. n. al. er. io. 表 4-1-1 古籍影像版式與 OCR 辨識數據 .......................................................... 74. i n U. v. 表 4-1-1 古籍影像版式與 OCR 辨識數據(續) ................................................... 75. Ch. engchi. 表 4-1-1 古籍影像版式與 OCR 辨識數據(續) ................................................... 76 表 4-1-1 古籍影像版式與 OCR 辨識數據(續) ................................................... 77 表 4-1-2 古籍影像版式行段數數量與平均辨識率統計表 ................................ 78 表 4-1-3 古籍影像版式行字數數量統計表 ........................................................ 79 表 4-1-4 影像品質檢核評估項目 ........................................................................ 80 表 4-1-6 古籍影像影像品質數量統記表 ............................................................ 85 表 4-1-7 影像檢核項目個數與百分比統計表 .................................................... 85 表 4-1-8 各變項與辨識率獨立樣本 t 檢定結果 ................................................. 88 III.

(12) 表 4-1-9 古籍影像行段數、行字數、影像品質與辨識率相關分析 ................ 89 表 4-1-10 影像行段數、行字數、影像品質與辨識率多元迴歸分析 ................ 90 表 4-2-1 字體部件類似種類分析 ........................................................................ 93 表 4-2-2 字形外觀相近種類分析 ........................................................................ 94 表 4-2-3 字體拆開辨識種類分析 ........................................................................ 95 表 4-2-4 字體筆畫差異種類分析 ........................................................................ 97 表 4-2-5 繁體以簡體辨識種類分析 .................................................................... 98 表 4-2-6 古今異字差異辨識錯誤種類分析 ........................................................ 99. 治 政 大 .............................100 表 4-2-7 辨識錯誤字體類型次數及共百分比(N=1094) 立. 表 5-2-1 機構人員判斷輸入選擇之狀況 .......................................................... 141. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. IV. i n U. v.

(13) 第一章. 緒論. 本章針對論文研究內容概略說明。首先,針對研究背景加以說明,透過初步 的描述,說明本論文的研究動機;接著,根據研究動機的敘述,歸納出本論文的 研究目的,依照目的內容提出相應之探討問題;再者,根據論文研究內容,說明 研究實施的範圍及限制;最後,針對與本論文相關的重要名詞,進行解釋及適用 定義說明。本章分四小節,第一節介紹研究背景及動機;第二節介紹研究目的及 問題;第三節介紹研究範圍及限制;第四節針對重要名詞進行定義解釋。. 治 政 第一節 研究背景及動機 大 立. 隨著科技不斷的發展,大幅改變圖書館的使用模式。傳統館藏以實體書籍為. ‧ 國. 學. 主,礙於環境要求及空間限制等因素,無法有效妥善保存珍貴書籍。早期針對書. ‧. 籍的典藏,運用微縮技術,將原始物件以不同規格模式縮小至微縮軟片上,不僅. y. Nat. 降低館藏的空間限制,也增加了可典藏保存的數量。微縮技術需仰賴軟硬體的使. er. io. sit. 用,才能加以瀏覽內容,雖然技術有限制性,仍為一種典藏知識文化的方法(嚴 長梅、洪瀚霖,2005,頁 9-13)。隨著電腦的普及、網路的出現,針對珍貴書籍. n. al. Ch. 的典藏,開始走向數位化形式發展。. engchi. i n U. v. 依照行政院國家科學委員會承襲「數位博物館計畫」 、 「國家典藏數位化計畫」 及「國際數位圖書館合作計畫」三個子計畫的經驗,臺灣地區於民國 91 年展開 「數位典藏國家型科技計畫」。計畫實施目的,將人文與科技相互結合,針對國 家級重要文物進行典藏數位化,並建立國家的數位典藏資料庫,促進臺灣社會人 文與經濟的發展(謝瀛春,2005,頁 2)。 典藏文物種類多元,依類型分成 16 種主題,針對器物類文物,透過詮釋資 料(Metadata)的著錄,能幫助使用者進行檢索瀏覽時,獲得文物的相關資訊; 但對於書籍類文物,包含新聞報紙、檔案、善本古籍等,僅著錄詮釋資料,無法 有效幫助使用者獲得內容資訊,僅能透過資料的詮釋瞭解典藏書籍的背景資訊。 1.

(14) 改善的方法,是將書籍內容全文轉製成可供檢索的文字碼,方便使用者進行瀏覽 使用。 早期全文的輸入仰賴人工逐字繕打,但隨著科技技術發展突飛猛進,開始運 用光學字元辨識(Optical Character Recognition,以下簡稱 OCR)技術應用於圖 書館領域中。OCR 運用光學透射原理,善用光線的穿透性,將線條加以分析辨 別,辨識出文字符號(Mariner,2010) 。OCR 應用類型大致可分成辦公室自動化、 工業自動化及社會自動化等三種,技術處理項目包含申請單資料辨識、商品條碼 辨識、郵件分信辨識等,各領域運用的目的並非解決所有文字輸入問題,而是要. 政 治 大 上,將 OCR 技術結合古籍典藏,透過影像掃描辨識輸出內容全文字碼,取得供 立 善用這項技術節省人力及時間的耗費(潘朝陽,1994)。近年來應用至數位典藏. 檢索的詞彙好進行全文檢索機制的建立。. ‧ 國. 學. 目前臺灣地區建置的全文資料庫,以中央研究院史語所建置的「漢籍電子文. ‧. 獻資料庫」規模最大,收錄約 900 多種古籍集冊,早期多採逐字繕打的方式進行. y. Nat. 建置,使得全文資料庫的發展較為緩慢(中央研究院歷史語言研究所,2016)。. er. io. sit. OCR 技術的成熟,使得許多資料庫運用 OCR 辨識,協助進行全文的輸入,包括 中華電子佛典協會的「漢文電子大藏經」、香港迪志文化公司的「文淵閣四庫全. al. n. v i n 書電子版」 、北京書同文公司的「四部叢刊電子全文檢索版」等(顧力仁,2001; Ch engchi U. 陳金木,2008)。透過 OCR 辨識輸入,能節省人力及時間的耗費,雖然 OCR 辨. 識無法達到百分百精確,需事後進行人工校對,但比起逐字繕打的建置方式還來 得有效率。 目前國家圖書館(以下簡稱國圖)典藏約 13 萬餘冊的古籍,其中包含宋本、 金本、元本、明刊本等,其餘像是敦煌文獻及高麗、日本、安南的刻本及活字本 等,典藏古籍種類豐富多元。古籍版本會依朝代、印刷、版刻的不同,而有不同 的字體、版式、字型呈現(駱偉,2004;國家圖書館,2016b) 。本研究冀望透過 研究瞭解古籍版式對於 OCR 辨識的影響,挑選國圖典藏之明代文人文集,以不 同形式的古籍版式,比較影響辨識精確率的因素。除探討古籍版式對辨識影響外, 2.

(15) 挑選國內有參與古籍典藏數位化之機構人員或計畫人員進行深度訪談,探究計畫 實行時的各項考量因素,以及對於建置全文資料庫之技術使用的觀點與看法。 本研究為因應數位時代的趨勢,運用科技技術及人為觀點,試圖找出古籍全 文資料庫建置時,善用 OCR 技術進行全文輸入的最佳作業模式,以協助古籍內 容資訊的傳遞與推廣。. 第二節 研究目的及問題 壹、研究目的. 政 治 大 資料庫之建置。首先,使用準實驗研究法,實際操作 OCR 軟體進行古籍影像的 立 基於本研究之動機,研究者想瞭解如何運用 OCR 辨識技術,協助古籍全文. 辨識,分析古籍版式因素與辨識精確度的關係,實際瞭解影響 OCR 辨識率高低. ‧ 國. 學. 的因素;接著,輔以深度訪談法,瞭解典藏機構人員對於建置全文資料庫的看法;. ‧. 綜合兩種研究方法產生之資訊,分析歸納出日後典藏機構欲進行典藏全文化建置. y. sit. io. er. 幾項研究目的:. Nat. 時,可能遭遇到之問題以及解決方法。研究者希望透過本研究之實行,達成以下. 一、瞭解典藏機構建置古籍全文資料庫遭遇之問題,探討運用 OCR 辨識技術建. n. al. Ch. 置明人文集全文資料庫的可行性,並分析。. engchi. i n U. v. 二、影響明人文集 OCR 辨識精確率的因素。. 三、綜合研究結果,提出運用 OCR 辨識建置古籍全文資料庫之作業建議。. 貳、研究問題 基於本研究希望達成的目的,提出幾項本研究欲探討的問題: 一、典藏機構對於建置全文資料庫之需求考量為何? 二、典藏機構進行全文資料庫建置時可能遭遇的問題阻礙為何? 三、運用 OCR 辨識技術協助明代古籍全文資料庫建置的效率? 四、明代古籍物件版式對於 OCR 辨識精確率是否有影響? 3.

(16) 第三節 研究範圍及限制 壹、 研究範圍 研究範圍包含研究對象與研究變項: 一、 研究對象 本研究涉及的研究對象分三種,分別為:古籍文本、OCR 軟體及機構人員。 古籍的辨識,以中國明代文人文集為標的,囿於古籍取用限制及版本差異等問題, 選擇國家圖書館典藏之明代文人文集為研究對象;OCR 軟體的使用,選擇使用 ABBYY 公司所開發的最新版商務型 OCR 軟體「ABBYY FineReader 14」,作為. 政 治 大 畫之典藏機構,內部有實際參與或執行計畫經驗之機構人員,作為深度訪談的研 立 辨識測試的研究對象;機構人員的訪談,選擇參與數位典藏國家型計畫古籍子計. ‧ 國. 學. 究對象。藉由準實驗實測分析與相關機構人員深度訪談,評估進行古籍全文資料 庫建置的最佳作業流程。. ‧. 二、 研究變項. sit. y. Nat. 本研究探討 OCR 辨識對於建置全文資料庫的幫助。OCR 辨識之精確率容易. al. er. io. 受外在因素影響,將不同影響因素分成三種類型,包含掃描設備、OCR 軟體及. v. n. 辨識文本狀況(Sun、Liu、Zhang、Comfort,1992) 。本研究在相同設備使用下,. Ch. engchi. i n U. 探討相同 OCR 辨識軟體對於不同古籍版式與影像品質之精確率影響,藉此探討 比較各項因素影響 OCR 辨識的程度。文本因素包含保存狀況、解析度、影像品 質、物件版式、字體字型等不同變項問題,本研究在樣本經同樣掃描解析度下, 探討影像品質及物件版式對於 OCR 辨識精確率的影響程度,透過對不同變項之 差異瞭解,試圖找出提升辨識率的方法。. 貳、 研究限制 本研究基於語言能力、研究期限、研究工具以及研究對象等因素考量,在研 究進行時針對下列事項設定研究限制,詳細說明分述如下: 4.

(17) 一、 參考文獻 本研究之參考文獻,以語言區分,包含中文及英文兩種語言為主;以類型區 分,包含專書、期刊論文、碩博士論文、會議論文、開發手冊及網路資源為主。 二、 研究方法 本研究受時間、資源等因素限制,僅採用準實驗研究法及深度訪談法進行, 透過兩種研究方法瞭解各變項對於 OCR 辨識精確率的影響,以及機構人員對於 古籍全文資料庫建置的經驗觀點,交互擬定出最適當的全文資料庫建置流程。 運用準實驗研究法,實際使用 OCR 軟體進行不同古籍物件的辨識測試,瞭. 政 治 大 全文化計畫之機構人員,瞭解典藏機構對於全文資料庫的需求考量、執行建置計 立. 解古籍影像各變項對 OCR 辨識率的影響;運用深度訪談法,訪談參與數位典藏. 畫經驗,以及對於 OCR 技術的認知觀點。礙於使用研究方法的差異,容易受實. ‧ 國. 學. 質操作影響而產生具差異性的數據資料,為本研究的限制。. ‧. 三、 研究對象. y. Nat. 本研究之研究對象,古籍物件以國圖典藏之明代版本古籍為主;OCR 軟體. er. io. sit. 以所挑選較新穎之商務型辨識軟體為主;訪談人員以有執行數位典藏全文化經驗 之機構人員為主。綜合文獻探討,發現全文辨識精確度,深受軟體性能及古籍版. n. al. 面狀況影響。. Ch. engchi. i n U. v. 礙於研究對象的限制,針對古籍版式的差異,僅能推論該朝代古籍版式對於 辨識率的影響,針對其他不同朝代之古籍可能有不同的影響結果;針對開發軟體 的差異,僅能推論所選 OCR 軟體的辨識率影響,針對其他 OCR 軟體之辨識率 可能有不同的影響結果。. 第四節 名詞解釋 針對本研究涉及的重要詞彙,包含「數位典藏」 、 「光學字元辨識」 、 「全文資 料庫」、「明人文集」等詞彙,進行名詞解釋之介紹: 5.

(18) 壹、 數位典藏 數位典藏(Digital Archives)源自於典藏的概念,指資源以數位形式典藏的 過程。隨著時代的演變,不同於傳統的儲存載體,帶給物件典藏極大的轉變。在 數位時代中,針對物件進行數位化處理,運用拍攝、全文輸入、掃描等方式,並 加上詮釋資料(Metadata)的描述,以數位化方式儲存各種典藏物件。數位典藏 的主要目的,在於確保數位資源的可用性、持久性及整合性,期許透過數位化方 式,達到長期保存的效果,好持續供後人使用(陳和琴,2001;項潔、陳雪華、 鄭惇方,2002)。. 貳、 光學字元辨識. 立. 政 治 大. 光學字元辨識(Optical Character Recognition,簡稱 OCR)技術結合光線、. ‧ 國. 學. 模板及文本三者,運用光線透光的原理,將黑色不透光文字投影至模板上,即顯 現出能辨識的文本內容(Mariner,2010) 。辨識方法先運用數位掃描設備獲取印. ‧. 刷或手寫文本影像,將影像輸入軟體系統中以不同識別演算法辨識分析文本中的. y. Nat. sit. 文字特徵,將原為影像形式的文字內容轉製成可操作的文字編碼,並可轉入資料. n. al. er. io. 庫中供使用者查檢使用(李佩瑛、程琬如,2009)。OCR 的應用能加速資訊的. i n U. v. 流通與傳播,傳統紙質載體能透過 OCR 技術的協助,將紙本內容轉載成數位形. Ch. engchi. 式,協助文件資訊更加容易取得(Sun、Liu、Zhang、Comfort,1992)。. 參、 全文資料庫 全文資料庫(Full-text database)指以將原件所含之文字為素材,保留原件 文字內容及版面格式所建構成的資料庫。將各類形式文件,包括古籍、圖書、期 刊、報紙等轉製成數位全文,供使用者線上瀏覽及內容檢索。採用階層式的目錄 排列,將原件的章、節、段落等內文標誌(Markup)下來,提供全文使用的檢 索點,並保留與內容相應的頁碼及行次,提供使用者核對文件時有個參考的依據 (謝清俊、林晰,1997)。 6.

(19) 肆、 明人文集 明人文集(Anthology of Chinese Literature in Ming)指集結了明代文人著作 的集冊,包含了集部中的別集及總集,別集指彙集單一作者各式體裁著作的集冊; 總集指彙集眾多作者著作的集冊(陳寶良,2004)。文集因社會文化因素影響, 造成集冊的數量龐大,加上作者群分散於不同社會階層中,使得文集內容呈現上 具多樣性,涵蓋了明代政治、文學、思想、社會等多元資訊(張璉,2004)。由 於收錄體裁豐富,加上集冊數量具優勢性,使得文集可以協助進行正史的校正, 是鑽研明代歷史的重要文獻史料(陳梧桐,2004)。. 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 7. i n U. v.

(20) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 8. i n U. v.

(21) 第二章. 文獻探討. 本研究基於古籍數位典藏的背景下,探討全文資料庫的建置,對於古籍典藏 利 用 的 幫 助 。 全 文 資 料 庫 的 建 置 , 運 用 光 學 字 元 辨 識 ( Optical Character Recognition,簡稱 OCR)技術,能協助古籍全文的輸入。藉由 OCR 軟體對古籍 辨識的精確度,及典藏機構人員考量機構及學者使用全文需求等,兩種因素影響 下,找出全文資料庫建置的最佳策略模式,方便規劃古籍的數位典藏計畫。 其中,OCR 辨識古籍的精確率會影響計畫的執行模式,全文資料庫的輸入 可分成人工逐字繕打及 OCR 辨識兩種(顧力仁,2001) 。依建置方法區分三種模. 政 治 大. 式:完全逐字繕打、現有全文結合 OCR 辨識及完全 OCR 辨識,三種不同建置. 立. 模式的執行,對全文資料庫建置的效率有不同程度的影響。因此,瞭解影響 OCR. ‧ 國. 學. 辨識的因素,是本研究探討的第一項目。. 機構基於學者對典藏的研究需求,將館藏古籍進行數位化典藏,並建置資料. ‧. 庫開放檢索瀏覽。數位化古籍的挑選,除了針對古籍的珍貴程度外,學者的使用. y. Nat. sit. 性也是考量的要點(林妙樺,2004;吳璧雍、許媛婷,2006)。綜合各種考量因. n. al. er. io. 素,優先挑選古籍進行數位化,或進一步執行古籍數位化計畫。因此,瞭解機構. i n U. v. 全文資料庫建置考量的因素,是本研究探討的第二項目。. Ch. engchi. 本章節根據研究目的,歸納相關文獻主題,作為研究進行的參考基礎。依不 同主題分節進行介紹:第一節,介紹古籍數位化情形,瞭解全文資料庫的建置發 展;第二節,介紹 OCR 技術,瞭解 OCR 辨識流程、影響辨識率的因素及不同 領域的應用發展,試圖找出提升辨識率的方法,能加以應用至古籍全文辨識上; 第三節,介紹明人文集,瞭解文集的內容資訊、史學研究的價值,分析人文學者 使用文集的需求;第四節,介紹古籍版面形式,瞭解明代不同階段的書籍版式, 分析可能影響 OCR 辨識率的版面因素;第五節,介紹學者的全文檢索使用需求, 瞭解數位資源帶來的研究優勢,及資源形式對於學者研究的改變,說明學者對數 位資源的疑慮及期待。 9.

(22) 綜合五種主題文獻,瞭解全文資料庫的發展、OCR 辨識對古籍典藏的幫助、 明人文集內容資訊與研究價值、古籍的版面格式及學者對數位資源的疑慮與期待。 下列針對各主題文獻,進行分節說明及探討。. 第一節 古籍數位化概況分析 隨著科技的發展,學者對文獻的接觸使用也跟著改變,學者接觸的文獻形式, 由傳統的紙本模式轉變成電子模式。文獻的檢索,也由使用工具書或書後索引, 轉變成使用資料庫進行查找搜尋(陳金木,2008)。古籍的數位典藏,指透過影. 政 治 大 古籍數位化,不僅能將人類知識的結晶,以適當的方式保存下來,除達到保存古 立 像掃描的技術,將古籍原件轉製成數位影像,儲存至資料庫中供民眾瀏覽使用。. 籍的目的,也能善用網路的無邊界,將資源透過推廣分享給更多的使用者(陳秀. ‧ 國. 學. 慧,2000)。. ‧. 將古籍進行數位化,有助於人類文化的傳承,除了能妥善保存古籍外,也能. y. Nat. 展現出古籍的現代新樣貌。整體來看,數位形式具有幾項優越性(謝清俊、林晰,. er. io. sit. 1997) :一、可供無限複製,是取之不盡、用之不竭的資源;二、網路無遠弗屆 的特性,造成使用上無空間的限制,何處都能連結網路進行瀏覽使用;三、數位. al. n. v i n 化古籍能彙整各種版本,方便進行比對研究,激起過往未見的問題觀點,產生新 Ch engchi U 的研究思維。. 古籍數位化的目的包含四種面向:典藏、流通、研究及教學。前兩者以保存 古籍及宣傳文獻為目的,喚起學者對古籍研究的需求;後兩者是對古籍的探究, 數位化能方便學者研究使用,進一步達到研究及教學的目的(羅鳳珠,2004)。 德國巴伐利亞圖書館運用數位技術,將木刻書進行數位化處理,不僅能延長古書 的使用,也能呈現古書的不同樣貌。計畫目標除進行數位化外,也著錄詮釋資料, 放置於線上館藏目錄中,不僅能保存古書,將影像資源編列成機構出版品,能達 到推廣古書的效果,善用網路無國界性質,將數位資源加以整合,能方便學者進 行研究交流(Wagner、Brantl、Meinlschmidt,2012)。 10.

(23) 本節介紹古籍的數位化發展,首先,從臺灣地區古籍數位典藏機構,及計畫 發展歷程介紹,瞭解古籍典藏發展狀況;接著,延伸古籍資料庫的建立,說明古 籍全文資料庫的建置;最後,分析科技技術對於古籍典藏及全文資料庫建置的衝 擊與影響。. 壹、 古籍數位典藏發展 臺灣於民國 91 年成立數位典藏國家型科技計畫,承襲了行政院「數位博物 館計畫」 、 「國家典藏數位化計畫」及「國際數位圖書館合作計畫」三個子計畫的 經驗,將典藏文物依類型區分不同的典藏主題。透過拍攝及掃描等方式,針對文. 政 治 大. 物進行數位化,除了能達到保存維護的效果,也能方便開放瀏覽使用。針對古籍. 立. 文物典藏範圍,包含宋代至清代的善本圖籍、詩文集、曲本、敦煌文獻、佛經及. ‧ 國. 學. 舊藏書等。參與的典藏機構包括:中央研究院史語所傅斯年圖書館、故宮博物院 圖書文獻處及國家圖書館特藏組(謝瀛春,2005,頁 36-37) 。以下針對參與數位. ‧. 化典藏的單位機構進行介紹:. y. Nat. sit. 一、 中央研究院史語所傅斯年圖書館. n. al. er. io. 傅斯年圖書館典藏包括善本古籍、類善本書、民俗文學及線裝書,主要為清. i n U. v. 代及民初的刊本,以史部及集部占多數。針對典藏特色及研究主題,擬定數位化. Ch. engchi. 清單,除配合研究課題,進行相關古籍數位化外,也將部份特定素材如印記等, 結合典藏文物建置成主題資料庫(吳政上,2004)。 傅斯年圖書館的數位化流程,分成五個程序及三個環節。五程序分別為:一、 確立數位化清單;二、實體典藏的管理整理;三、實體典藏的數位化;四、虛擬 典藏的檢索應用;五、依檢索應用調整數位化流程。首先,依館藏特色、使用需 求及紙質狀況,進行古籍數位化清單的挑選;接著,整理清單古籍書目,進行數 位化掃描轉製,轉製方法包含儀器掃描及相機拍攝;最後,將數位影像結合詮釋 資料建置影像資料庫,提供查閱檢索使用(林妙樺,2004)。 三個環節分別為典藏管理、實體典藏數位化及典藏檢索應用,典藏管理部份, 11.

(24) 對外有公用目錄系統,提供讀者檢索查詢館藏使用,對內有書庫管理系統,負責 記錄古籍整理及修復過程,方便古籍館藏的管理;實體典藏數位化部份,分別建 立掃描及拍攝校驗系統,負責數位影像的規格及成品檢驗;典藏檢索應用部份, 建立各種資料庫,包括全文影像、全文內容、附圖影像、印記等不同類型,透過 使用介面需求設定,協助數位古籍的檢索加值(林妙樺,2004)。 二、 故宮博物院圖書文獻處 故宮典藏的文物以清宮舊藏為主,可分成器物、書畫及圖書文獻三種類型, 於民國 91 年參與數位典藏國家行計畫,試圖運用科技儲存及複製的技術,達到. 政 治 大 及家譜,前兩者為實體文物,後者為微縮膠片。古籍獲得除清宮舊藏外,也接收 立. 文物的保存及研究利用的目的。以圖書文獻為例,主要分成古籍善本、清宮檔案. 原北平圖書館的館藏古籍,古籍種類遍佈四部,涵蓋年代範圍廣泛,不僅能考證. ‧ 國. 學. 歷代古籍流傳情形,也可作為版本的校勘依據(楊美莉、劉芳如、劉錚雲,2004;. ‧. 吳璧雍、許媛婷,2006)。. y. Nat. 數位化流程分前置作業及古籍掃描。前置作業階段,進行數位化清單的編列,. er. io. sit. 按古籍的稀有性及館藏獨特性,判斷數位化的順序,並進行詮釋資料的建檔,以 供數位影像的描述;古籍掃描階段,進行掃描儀器的檢查,避免因設備問題而影. al. n. v i n 響掃描影像的呈現。故宮的「善本古籍資料庫」採「部」—「冊」—「圖」三層 Ch engchi U 連結架構。最上層先建置「部」層,下層連結古籍各冊細目,方便依不同使用需. 求進行搜尋檢索,「冊」層下設有「圖」層,提供數位影像掃描放置,透過資料 庫將數位影像及詮釋資料相互連結(吳璧雍、許媛婷,2006;國立故宮博物院, 2016)。 透過數位化技術,使用者可直接在家透過網路數位影像,進行文物的閱覽, 不需親至故宮。透過線上查閱檢索的功能,既可獲得大量研究資源,又不必擔心 交通不便或是損害古籍等問題。. 12.

(25) 三、 國家圖書館特藏組 國家圖書館購藏大量古籍,具有保存文化及切近實用等雙重價值,珍藏古籍 數量龐大,為世界漢學研究的國際重鎮。透過善本古籍典藏數位化計畫的推動, 將書目資料、影像資料及全文資料三者結合,建立「古籍影像檢索系統」,創造 善用古籍的環境,協助學者進行考證研究。透過與海內外典藏機構的合作,共同 建構古籍文獻資料庫,整合現存古籍資料並發揚漢學研究(顧力仁,2004;國家 圖書館,2016c)。 古籍書目的詮釋有兩部份,分別為書目格式及書目品質,以都柏林核心集. 政 治 大 輸入、相機拍攝及底片掃描,掃描器有快速處理的優點,但有接觸古籍及掃描限 立. (Dublin Core)為依據訂定欄位,分別著錄書目資料。古籍的影像產出分掃描器. 制的缺點;相機拍攝能避免接觸古籍,但容易受環境影響且花費成本較高;底片. ‧ 國. 學. 掃描能在不接觸古籍下取得影像,但影像色彩解析度不易調整。全文的輸入建置. ‧. 運用逐字編打的方式,將含有題跋的古籍輸入至資料庫中。三者資料的結合,造. y. Nat. 就善用古籍研究的使用平臺(顧力仁,2004)。. er. io. sit. 典藏機構合作以與美國國會圖書館交流為例,國會圖書館珍藏明清時期豐富 的古籍史料,是研究政治、社會、經濟等歷史的重要文獻,單從古籍數量來看,. al. n. v i n 是全世界除中國及日本外,珍藏中國古籍最為豐富的國家。透過機構間的合作發 Ch engchi U 展,共同進行古籍數位化的流程作業,能將不同機構的特色珍藏以數位形式相互. 共享,達到增進數位資源多樣性的目標(張圍東,2009)。 古籍的數位化,除了能保存文物,也能善用網路的便利性,進行典藏資源的 推廣,達到保存及加值的效果。雖然數位化提供原件替代的使用,具有保存原件 及推廣古籍的功能,但數位化的後續,不僅要面對儲存媒體的更新、資料移轉及 軟體變更等問題,考驗著各典藏機構的應變措施。透過資料庫的建置,將各類主 題資源相互整合,提供專門平臺供學者研究使用。可惜,科技的進步永遠無法滿 足人的需求,透過書目資料的檢索,僅能查找古籍外在的資訊,內在的內容資訊 則無法獲得,為解決這問題,將古籍全文內容輸入至資料庫中,建立可供檢索的 13.

(26) 詞彙,透過資料庫的檢索能瞭解所需資訊的位置,下段針對古籍全文資料庫的類 型進行分述說明。. 貳、 古籍全文資料庫介紹 全文資料庫是以原件所含的文字內容為素材,以保存文字版面的方式,建置 而成的資料庫,將各種形式的文件,包含古籍、書籍、期刊、報紙等,建置成全 文資料庫供使用者檢索使用。藉由階層目錄的排列,將文件的章、節、段落、內 文等內容標誌(Markup) ,並保留文件的頁碼及行次,供使用者核對原件時能有 參考的依據(謝清俊、林晰,1997)。. 政 治 大. 全文資料庫的內容輸入,分成人工繕打及 OCR 辨識兩種,透過這兩種方式. 立. 將內容轉製成文字碼。以兩種輸入方式,區分全文資料庫的建置。人工逐字繕打. ‧ 國. 學. 輸入的,以早期中央研究院的「漢籍電子文獻資料庫」為主;OCR 辨識方式輸 入的,包含中華電子佛典協會的「漢文電子大藏經」、香港迪志文化出版有限公. ‧. 司的「文淵閣四庫全書電子版」及北京書同文公司的「四部叢刊電子全文檢索版」. y. Nat. sit. 為主(顧力仁,2001;陳金木,2008)。按輸入模式的差異,又可分成完全逐字. n. al. er. io. 輸入、現有全文內容結合 OCR 辨識及完全 OCR 辨識三種模式。. i n U. v. 以下以不同的輸入模式,區分四種不同全文資料庫的建置方式,並針對全文 資料庫進行分述說明:. Ch. engchi. 一、 漢籍電子文獻資料庫 中央研究院史語所於民國 73 年籌辦史籍自動化計畫,首先,與中研院資訊 所及計算中心合作〈食貨志〉全文資料庫的開發,接著推動二十五資料庫及漢籍 全文資料庫的建置,提供全文查詢方式進行檢索,目標收錄對人文研究有重要價 值的古籍。目前資料庫內容包括經、史、子、集四部,以史部數量占多數,主要 收錄二十五史、十三經等,共收錄 900 多種歷代古籍、6 億 3,900 多萬字,幾乎 涵蓋所有重要古籍經典,為目前最具規模的全文資料庫之一(吳政上,2004;中 央研究院,2016)。 14.

(27) 「漢籍電子文獻資料庫」的建置流程分成四個步驟:輸入、校對、標誌及資 料庫測驗。採人工逐字輸入的方式,要求不同工作人員各自輸入一份文稿,並運 用電腦標出兩者相異處;校對時,針對相異處進行比對,減少逐字校對耗費的時 間,並記錄無法顯現文字建立缺字表;校對完成後,針對內容結構分層標誌不同 特殊符號,除標誌篇、章、節、段落等內容結構外,頁碼、行次部份也要另外加 註;步驟完成後,將完成全文內容放入資料庫進行檢索測驗,並依據使用者提出 的問題進行資料庫修正(謝清俊、林晰,1997)。 雖然「漢籍電子文獻資料庫」為最具規模的全文資料庫之一,但隨著不同全. 政 治 大 清俊,2004) 。技術的成熟,除了加強古籍全文數位化類別、提升全文資料品質、 立. 文資料庫的建置,提供更完善的檢索功能,造成資料庫逐漸失去領導的地位(謝. 改善系統檢索能力、解決缺字問題外,也要有效且進一步增進資料庫功能(吳政. ‧ 國. 學. 上,2004)。採用逐字輸入的方式建立全文資料,需要耗費大量的時間及人力來. ‧. 完成,雖然資料庫發展至今經歷三十多年,古籍全文化的數量仍只占現存數量的. y. Nat. 小部份。近年來隨著科技技術的發達,也慢慢地開始透過 OCR 辨識協助進行古. er. io. sit. 籍全文的輸入,日後如何善用這項技術輔助大規模全文內容的建立,仍是未來資 料庫發展所需要克服的問題。. n. al. 二、 漢文電子大藏經. Ch. engchi. i n U. v. 「漢文電子大藏經」為中華電子佛典協會建置的佛典全文資料庫,起初構想 由網路佛典版版友發起,草擬了電子版大藏經輸入計畫,而開始有計畫的推動。 後由網友提供 25 冊《大正藏》電子稿,授權臺大佛學研究中心進行處理,隨著 專案小組的成立,正式著手大規模的藏經電子化作業。版本的使用選擇日本「大 藏出版株氏會社」授權的《大正新脩大藏經》,作為數位化計畫的底本,並完成 第一冊至第五十五冊、第八十五冊的佛經數位全文化作業(中華電子佛典協會, 2016)。 「漢文電子大藏經」的建置流程分成五個步驟:掃描、輸入、校對、標記及 XML 標記。以掃描儀器將原影印本掃成高解析影像,提供 OCR 辨識及看圖校對 15.

(28) 時使用;輸入方法有三種:蒐集現有電子檔、OCR 辨識及人工輸入。事先蒐集 已有的文字檔,沒有文字檔的部份則以 OCR 辨識產出,兩著皆不適合的情形下, 才採用人工輸入的方式;校對包括「加行首資訊」 、 「網路人工校對」 、 「檔案比對」、 「看圖校對」及「常錯字檢查」,透過不同方式進行純文字加註、校對及列常錯 字辭表;將完成校對的文字,依照不同段落加註適當標記符號,對於無法以中文 系統顯示的字型,以大五碼(BIG5)及組字方式輔助造字,最後轉製成 XML 標 記,即完成所有數位化步驟(中華電子佛典協會,2005)。 相比「漢籍全文資料庫」的建置流程,除了輸入方式略微不同,其他步驟大. 政 治 大 相互支援輔助,透過與丹青公司合作,開發專門為協會辨識佛典的 OCR 軟體, 立 同小異。針對輸入方式的差異,「漢文電子大藏經」採用三種不同的輸入方式,. 進行文字辨識輸入,能縮短人工輸入所耗費的時間,呈現出不同的全文資料庫建. ‧ 國. 學. 置模式。. ‧. 三、 文淵閣四庫全書電子版. y. Nat. 香港迪志文化出版有限公司於 1998 年推出「文淵閣四庫全書電子版」,《四. er. io. sit. 庫全書》為清代乾隆年間官修的圖書總匯,彙整先秦至清代前期這段時間的經典, 總收錄 3,400 多種,共 3 萬 6 千多冊的古籍。針對儒家學說、歷史、人文、科技. al. n. v i n 等相關典籍進行收錄,為代表中華傳統文化極具價值的全集(迪志文化出版有限 Ch engchi U 公司,2006)。. 《四庫全書》共抄錄七部,分別為文淵閣、文源閣、文溯閣、文津閣、文匯 閣、文宗閣以及文瀾閣,經戰亂大多版本已遺失或損毀,現僅存文淵閣、文津閣、 文溯閣三部及少部文瀾閣的殘本。「文淵閣四庫全書電子版」採用《景印文淵閣 四庫全書》為底本,整部全書總字數逾七億,僅靠人工逐字輸入是不可能的。該 公司先以掃描方式將整部書掃描成數位影像,並運用 OCR 辨識將數位影像轉製 成文字檔,整個資料庫又可分為原文影像資料庫、卷內標題資料庫及中文全文資 料庫(迪志文化出版有限公司,2006)。 原文影像資料庫,收錄經掃描而成的原文影像,掃描作業運用高速掃描器, 16.

(29) 將原書進行數位掃描,並針對完成影像進行詳細的檢查,確保每頁原文影像的品 質;卷內標題資料庫,類似古籍的書目資料,古籍由於缺乏目錄索引,使用者在 進行查找時沒有辨識的依據。將《四庫全書》內抽取各卷內標題,充當查找的索 引,提供使用者進行搜尋檢索;中文全文資料庫,由於整部《四庫全書》由眾多 人士共同抄寫完成,字跡的雜亂使得無法以一般 OCR 軟體進行辨識,因此,與 北京清華大學共同開發 OCR 軟體,協助進行全書的內容辨識(迪志文化出版有 限公司,2006)。 與「漢籍電子文獻資料庫」及「漢文電子大藏經」的建置模式不同,由於《四. 政 治 大 不適合與以上兩者一樣,採用相同的輸入模式進行建置。採用特別辨識古籍的 立. 庫全書》集合了眾多的抄寫人員共同完成,礙於字跡的差異及全書內容的數量,. OCR 軟體,進行全書內容辨識,並輔以人工校對,建置《四庫全書》全文資料. ‧ 國. 學. 庫,供學者檢索內容使用。. ‧. 四、 四庫叢刊電子全文檢索版. y. Nat. 由北京書同文公司開發的《四部叢刊電子全文檢索版》,採用上海商務印書. er. io. sit. 館的《四部叢刊》,作為資料庫的底本。由張元濟先生彙整多冊經典古籍編纂而 成,收錄古籍以上海涵芬樓所藏宋、元刻本、明清精刻本、抄本、校本及手稿本. al. n. v i n 為主。全書收錄的經典古籍深具研究價值,深受史學家的推崇 (宋建成,2004)。 Ch engchi U 《四部叢刊》分為初編、續編及三編,每編皆包含經、史、子、集四部。全. 書共收錄 500 多種、3,100 多冊的古籍,總字數為 9 千多萬字,由於《四部叢刊》 包含 500 多種古籍,每種古籍的字體、版式皆不盡相同,運用 OCR 辨識及輔助 校對軟體等技術,仍舊是種負擔。加上古體字使用的頻繁,為考慮到這點,北京 書同文公司同時採用 Unicode、XML、SD/SB(Single Data/Single Binary)、CJK+ 等技術,協助進行古體字的顯示,避免使用者進行研究時,遇到缺漏字的情況發 生(北京書同文電腦技術開發有限責任公司,2016)。 綜合來看, 《四部叢刊電子全文檢索版》保有古籍的全文內容,透過 OCR 辨 識達成文字數位化的效果,好提供全書內容檢索的功能。資料庫的檢索模式,包 17.

(30) 含書名、著者、全文內容及分類檢索等模式,並另外提供關鍵字檢索、摘要筆記、 西元紀年轉換、繁簡體轉換及對照等加值功能,提供完整的研究檢索平臺(陳木 金,2008)。 與「文淵閣四庫全書電子版」建置模式相同,採用完全 OCR 辨識的方式, 進行古籍文字的輸入。相較於「漢籍電子文獻資料庫」,輸入模式的差異,影響 全文資料庫的建置效率,對比人工輸入的方式,OCR 辨識更能快速輸入古籍全 文,省下的時間與人力,可以轉而開發資料庫的其他功能。兩者對比,「漢籍電 子文獻資料庫」的建置發展時間較長,功能性卻略微不足,可反映出兩者建置模 式的差異。. 立. 政 治 大. 參、 古籍全文資料庫分析. ‧ 國. 學. 將古籍典藏進行全文資料庫的建置,具有以下幾項優點:一、節省內容查找 時間,一般數位典藏僅針對古籍進行掃描,以數位影像的方式呈現古籍典藏,雖. ‧. 可藉由詮釋資料的著錄進行檢索,卻無法進行古籍內容的檢索,全文資料庫能協. y. Nat. sit. 助檢索古籍內容文字;二、加速知識流通,全文內容能節省抄錄或編打的時間,. n. al. er. io. 加速知識的傳播性;三、保存古籍原件,古籍全文檢索的功能,能快速並直接獲. i n U. v. 得所需的內容資訊,不必透過翻閱古籍來查找內容,能降低對古籍的耗損並延長. Ch. 使用保存年限(廖益賢,2012)。. engchi. 綜合三種建置模式比較,採完全逐字輸入的方式,除了會耗費大量人力成本 外,編打速度的緩慢,也會造成全文資料庫發展的延遲;採半逐字半 OCR 辨識 的方式,藉由搜尋現有的全文碼,搭配 OCR 軟體的辨識,能降低 OCR 辨識率 不佳的隱憂,但缺點在於全文碼不一定有;採完全 OCR 辨識的方式,能解省大 量的人力成本,並能快速地將古籍文字轉製成文字檔,能加速全文資料庫的發展, 但缺點在於古籍字體不同現在印刷字體,需要使用專門 OCR 辨識,才能維持整 體的辨識率。 OCR 技術尚未成熟時,全文資料庫的建置是非常費時的,隨著 OCR 技術的 18.

(31) 成熟,可將此技術應用至各種文字辨識上,包含各種文字載體的全文資料庫建置。 綜合來看,將 OCR 技術應用至古籍全文資料庫建置上,有幾項優點:一、縮短 建置時間,OCR 辨識能快速將影像檔轉製成文字檔,比起逐字編打的方式更有 效率;二、降低建置成本,雖然 OCR 軟體的開發使用需大量成本,但持續辨識 使用下,能節省比開發成本還多的人力成本;三、帶動全文資料庫的興起,OCR 辨識使得全文資料庫的建置更為容易,能帶動各種古籍資料庫的建置,有利於古 籍研究的發展。 雖然全文資料庫帶來許多便利性,但研究模式的改變,仍產生許多問題。全. 政 治 大 應儘量挑選較佳的版本進行全文化,降低錯誤的產生率;二、資料庫的操作,科 立. 文資料庫的使用問題包含:一、版本的選擇,古籍版本的選擇,影響研究的結果,. 技的進步,使得資訊素養的能力需有所改變,學者在使用全文資料庫時,除了對. ‧ 國. 學. 操作介面需有所瞭解外,也應具備充足的知識,利於檢索所需內容;三、論文格. ‧. 式的引用,使用數位資源進行研究,是現今必然的趨勢,引用時應按標準格式進. y. Nat. 行引用,需註明原文出處、檢索資料庫來源等資訊(陳金木,2008)。. er. io. sit. 因此,針對全文資料庫的使用,使用者本身除了要增強自身能力外,也要秉 持學術研究的精神,才能順應技術所帶來的研究轉變。下節針對 OCR 技術發展. al. n. v i n 進行說明,瞭解 OCR 辨識的流程步驟、影響 OCR 辨識率的因素及 OCR 的應用 Ch engchi U 發展。. 第二節 OCR 辨識技術發展 數位時代的來臨,改變了使用者的查找習慣,以往熟悉的資源形式,從紙本 模式轉變為電子模式。資源形式的改變,影響使用者在習慣上,逐漸偏好使用電 子資源。至古以來,有許多重要資源,是以紙本模式存在,電子模式的偏好,會 降低這些資源的使用性。數位資訊爆炸的時代,電子資源由於數量過於龐大,降 低了紙本資源的接觸及使用。為了增加紙本資源的使用性,轉製成數位形式,是 增加紙本資訊流通的必要手段(Balk、Ploeger,2009)。 19.

(32) 紙本內容包含圖像及文字,數位化作業對圖像及文字的處理方式不大相同。 圖像僅需高解析影像呈現,即能提供觀覽使用;文字則不同,僅以高解析影像呈 現,無法發揮文字的內容價值。為了解決這項問題,並且有效提升紙本使用性, 應針對紙本典藏,建置成可供檢索的全文模式。如何進行建置,需藉由 OCR 的 輔助辨識,協助建置全文資料庫內容(Zhou,2010)。 OCR 辨識率的提升有利使用者檢索到需要的資訊,全文資料庫的建置,能 提供更多可供檢索的詞彙,自然而然吸引更多使用者的使用(潘朝陽,1994)。 使用 OCR 辨識,除能協助建置全文資料庫,提升紙本內容使用性,OCR 辨識的. 政 治 大 辨識率對資訊檢索的影響,建立「中文 OCR 文件檢索測驗集」 ,測驗集包含三部 立. 精確度,也直接影響檢索資源的正確性。蔡孟竹與曾元顯(2003)為瞭解 OCR. 份:文件組、查詢主題及判斷結果。其中,文件組包含文件影像、OCR 文件及. ‧ 國. 學. 「部份乾淨文件」三種,部份乾淨文件包含部份逐字輸入的 OCR 文件,為比對. ‧. OCR 文件的對照組。研究發現,OCR 辨識精確度與資訊檢索的正確度成正相關。. y. Nat. 雖然辨識率的提升是每個 OCR 軟體所追求的,但辨識率不可能達到百分百. er. io. sit. 的精準。使用 OCR 辨識的目的,並非為了完全解決所有文字輸入的問題,而是 為了節省逐字輸入所耗費的時間與人力。雖然如此,但 OCR 辨識仍需達一定水. al. n. v i n 準,在辨識率過低的情況下,對於全文資料庫的建置是沒有幫助的 (潘朝陽,1994)。 Ch engchi U. 本節針對 OCR 的介紹,分成三個部份:OCR 歷史、OCR 作業流程及 OCR 發展 應用。藉由介紹 OCR 瞭解應用至古籍全文資料庫建置上可能面臨的問題影響。. 壹、OCR 辨識發展歷史 最早的 OCR 概念,出現於 1929 年,由德國科學家 Tausheck 提出。運用光 線、文件及模板的組合,將文件放置於光線及模板之間,試圖操控光線來投射影 像至模板上。由於光線具穿透性,會穿透文件空白部份而遭黑色部份阻擋,使得 投射的結果,顯示為遭阻擋的黑色部份,也就是文件中的字體部份,為 OCR 技 術的開端(Mori、Suen、Yamamoto,1992)。 20.

(33) 最早的 OCR 辨識手法,運用模板匹配法(Template-Matching Methods) ,透 過辨識出的模板,與系統內部儲存的模板相互比對,來辨識出文字。此方法需考 量文字線條的位置,若遇手寫或草寫字體時,則較難辨識出文字。為了改善這缺 點,運用新的辨識方法—結構分析法(Structure Analysis Method),透過分析文 字的結構特徵,將特徵儲存至系統內部,透過系統特徵的比對,協助辨識出文字。 雖能用於不同字體的辨識,但有佔據儲存空間的缺點,當遇到未儲存的結構特徵 時,則無法辨識出文字(Mori、Suen、Yamamoto,1992)。 隨著資訊量的增長,模板匹配法及結構分析法漸漸無法負荷人們辨識的需求,. 政 治 大 字。因技術的成熟與突破,OCR 辨識開始進行不同語言的辨識開發。1950 年代, 立. 也因此,開始利用各種演算法,計算各種字體的變化,好協助歸類不同變化的文. 歐美各國從事文字辨識的研究,剛開始僅限簡單的英文及數字辨識;1950 年代. ‧ 國. 學. 中期,日本加入文字辨識的研究,將辨識的語言擴大至日文及漢字的範圍;1960. ‧. 年代,IBM 公司的 Casey 與 Nagy 開發出辨識相似文字的技術,運用不同文字具. y. Nat. 不同形膜的特性,辨識出 1,000 種印刷中文字體。伴隨著科技技術的發展,辨識. er. io. sit. 的方法也越來越多元,各種具複雜結構的語言,也開始進行辨識軟體的開發研究 (Casey、Nagy,1966;Mori、Suen、Yamamoto,1992;潘朝陽,1994)。. al. n. v i n 不同語言的辨識軟體,依語言的複雜程度,有不同程度的技術要求。綜合東 Ch engchi U. 西方文字的辨識比較,西方文字在辨識上具較高的精確度,東方文字則恰巧相反。 原因在於,西方文字的符號結構較簡單,且字母符號種類較少,使得變化上也較 簡單,相較之下,東方文字的符號結構則複雜許多。以阿拉伯文為例,由於文字 形式複雜,使得辨識技術發展較緩慢,雖僅 28 個字母,但由於文字本身草書及 連字的特性,再加上字母放置位置的不同,具有不同形式的呈現,使得阿拉伯文 的辨識開發較困難(AI-A’ali、Ahmad,2007;Mariner,2010)。 以中文為例,OCR 辨識中文比辨識其它文字還困難,原因在於中文具以下 幾種特點:一、中文數量過於龐大,整體文字包括繁體、簡體及特殊異體字。共 有 2 萬多種文字,辨識區分的難度較高;二、印刷字體種類多元,包括新細明體、 21.

(34) 標楷體、隸書體等,還尚未包括手寫字體;三、中文具筆畫多的特色,筆畫的複 雜影響辨識的進行;四、中文具有許多相似字,容易造成混淆,無法以外觀辨識 出文字差異。以上幾種特性,均影響中文 OCR 辨識的發展,使得中文辯識的精 確度無法與西方文字有所抗衡(潘朝陽,1994;曾逸鴻,林裕淵,2007)。. 貳、 OCR 辨識作業流程 OCR 的主要功能,分別為偵測、辨識及輸出,透過文件空白部份來偵測文 字及行距,需使用高解析影像輔助偵測;透過辨識文字線條及空白區塊的特徵, 對比儲存於詞彙庫的特徵,辨識出相似文字;並將辨識的文字,以人所能理解的. 政 治 大. 文字碼形式呈現(Mariner,2010)。. 立. OCR 辨識的步驟分成:一、掃描影像(Scanning Image),將文件影像放入. ‧ 國. 學. 儀器中進行掃描;二、文字前處理(Pre-processing),將影像進行事前調整,方 便後續步驟能順利進行;三、特徵抽取(Feature Extraction) ,透過分析文字線條. ‧. 的連續性,抽取文字的不同特徵;四、比對辨識(Matching),進行文字特徵的. y. Nat. sit. 比對,協助辨識不同文字;五、字辭後處理(Post-processing) ,經由特徵比對辨. n. al. er. io. 識出的文字,需經過後處理步驟的偵測與辨識,對照字辭資料庫內容,將可能辨. i n U. v. 識錯誤的文字,校正成較為通順的詞彙(潘朝陽,1994)。. Ch. engchi. 最後,系統會將辨識的結果,以文字碼的形式輸出。目前尚未有任何一家 OCR 軟體能做到百分百的辨識精確,因此最後需進行人工校對,來確保輸出文 字的正確性。提升精確度是 OCR 軟體的目標,每個流程步驟,皆會影響辨識的 準確性,若單一環節步驟沒處理好,連帶會影響後面的環節步驟,最終造成辨識 精確度不佳的結果。以下針對 OCR 各個流程步驟分述說明: 一、 掃描影像 將要辨識的文件,放置至儀器中進行影像掃描,容易因儀器本身、文件狀況、 環境影響或人為操作等因素,使得掃描的影像具有瑕疵。儀器方面,容易因設備 老舊的因素,造成影像雜訊的產生;文件方面,容易因本身的保存狀況,造成影 22.

(35) 像缺漏等情形;環境方面,容易因光線不均,導致整體影像的感光有異;人為方 面,容易因掃描進行時,不小心接觸到文件,造成掃描影像歪斜不正。眾多的因 素,皆影響掃描影像的品質,需以謹慎的心來執行流程步驟,將因素的發生率降 到最低。 二、 文字前處理 文字前處理的流程非常重要,直接影響下個階段流程的順暢性。一般掃描文 件多少有瑕疵,影響 OCR 辨識處理的進行,需進行文字前處理。前處理的作業 種類,包括雜訊去除(Noise Reduction) 、灰化影像(Grayscale Image)及傾斜校. 政 治 大 雜訊經常出現於掃描影像中,會干擾辨識的成效,印刷品質的劣質或掃描儀 立. 正(Deskew)等。. 器的髒亂,皆造成雜訊的產生,降低文字辨識的結果。Badoiu 等人(2016)藉. ‧ 國. 學. 由兩種不同演算法,協助進行雜訊去除的作業。第一種,運用段落高度定位,將. ‧. 不在高度範圍內,視為雜訊去除;第二種,運用辨識文字邊緣的方法,將沒辨識. y. Nat. 的部份視為雜訊去除。藉由不同的演算方法,進行雜訊去除的作業,增加文件對. er. io. sit. OCR 辨識的可讀性。. 灰化影像對於古籍的辨識具有幫助,原因在於,年代久遠的紙質多少會產生. al. n. v i n 斑點污漬,若直接掃描成黑白影像,則斑點污漬會成為阻礙辨識的雜訊(Zhou, Ch engchi U. 2010) 。Holly(2009)測試提升精確度的方法,將灰階及黑白影像加以辨識比對, 發現灰階影像的辨識率高於黑白影像,但提升幅度不明顯。Patel 等人(2012) 利用 OCR 軟體進行辨識車牌的實驗,透過辨識比較精確度差異,結果發現,灰 階影像比彩色影像的辨識率還高,證明灰階影像能提升 OCR 的辨識率。Powell 與 Paynter(2009)推測灰化影像雖能提升辨識精確度,但同時也破壞影像的品 質,進而影響到 OCR 辨識。結果顯示,除非影像狀況不佳,否則灰化影像的處 理,比起重新掃描原件成灰階的方式更耗費更多成本。 傾斜校正有助於提升辨識率,若文件呈現傾斜的狀況,進行校正處理有利於 文字的辨識,但校正的處理可能對影像的品質造成破壞。呂信德等人(2009)改 23.

(36) 良影像校正的處理方式,使用連通原件法(Connected Component) ,將文字的中 心點相互連結成線,接著運用印刷結構(typographical Structure)偵測四條平行 線,確認文字走向及精化範圍的辨識。優點是可在不影響影像的品質下,解決傾 斜的影響,缺點是辨識處理較耗時。 三、 特徵抽取 文字前處理的結果攸關此階段的進行,透過前處理作業,不管是二值化、雜 訊去除、灰化影像或傾斜校正等,皆能協助文字特徵的抽取。Smith(2007)針 對 Tesseract 軟體的開發及使用加以說明,進行文字辨識時,運用轉折點的偵測. 政 治 大 片段特徵,善用片段特徵的辨識可進行特徵比對。 立. 協助進行特徵的抽取,針對破碎文字,將偵測點連結成多邊形,協助獲得文字的. Chen 與 Lee(1988)則運用結構抽取技術,將整張文件分割成數個區塊。. ‧ 國. 學. 由於大區塊在進行投影法偵測時,容易產生不便判斷辨識的投影,運用虛線切割. ‧. 區塊的方法,可將妨礙辨識的部份無視,僅留下區塊內的文字進行特徵抽取,降. y. sit. io. er. 四、 比對辨識. Nat. 低特徵誤導的情形。. 比對辨識是運用前階段獲得的特徵,與系統軟體內儲存的特徵相互比對,找. al. n. v i n 出相似的特徵好協助辨識,類似傳統的結構分析法,透過不同特徵的比較好作為 Ch engchi U. 辨識的依據。因是字辭後處理的前階段,根據比對辨識的結果,影響後處理系統 所需偵測及校正的數量。 由於局部特徵容易與其他文字有重複性,因此,Zhu 等人(2001)提出不同 於局部特徵辨識的演算法,使用整體特徵辨識的方式,進行文字字體的辨別。於 文字前處理階段,進行段落線及間格空間的標準化,接著,使用 Gabor 濾波器將 標準化區塊內的文字辨識出來,結合加權歐基里德距離(Weighted Euclidean Distance)計算距離,好辨別不同的字體。此方法不涉及文字特徵的比對,節省 OCR 軟體進行辨識字體訓練的過程。 24.

(37) 五、 字辭後處理 字辭後處理是將 OCR 辨識結果的錯誤辨識出來,透過軟體字辭庫及語言模 式(Language Model)的訓練,將錯誤辨識偵測出來,並校正成正確詞彙。後處 理系統包含兩部份:錯誤偵測(Error Detection)及錯誤校正(Error Correction), 主要步驟是發現辨識錯誤詞彙,比對字辭庫儲存詞彙後,加以校正成符合語言邏 輯的詞彙(Sun、Liu、Zhang、Comfort,1992;Holley,2009)。 錯誤偵測容易發現跨語言的錯誤,原因在於語言類型的差異,容易即時察覺 出錯誤辨識,但相同語言的錯誤就難以判斷,需針對字辭庫進行自然語言或上下. 政 治 大 (Confusion Matrix)及雜訊通道(Noisy Channel)的原理,混亂矩陣為預先將 立 文連貫性的訓練,才能加以判斷出錯誤辨識;錯誤校正需運用混亂矩陣. 經常辨識錯誤的詞彙儲存至資料庫中,雜訊通道則透過長期觀察的方式,反推測. ‧ 國. 學. 出正確詞彙,藉由候選詞彙的聚叢分析,將正確詞彙重新歸入候選詞彙中(張俊. ‧. 盛、陳舜德,1995;Holley,2009)。. y. Nat. 針對無法辨識的詞彙,提供多種相似詞彙,供使用者判斷選擇,協助軟體進. er. io. sit. 行智慧學習。校正時,根據選擇資料及辨識結果,對每項候選詞彙產生一信心值 (Confident Value) ,利用系統學習機制的處理,將低於門檻的候選詞彙刪除,善. al. n. v i n 用語言模型的輔助,選擇符合語言邏輯且具高信心值的候選詞彙,視為是正確詞 Ch engchi U 彙並加以校正(Sun、Liu、Zhang、Comfort,1992; Mariner,2010)。. 針對 OCR 預先辨識的內容進行偵測及校正,能提供 OCR 辨識的精確度, 文字碼輸出的正確性,需仰賴偵測錯誤及校正詞彙的結果。後處理系統的訓練, 需藉由大量的詞彙及上下文關聯性的建立,才能提升辨識詞彙的正確性。因此, 辨識不同年代類型文件時,應配合內容所記載的語言模式及字辭用語,輸入至 OCR 後處理系統中,才能提升文件辨識的精確度。. 參、 OCR 辨識精確率影響 影響 OCR 精確度的因素有很多種,包含文件影像品質、掃描解析度、文字 25.

(38) 與背景的對比、細部文字特徵的分析、字辭庫詞彙量及 OCR 軟體的設計等。除 此之外,語言的複雜度也有所影響,中文相比於英文及日文,由於文字數量遠大 於兩者,造成中文的辨識難於其他語言文字。雖然,影響 OCR 辨識精確度的因 素有很多,但精確度的高低主要仍由人來判斷,算言之,精確度的與否,由計畫 人員或軟體開發者,依據辨識的文件類型,決定 OCR 辨識率的高低標準(Holley, 2009)。 將影響精確度的因素,分成三種類型:一、掃描設備,包括儀器的狀況及支 援影像的解析度等;二、OCR 軟體,包括分割區塊的能力、軟體字辭庫的詞彙. 政 治 大 字體大小及保存狀況等(Sun、Liu、Zhang、Comfort,1992) 。以下針對影響 OCR 立. 量及後處理系統的效能等;三、辨識文本,包括書籍文件的文字字體、文字字型、. 精確度的因素,進行分述說明:. ‧ 國. 學. 一、 掃描設備. ‧. 掃描設備的因素,包含儀器能負荷的影像解析度高低,及掃描儀器本身的設. y. Nat. 備問題等。儀器掃描解析度的上限,造成掃描的解析度受到侷限,無法使用更清. er. io. sit. 晰的影像進行 OCR 辨識;掃描儀器及環境等問題也會影響辨識,容易產生文件 本身沒有的雜訊。諸多影響因素的存在下,針對掃描設備的問題需格外提防,以. n. al. Ch. 下針對設備的主要影響因素,進行分述說明: (一)解析度. engchi. i n U. v. 影像解析度會影響 OCR 辨識的精確度,解析度越高則影像呈現越清晰,能 獲得更清楚的文字內容。但並非解析度越高則辨識率也跟著提升,過於精細的影 像可能造成軟體無法讀取,造成無法辨識的結果,因此,如何挑選適合的影像好 協助提升辨識率,需考量到多種因素。 Chapman 與 Kenney(1996)提出完整資訊截取(Full Information Capture) 概念,目標是以最低的成本,維持數位影像應有的品質。數位典藏的影像需達清 晰辨別的程度,雖然解析度決定了影像的細緻度,但一味地提升解析度,無法直 接反映至品質提升上,反而會造成檔案容量的擴大,若解析度超過範圍,也可能 26.

(39) 無法辨識出內容。也因此,影像解析度的選擇,除了考慮 OCR 軟體的辨識率, 也需考慮影像品質是否符合耗費成本,在多種因素考量下,選擇最適當的解析度 影像進行 OCR 辨識。 (二)掃描儀器 掃描儀器的好壞,直接影響影像掃描的結果,間接影響 OCR 辨識的精確度。 若儀器支援的解析度有範圍,則無法提供高解析的影像掃描,容易產生字體呈現 不完整,或文字線條不連接的情況,影響辨識文字的呈現。另外,掃描儀器的老 舊,由於不常進行設備保養,容易在掃描過程中產生故障、毀壞等問題,造成掃. 政 治 大 環境容易產生灰塵,影響掃描的進行,掃描時,一併將灰塵掃描至影像中,造成 立. 描影像呈現不完整,無法產生可辨識的文字。掃描環境的清潔也很重要,髒亂的. 影像產生雜訊,擾亂 OCR 軟體的辨識(Badoiu、Ciobanu、Craitoiu,2016)。. ‧ 國. 學. 二、 OCR 軟體. ‧. OCR 軟體的設計,直接影響辨識的精確度。嚴格來說,辨識進行的每個步. y. Nat. 驟,皆會影響 OCR 辨識的結果,包括掃描影像的清晰度、文字前處理的功能、. er. io. sit. 文字特徵的抽取、特徵資料庫的比對及字辭庫的比對等,每個步驟有重要影響性。 以下針對 OCR 軟體的功能,包含區塊分割、字辭資料庫及後處理系統,進行分. n. al. 述說明: (一)區塊分割. Ch. engchi. i n U. v. 軟體的區塊分割功能,影響 OCR 辨識的精確度。一般的印刷字體,由於鉛 字分隔固定,區塊分割的技術影響不大,但對於書寫型文字或手寫字體,由於文 字呈現上沒明確的分隔空間,文字相連的情況層出不窮,區塊分割的技術就顯得 重要。OCR 軟體依據開發辨識語言的不同,個別加強區塊分割的能力,但不論 何種語言,其辨識皆需要區塊分割的協助。 Al-A’ali 和 Ahmad(2007)提出提升阿拉伯文辨識率的方法,因阿拉伯文具 草寫及連字的特性,需事先進行水平輪廓投影(Horizontal Projection Profile)及 垂直輪廓投影(Vertical Projection Profile) ,分割出個別段落及文字區塊。接著, 27.

參考文獻

相關文件

Reading Task 6: Genre Structure and Language Features. • Now let’s look at how language features (e.g. sentence patterns) are connected to the structure

 The teacher explains to learners their duties: to present their ideas and findings on the questions on their role sheet, and lead the other group members to discuss the

Teachers may consider the school’s aims and conditions or even the language environment to select the most appropriate approach according to students’ need and ability; or develop

Robinson Crusoe is an Englishman from the 1) t_______ of York in the seventeenth century, the youngest son of a merchant of German origin. This trip is financially successful,

volume suppressed mass: (TeV) 2 /M P ∼ 10 −4 eV → mm range can be experimentally tested for any number of extra dimensions - Light U(1) gauge bosons: no derivative couplings. =>

We explicitly saw the dimensional reason for the occurrence of the magnetic catalysis on the basis of the scaling argument. However, the precise form of gap depends

incapable to extract any quantities from QCD, nor to tackle the most interesting physics, namely, the spontaneously chiral symmetry breaking and the color confinement.. 

• Formation of massive primordial stars as origin of objects in the early universe. • Supernova explosions might be visible to the most