• 沒有找到結果。

第五章 結論與建議

第二節 建議

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

138

第二節 建議

綜合準實驗研究操作與深度訪談獲得的研究結果,發現全文資料庫受限於機 構各項考量因素而在建置數量上尚未普及,但就技術不斷地進步以及數位人文研 究議題受到關注的前提下,未來不論是機構或者研究學者對於全文資料庫的建置 需求會越來越強烈。本節針對日後可能演變的情形,認為應該先行規劃數位全文 化作業流程的想法,針對未來進行全文資料庫建置計畫時,如何執行步驟流程與 善用 OCR 辨識技術提出以下建議。

壹、 制定並規劃數位典藏全文化作業流程

數位全文化作業流程需要詳細擬訂,才能提供日後其他有需求之機構執行計 畫時有個作業流程的參考。綜合訪談內容,機構在執行數位全文化輸入階段時,

會因應物件狀況選擇不同的輸入方式,有些機構會採用人工繕打與 OCR 辨識併 行的方式,有些機構會委託兩間廠商從事人工繕打的作業,不論選擇哪種輸入方 式皆需要產生兩種不同輸入全文,以利於日後針對全文校對階段能尋找出差異處,

避免針對全部內容從頭到尾進行校對所耗費的人力資源。

在選擇數位全文化作業方式時,如果經費預算許可會偏向人工繕打與 OCR 辨識併行使用,透過兩種不同產出方式除了能幫助下階段進行校對處理外,透過 使用 OCR 辨識能減少逐字繕打的人力耗費外,也能透過人工繕打的內容比對協 助 OCR 系統建置校對字辭資料庫,協助 OCR 系統進行辨識的學習。雖然目前 機構對於 OCR 辨識普遍抱持著懷疑的態度,原因在於對 OCR 辨識作業流程感 到不便與困擾,但以目前技術來看多數物件狀況對於 OCR 辨識來講都在可處理 的範圍,因此最好的作業流程模式是採用併行的方式進行全文輸入,能達到相互 補的效果。

數位典藏全文化作業流程大致如下(見圖 5-2-1):一、先從現有數位典藏影 像中挑選所需要全文化處理之物件影像;二、評估物件影像之狀況,若有影像不 佳影響文字內容的判讀,或是缺漏狀況嚴重無法讀取內容之情形,要委託廠商進

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

139

行重新掃描;三、影像狀況佳者挑選輸入作業模式,若字體內容方正且雜訊較少,

則選擇進行 OCR 辨識;若有字體內容潦草且多雜訊阻礙,則選擇以人工逐字繕 打,這部份除了機構事先判斷外,也需交由廠商進行辨識測試;四、內容全文完 成後需進行校對、標記、缺字處理等流程步驟;五、將完成處理之內容全文存入 資料庫中。

圖 5-2-1 數位典藏全文化作業流程圖

雖然機構執行方式會依照實際物件狀況與經費預算等問題而有所差異,物件 狀況若內容為手抄書寫字體,則會偏向使用人工繕打,若內容為印刷出版字體且 數量龐大,則會偏向使用 OCR 辨識;預算狀況若經費不足則只會考慮最合適的 單一輸入方式,而不會採用兩種輸入方式同時併行。總體來講,數位典藏全文化

現有數位典藏影像

選擇全文化物件影像

影像狀況評估

影像狀況 是否適合

選擇全文 輸入模式

N

Y

人工繕打 OCR 辨識

校對、標記、缺字處理

放入全文資料庫中

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

140

的作業流程會因應機構考量與物件狀況的不同而有所差異,但若在經費預算足夠 的前提下,最好的流程模式是採用人工繕打與 OCR 辨識併行使用的方式,既能 減少到部份人力成本也能協助 OCR 辨識精確率的提升。

貳、 機構與廠商之間需經常溝通協調

由於數位典藏全文化計畫除了涉及機構典藏物件外,也會依賴專門廠商的技 術處理,因此多數階段包含數位化掃描、人工繕打、OCR 辨識,都需要借助廠 商的幫忙才能順利進行,這當中需要雙方人員的溝通協調,才能瞭解機構的需求 廠商是否能如實提供。雖然機構在執行數位典藏計畫時,必定會針對不同階段建 置作業標準,並且針對所需成品也會建置是否合適的判斷標準,但多樣化物件的 處理過程,容易發生超出明訂標準的規範,這時需要雙方間的溝通協調,確認彼 此認知情況與縮小認知差異。對此機構與廠商需要建立溝通協調的管道,避免並 降低因認知差異,可能造成錯誤產出的機率。

以內容輸入選擇為例,數位全文化的輸入方式大致分成逐字繕打與 OCR 辨 識,雖然可以先行列出標準供機構人員進行選擇判斷,但仍然事後要與廠商人員 進行協調,瞭解實際執行時哪些古籍特徵狀況是可以執行 OCR 辨識,而哪些古 籍特徵狀況比較不適合執行 OCR 辨識,採用逐字繕打會較為方便的結果(見表 5-2-1)。雖然透過古籍狀況可初步評估輸入方式,包含古籍版式需規律則較適合 OCR 文字區塊切割;古籍影像內容需清晰無雜訊則較適合 OCR 判讀;古籍文字 需工整不潦草則較適合 OCR 辨識,但實際還是要交付廠商人員進行預試掃描,

才能找出合適的輸入方法,畢竟好處理的文本可以使得廠商處理便利,自然處理 成本就會降低,機構人員在預先擬定文本處理方式的同時,也需要考慮後續廠商 報價之成本問題。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

142

長學習;對使用者有利點在於能針對機構提供的數位化物件影像隨意挑選自己所 需的研究素材,透過自行辨識並直接比對物件影像內容,除了可以便於建置自身 研究電子檔外,也能提供機構經研究者整理過的全文資料,將古籍物件內容資訊 發揮到最大效益。雖然中國哲學書電子化計畫採內容完全公開的方式,會讓典藏 機構有所卻步,但機構在人力預算有所限制的情況下,可考慮朝這種運作模式去 進行典藏數位全文化。