第 5 章
結論與未來研究方向
5.1 結論
隨著電腦技術的進步與應用的普及,網際網路上大量的資料被產生,這些資 料通常是氾濫而雜亂無章,對人類有限的能力來說,如何去獲取、吸收與利用資 訊的能力構成重大的挑戰。因此如何幫助大眾收集、管理隱藏在自然文本中之重 要資訊,是很迫切的問題。因此,便有資訊擷取技術的產生,它能從自然語言文 本中辨識出特定主題或事件描述,進而抽取核心資訊所對應的文字資料,將原始 非結構化的資料轉換成結構化資訊,並彙整成資料庫,提供進一步的資訊加值處 理。然而目前大多數資訊擷取研究皆致力於提升其擷取系統效能及各領域的應用 性,即使是最新的資訊擷取技術所擷取出的資訊,仍然還是包含有某種的錯誤。
因此,在進行任何資訊加值的應用之前,需要先將擷取結果加以驗證並更正錯 誤。但一般而言,資訊擷取技術所產生的資訊量是相當龐大的,可能包括數以萬 計的值組。若要以人力方式進行錯誤偵測及更正,甚至還得比對原始文件作進一 步確認,這將會是耗費大量人力及時間的工作。因此,資料驗證所需的成本在部 分資訊擷取應用上是一大障礙。
而中文文件的資訊擷取技術也正在如火如荼的展開,加上全世界至少超過 1/5 的人說中文,不論是中文的資訊擷取成果資料庫日益增加,甚至一般大型商
業資料庫含有中文資料的機率也越來越高。但較少學者去針對以中文文字來描述 的資料進行清理、錯誤偵測等動作。以中文來說,由於中文詞與詞之間並沒有明 顯的界限,加上中文的結構較為鬆散且詞性不易判別,所以相對於英文來說,其 錯誤情形的累積就會更嚴重。
本篇研究論文針對這個上述問題,不但提出錯誤資料偵測方式以外,對於中 文資料我們也有解決方案。透過字串圖形結構以及字串特徵值兩套系統,在資訊 擷取成果資料庫上有不錯的表現,將資訊擷取技術搭配此偵測機制,不但能節省 驗證資料所花費的成本,甚至可確保高品質的資訊擷取成果產出,促成資訊擷取 技術更廣泛的實際應用。
此外,在跨領域的處理能力上也能達成其目的,除了資訊擷取成果資料庫,
也能在一般大型商業資料庫上進行錯誤偵測,並且在針對不同的資料類型也有不 同的處理方式,證明本研究論文可達到述資料特徵能力及自動驗證其正確性的目 的。
5.2 未來研究方向
由於本研究著重在錯誤資料的偵測,但是其準確度仍依不同資料類型有所差 異,當該資料型態內容變化性程度較大時,準確度較不理想,反之亦然。並且本 研究提出的實驗參數眾多,容易造成使用者的負擔。另外,當錯誤資料被偵測出 來後,仍必須透過人工方式更正成正確資料,才能進行資訊加值的應用。因此,
我們認為有必要針對資料錯誤偵測的工作進行進一步的研究,期望能發揮出更大 的效用。基於上述因素,我們將「全自動偵測技術」、「提昇偵測準確率」和「自 動更正錯誤資料」做為未來的研究方向。
一、 全自動偵測技術
由於本研究所提出的兩種子系統偵測方法,針對不同情況,有不同的參 數需設定,爾後才能達到良好的偵測效果。由於欄位資料型態是影響參數的 最大因素,因此可增加系統對語言瞭解的能力,可判斷該欄位資料內容進而 自動調整合適的參數。
舉例來說,資料變化性大但其前後字元內容是經常重複的話,則字串特 徵值方法較適用;若資料變化性大但其前後字元並不固定,但仍有常見的字 元在其中,這時較適用於字串圖形結構方法。另外,資料變化性較大的欄位 需要較多訓練資料,才能建構出較完整的偵測模型。所以能自動化偵測目標 欄位的特性,進而提供較合適的方法與實驗參數,讓使用者能方便進行資料 偵測、資料清理等動作,提昇整體流程之效率。
二、 提昇偵測準確率
由於本研究提出兩種偵測系統,因此當偵測某目標資料時,若可同時採
用兩種偵測方式去處理,則能提昇偵測準確度。假設兩種方法皆判定該筆字 串為錯誤資料,則可以認定該資料為錯誤的機率較高,反之亦然。若兩種方 法各自判定結果不同,則必須要有其餘方式來輔助處理,或是增加更多的決 策因素。
此外,可思考如何加強圖形結構比對演算法,和更完善的字元與關聯比 對與 公式。初步的構想為增加字元節點比對方式,譬如彈性的 變動位置比對,像一個常見的字詞,並非每次皆出現在同一位置,若能用動 態移動位置進比對,在某些特定的欄位資料,應有不錯的效果。
) (String Score
三、 自動更正錯誤資料
當偵測出某筆資料為錯誤資料時,後續仍得靠人力來進行更正動作,造 成更正資料所花費的成本仍是必須考量的因素。因此,我們認為後續的研究 可以朝自動更正錯誤資料方向進行。譬如總統府人事任免公報,是記載政府 各部門人事異動情形,而每筆人事異動資料,若包含多個人名,通常會是指 涉同一組織單位、職等或職稱。並且資訊擷取技術在進行萃取時,若某一欄 位發生擷取錯誤時,則可能會影響到後續欄位,造成與附近擷取正確的資料 會有明顯的內容差異。
表5-1為節錄民國八十九年的總統府人事任免公報擷取成果資料庫,可 以明顯發現識別號為3199的資訊擷取資料是錯誤的,透過本論文的方法也可 以順利偵測出該筆為錯誤資料。根據之前介紹的公報特性,各欄位內容的前 後差距理應不大,因此可依循此定義,去進行自動更正資料動作。該錯誤資 料在「職稱」欄位之上下一筆分別為「公務人員」及「主任」,因此有很高 的機率為這兩種值之一,若能提供這兩種值給後續的人工進行更正動作,便
能更加節省人力、時間成本 (經實際檢驗後「公務人員」為該筆正確結果)。
至於其餘欄位根據前後資料內容,便能輕易地更正成正確資料。
但是上述方式較依賴領域知識的基礎,必須先進行分析改目標擷取資料 庫中的錯誤情形,若能有更全自動化,用越少人力成本去處理,是個值得後 續研究探討的主題。
表5-1. 總統府人事任免公報擷取成果資料庫範例
識別號 …… 職稱 總統 行政院長 公報期數 年 月
3198 …… 公務人員 李登輝 蕭萬長 6340 89 05 3199 …… 蕭萬長 6340 89 05 17 89 3200 …… 主任 李登輝 蕭萬長 6340 89 05