第四章 文字探勘系統
第一節 系統概述
第一項 系統設計概念
正規表示式(Regular Expression) 是一種利用特定字元、符號組合或標記方法 描述字串之語法,可用於協助搜尋比對符合特定語法或規則之文字、數字,通常 縮寫成「Regex」,許多程式語言或搜尋引擎均支援正規表示式,如 Perl96、Java、
Google Analytics 等,本文所使用之正規表示式語法,詳列於附錄一。
詞彙表(Glossary)乃以語義(Semantics)的角度,將具有相類似內涵的詞彙匯集 至同一概念,常應用於電腦搜尋、資訊交換及語意理解,是建立知識管理系統的 一個重要元件。
本實驗系統將著作權相關詞彙表利用正規表示式表達,並以之作為搜尋判決 書之檢索字串(Query Strings)。實驗系統並可利用功能不同之程式整理、檢索判決,
並同時建立閱讀檢索結果之介面,亦可將檢索結果轉成 Microsoft Excel 格式檔案,
以達整理、分析裁判書之功能,系統處理流程可參閱圖 7。
圖 7 本研究之因子統計程式系統流程示意圖
96 本系統以 Perl 語言撰寫而成,Perl 語言非常擅長處理字串,其函數、變數、參數及正規表示法 可參閱其官方設定集(perldoc) 網址:http://perldoc.perl.org/perlre.html (最後瀏覽日:2013/07/10)。
搜尋裁判結果
正規化之資料 裁判搜尋系統
統計表格
因子統計程式 資料
搜尋 正規化
資訊 檢索 輸出
結果
第二項 系統效能測試之簡介
測試檢索系統最常見為兩個標準,求準率(P, Precision,又稱精確率)及求全率 (R, Recall,又稱召回率、回現率)。
求準率為所有被檢索出的文件符合使用者需求之比例,分母為該次檢索結果之 總數,分子為該次檢索中之相關文獻之總數;求全率為所有符合需求的文件被系 統檢索出之比例,分母為所有相關的文獻之總數,分子為該次檢索中之相關文獻 之總數97,公式及圖示請參閱圖 898。
求全率及求準率亦可用誤差矩陣(Confusion Matrix,又稱混淆矩陣)協助表達(詳 見表 3)。
圖 8 Precision and Recall
97 試舉例如下:假設資料庫之文獻一共有 10,000 篇,相關某個主題的文獻一共有 200 篇,利用某 系統檢索後得到之結果為 300 篇,檢索結果中屬於該相關主題之文獻者有 150 篇。
求準率之分母為該次檢索之總數,在本例中為 300,分子為該次檢索中之相關文獻之總數,在本例 中為 150;計算式為 150/300=50%,則精確率為 50%。
求全率之分母為所有相關的文獻之總數,在本例中為 200,分子為該次檢索中之相關文獻之總數,
在本例中為 150;計算式為 150/200=75%,則召回率為 75%。
98 Ophir Frieder David A. Grossman, Information Retrieval : Algorithms and Heuristics, in KLUWER INTERNATIONAL SERIES ON INFORMATION RETRIEVAL ; Pages, (2004).
表 3 Confusion Matrix99
Actual Positive Actual Negative Predicted
Positive tp
(True positive)
fp
(False positive) Predicted
Negative fn
(False negative)
tn
(True negative)
其中,TP 為 True positive(真陽性),乃符合使用者需要,亦被檢索出之文獻,
即正確列入結果清單之值;FP 為 False positive(偽陽性),乃事實上不符合使用者需 要,卻被列入結果清單,即錯誤列入結果清單之值;FN 為 False negative(偽陰性),
乃符合使用者需要,卻未被系統檢出之值,即錯誤未列入結果清單之值;TN 為 True negative(真陰性),乃不符合使用者需要,亦未列入結果清單之值,即正確未列入
結果清單之值;利用此四個數據計算求全率及求準率之方式如圖 9。
圖 9 Precision and Recall(2)
99 Mark Goadrich Jesse Davis, The Relationship between Precision-Recall and ROC Curves, in PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING (2006).