系統概述

第四章文字探勘系統

第一節系統概述

第一項系統設計概念

正規表示式(Regular Expression) 是一種利用特定字元、符號組合或標記方法描述字串之語法，可用於協助搜尋比對符合特定語法或規則之文字、數字，通常縮寫成「Regex」，許多程式語言或搜尋引擎均支援正規表示式，如 Perl⁹⁶、Java、

Google Analytics 等，本文所使用之正規表示式語法，詳列於附錄一。

詞彙表(Glossary)乃以語義(Semantics)的角度，將具有相類似內涵的詞彙匯集至同一概念，常應用於電腦搜尋、資訊交換及語意理解，是建立知識管理系統的一個重要元件。

本實驗系統將著作權相關詞彙表利用正規表示式表達，並以之作為搜尋判決書之檢索字串(Query Strings)。實驗系統並可利用功能不同之程式整理、檢索判決，

並同時建立閱讀檢索結果之介面，亦可將檢索結果轉成 Microsoft Excel 格式檔案，

以達整理、分析裁判書之功能，系統處理流程可參閱圖 7。

圖 7 本研究之因子統計程式系統流程示意圖

96 本系統以 Perl 語言撰寫而成，Perl 語言非常擅長處理字串，其函數、變數、參數及正規表示法可參閱其官方設定集(perldoc) 網址：http://perldoc.perl.org/perlre.html (最後瀏覽日：2013/07/10)。

搜尋裁判結果

正規化之資料 裁判搜尋系統

統計表格

因子統計程式 資料

搜尋正規化

資訊檢索輸出

結果

第二項系統效能測試之簡介

測試檢索系統最常見為兩個標準，求準率(P, Precision，又稱精確率)及求全率 (R, Recall，又稱召回率、回現率)。

求準率為所有被檢索出的文件符合使用者需求之比例，分母為該次檢索結果之總數，分子為該次檢索中之相關文獻之總數；求全率為所有符合需求的文件被系統檢索出之比例，分母為所有相關的文獻之總數，分子為該次檢索中之相關文獻之總數⁹⁷，公式及圖示請參閱圖 8⁹⁸。

求全率及求準率亦可用誤差矩陣(Confusion Matrix，又稱混淆矩陣)協助表達(詳見表 3)。

圖 8 Precision and Recall

97 試舉例如下：假設資料庫之文獻一共有 10,000 篇，相關某個主題的文獻一共有 200 篇，利用某系統檢索後得到之結果為 300 篇，檢索結果中屬於該相關主題之文獻者有 150 篇。

求準率之分母為該次檢索之總數，在本例中為 300，分子為該次檢索中之相關文獻之總數，在本例中為 150；計算式為 150/300=50%，則精確率為 50%。

求全率之分母為所有相關的文獻之總數，在本例中為 200，分子為該次檢索中之相關文獻之總數，

在本例中為 150；計算式為 150/200=75%，則召回率為 75%。

98 Ophir Frieder David A. Grossman, Information Retrieval : Algorithms and Heuristics, in KLUWER INTERNATIONAL SERIES ON INFORMATION RETRIEVAL ; Pages, (2004).

表 3 Confusion Matrix⁹⁹

Actual Positive Actual Negative Predicted

Positive tp

(True positive)

(False positive) Predicted

Negative fn

(False negative)

(True negative)

其中，TP 為 True positive(真陽性)，乃符合使用者需要，亦被檢索出之文獻，

即正確列入結果清單之值；FP 為 False positive(偽陽性)，乃事實上不符合使用者需要，卻被列入結果清單，即錯誤列入結果清單之值；FN 為 False negative(偽陰性)，

乃符合使用者需要，卻未被系統檢出之值，即錯誤未列入結果清單之值；TN 為 True negative(真陰性)，乃不符合使用者需要，亦未列入結果清單之值，即正確未列入

結果清單之值；利用此四個數據計算求全率及求準率之方式如圖 9。

圖 9 Precision and Recall(2)

99 Mark Goadrich Jesse Davis, The Relationship between Precision-Recall and ROC Curves, in PROCEEDINGS OF THE 23RD INTERNATIONAL CONFERENCE ON MACHINE LEARNING (2006).

在文檔中文字探勘在判決書上之應用-以著作權法民事賠償為中心 (頁 38-41)

第四章 文字探勘系統

第一節 系統概述

第一項 系統設計概念

第二項 系統效能測試之簡介

第四章文字探勘系統

第一節系統概述

第一項系統設計概念

第二項系統效能測試之簡介