第四章 文字探勘系統
第五節 實驗結果與系統效能分析
第一項 實驗系統效能測試
本系統實驗效能測試方式如下:先利用前述正規表示式檢索得出結果後,利 用人工逐一驗證每一筆結果,確認正確率。
因本文查詢資料數量繁多,無法全部利用人工檢查完畢,故挑選 8 個查詢進 行實驗結果之驗證,結果如表 24 及圖 11。總結之,本實驗共利用系統檢索 8 個 正規表示式字串,測試資料範圍為智慧財產法院著作權民事判決共 301 個案件,
求全率平均為 97.96%,求準率平均為 95.4%。
表 24 本研究檢索系統抽樣實驗結果 數值
搜尋項目 TP FN FP 求全率 求準率 任一方為法人 270 0 1 100.00% 99.63%
原告有法人 199 14 4 93.43% 98.03%
被告有法人 163 12 6 93.14% 96.45%
原告勝訴 34 1 12 97.14% 93.91%
原告敗訴 178 0 7 100.00% 96.22%
一部勝訴
一部敗訴 105 0 2 100.00% 98.13%
登報 18 0 4 100.00% 81.82%
裁判賠償金額 99 0 1 100.00% 99.00%
平均值 97.96% 95.4%
圖 11 本研究檢索系統實驗結果圖
70.00%
75.00%
80.00%
85.00%
90.00%
95.00%
100.00%
70% 75% 80% 85% 90% 95% 100%
勝訴 敗訴 一部勝訴 登報
裁判賠償金額 法人
平均
求全率 求準率
第二項 實驗系統之觀察及分析
以下將就系統實驗數據進行分析:
1. 由於法官進行判決之撰寫時,習於引用法條內容作為論述之一部份,因此 部份出現於法條文字中之詞彙,會影響系統判讀結果,例如在進行著作類 種之判斷時,如法官引用著作權法第 5 條,則判決書中文字即會出現各種 著作種類,非只出現系爭著作之種類,此時系統會呈現之求準率較低,必 須藉由出現次數之判讀或直接利用人工校對方式方能確認該判斷結果。
2. 利用特定條文輔助判決正規表示式查詢之方式,能有效提高系統求準率,
如利用民事訴訟法第 79 條協助判斷一部勝訴一部敗訴之案件。
3. 少數判決會有所遺漏,未將全部請求結果記載於主文,若僅使用欄位限定 搜索,會遺漏此類判決。
4. 部份詞彙122太常使用,計入結果清單,將會提高求全率,降低求準率,因 其降低辨識率,故僅列入輔助詞彙,是否使用輔助詞彙計入結果,將視使 用者需求而定,使用者若要求非常高之求全率,則建議列入後,利用人工 判讀之方法排除 FP(偽陽性)之案件。
5. 實驗系統可以具有如此高之檢索效能,除研究時不停依據檢索結果進行正 規表示式之修正外,一部分之原因為研究判決之單一性。本研究限於取得 資料之範圍限制及研究者時間、能力,僅進行智慧財產法院之 301 個著作 權案件分析,並未就全國各地方法院判決分析,而智慧財產法院法官人數 僅有十一位123,判決主題單純,審判風格較為一致,寫作脈絡較為統一,
詞彙之變化亦限制於一定範圍內。系統需掌握之變數較小,其求全率及求 準率即可呈現良好的實驗結果。
6. 如能將事實及理由欄位加以細分為「原告請求」、「被告抗辯」及「法官心 證部份」,並可獨立查詢,應可使求準率及求全率更加提昇。
122 如:將(原告之|上)訴(為)*有理由列入檢索清單,可能查到法官認定上訴有理由,亦可能查詢到 事實欄中前一審的判決文字之部份。
123 智慧財產法院法官名錄,網址:http://ipc.judicial.gov.tw/ipr_internet/index.php?
option=com_content &view=article&id=14&Itemid=70(最後瀏覽日:2013/07/07)。