資料之前置處理

第四章文字探勘系統

第二節資料之前置處理

進行文字探勘的第一個步驟是進行資料的前置處理(Pre-processing)，將原始資料(Raw data)之雜訊除去、不一致之格式統一、缺失的資訊補齊，如此，可提升資料的正確性、完整性和一致性，此處理步驟可稱為正規化(Normalization)，經過正規化處理的資料能大幅提升最後產出資訊之正確率¹⁰⁰。

本研究所取得之判決資料，為純文字檔案格式，在開始利用程式處理之前，必須先將資料進行資料整理的動作，其過程敘述如下：

一、擴充系統可讀字元：

判決書為了繕打 Big5 碼中無法出現之字碼，因此由司法院自行建立造字系統¹⁰¹，使用者需另行下載安裝該造字檔，方可閱讀特殊字碼。但該系統無法直接安裝於 UNIX 系統中，因此本研究利用 Big 5 plus 擴充字集增加系統可辨識文字並將部分重要司法院造字系統字碼寫入系統¹⁰²，以便減低程式判斷字元為亂碼之狀況。

二、除去雜訊資料：

1. 刪除錯誤資料：將原始資料中無判決字號¹⁰³、內容重複出現¹⁰⁴及超過研究範圍之外¹⁰⁵的檔案刪除。

100 William E. Winkler, Methods for Evaluating and Creating Data Quality, 29 INF.SYST., 531-550 (2004).

101 司法院造字檔安裝及使用說明，網址：http://www.judicial.gov.tw/jfont/makefont.asp(最後瀏覽日：

2013/06/17)。

102 司法院造字系統中，叁即用了 9 種以上不同的字碼表達，包括 UTF-8 碼中 e5 8f 81(C8FE)之「叁」、 e5 8f 82(B2CE)之「参」、e5 8f 83(85A2)之「參」、ee 8d b2(8EC3) ee 8d b3(8EC4)

ee 90 ae(8FE2) ee a5 8b(9858) ef 99 8a (8D76) 法院造字系統自行建制之 BIG 5 碼。

103 部份資料因為建檔時的疏失，缺少「判決字號」此項最重要的辨識條件。因為無法取得法院內部其他資訊比對案件並還原字號，因此將此類(共 1 筆)資料刪除。

104 除檔名及裁判日期不同外，判決內容全部相同，因此刪除重複之資訊，包括兩筆資料：97 年度民著訴字第 15 號、99 年度民著訴字第 6 號。

105 如著作權裁定案件、專利法與商標法之裁判均排除於本文研究範圍之外。

2. 除去不必要之空白：因為判決檔案利用空白及換行符號進行排版之故，

增加許多非必要之空白及換行符號。為避免影響系統對於字串的判讀，

因此將其刪除，只留英文字與字間之必要空白。但當事人欄位因為單純刪除空白換行會導致資料內容錯誤，因此不進行此部份處理。

3. 重新建立語句段落：將除去空白及換行之整段文字，利用句號(。)、驚嘆號(！)、問號(？) 及冒號(：)等標點符號，作為辨識為句子結束之標記。

三、進行資料之正規化：

主要利用程式進行數字、文字、法條之格式統一並區隔裁判書欄位：

1. 數字及法條格式統一：

將判決中以中文表達之數字部分，依照前後語句判斷是否應改由阿拉伯數字表示¹⁰⁶，判斷方式主要包括三種情形：

(1) 量詞：將數字後綴有量詞¹⁰⁷之中文數字，改為阿拉伯數字，如十張，

改為 10 張。

(2) 金額部分：將中文大寫之金額¹⁰⁸轉為阿拉伯數字，如：十萬改為 100000。

(3) 法條：將法律條文中之數字部分，全部改為阿拉伯數字，如：著作權法第八十八條第一項改為著作權法第 88 條第 1 項。

(4) 成效：利用上述三個判斷原則，可避免原本不需替換成阿拉伯數字之中文慣用語法，誤被系統更改(如：「一部份」，誤改為「1 部份」)，

以其兼顧閱讀順暢及搜尋完整等兩項目標。

106 〇、零取代為 0；乙、一、壹取代為 1；二、貳、兩取代為 2；三、叁、参、參取代為 3；四、

肆取代為 4；五、伍取代為 5；六、陸取代為 6；七、柒取代為 7；八、捌取代為 8；九、玖取代為 9 等。

107 如：個、片、件、支、瓶、罐、包、箱、盒、隻、枝、顆、棵、株、頭、根、張、本、台、輛、

塊、艘、棟、雙、組、疊、次、元等。

108 包括十、拾、百、佰、千、仟、萬、億、兆等。

2. 文字格式統一：

將同義異形字寫入系統，使系統得以辨識。以台、臺之互換為例，使用者輸入「新台幣」搜尋，可尋找到「新臺幣」之結果，反之亦然。此類同義異形字包括：台與臺、散布與散佈、作與做、雇與僱、部份與部分等。

3. 欄位區隔：

裁判書欄位依照內容區分，可分為第一部份之標題及案號，第二部份當事人欄，第三部份之案由欄，第四部份之主文欄，以及第五部份之事實及理由欄等欄位，系統將依照上述順序及格式，自動將欄位分隔並標記之，使其便於檢索或顯示之。

(1) 標題及案號：標題記載內容包含裁判法院、案件類型(民事、刑事、

行政)及裁判種類(判決、裁定)；案號乃案件在被引用時之代稱，其構成為年度、字號、編號。其中，年度為民國紀年，以數字表示；字號以中文字代稱，編碼方式則由法院依照案件類型之代碼而產生 (智慧財產法院編號計數分案報結實施要點¹⁰⁹)；最後之編號則為序數；此部份不列入搜尋欄位，僅用於顯示。

(2) 當事人欄：記載事項包括當事人及辯護人。當事人可能出現之標籤為：

原告、被告、上訴人、被上訴人、法定代理人、再審原告、再審被告等。辯護人可能出現之標籤包括訟訴代理人、複代理人等；系統搜尋時欄位代號為 roles。

(3) 案由欄：說明案件原由之文字。民事案件之案由會說明當事人之請求，

如有言詞辯論，則會一併於案由欄指出言詞辯論終結時間點；如為上訴案件，則會說明前一審資訊；如為刑事附帶民事訴訟，則會說明移送資訊。刑事案件則會說明被告之罪名、起訴之偵察案號、是否有程序轉換情形；系統搜尋時欄位代號為 gist。

(4) 主文欄：民事案件之主文欄位應記載包括：請求事件之裁判及訴訟費

109 智慧財產法院，網址：http://ipc.judicial.gov.tw/ipr_internet/index.php？

option=com_content&task=view&id=108(最後瀏覽日：2013/05/02)。

用負擔，若有假執行部分，則記載於請求事件之後，系統搜尋時欄位代號為 main。

(5) 事實及理由欄：事實乃記載當事人之請求、客觀之發生之事實，若事實發生有先後順序時，則依序說明，理由欄則應記載法院對事實之認定、據以判決之理由、裁判依據之法條。一般而言，民事案件多將事實欄及理由欄合併記載，其記載遵守先程序後實體的原則，將雙方請求、爭點、兩造不爭之事實、法院之認定及總結等事項分別說明；若有證據引用部分原則上以書證、人證、勘驗、鑑定之順序為之；如一方未到場說明，亦會記載「一造辯論判決」於文內。系統搜尋時欄位代號為 reason。

4. 增設字串取代複雜表示式：

(1) 中文 big5 plus 碼字串：利用$C 代表 [\x81-\xFE][\x40-\x7E\x80-\xFE].。

如此協助查詢詞彙與詞彙間可能存在之其他中文字，例如：「上訴 ($C)¹¹⁰*駁回」，可查詢到：「上訴人在第一審之訴駁回」、「上訴人之訴及假執行之聲請均駁回」、「上訴及附帶上訴均駁回」。

(2) 法律條文字串：利用$L 代表「((第\d+條)？(第\d+項)？(前段|後段)？(，

|、|及))」。因為在判決書中，法官引用條文之寫法通常是先說明法律名稱，再說明該法中所引用之條文號碼，例如：「著作權法第 84 條、

第 85 條第 1 項、第 88 條第 1 項」。這種寫法會造成單純在檢索欄位輸入「著作權法第 88 條」搜尋時，無法檢索到該篇判決，如果輸入

「著作權法」及「88 條」，雖然可以搜尋到該篇判決，但如果判決有包括「著作權法第 85 條」及「民法第 88 條」，也會誤被列搜尋結果；

若利用「著作權法($L)*第 88 條($L)*第 2 項前段」，則包括「著作權法第 84 條、第 85 條第 1 項、第 88 條第 1 項、第 2 項前段」字串之判決，可正確列入結果清單，而包含「著作權法第 85 條及民法第 88 條」字串之判決，則不會列入檢索結果清單。

110 本段利用陰影及底線表示符合正規表示式字串之內容。

在文檔中文字探勘在判決書上之應用-以著作權法民事賠償為中心 (頁 41-45)

第四章 文字探勘系統

第二節 資料之前置處理

第四章文字探勘系統

第二節資料之前置處理