第四章 文字探勘系統
第二節 資料之前置處理
進行文字探勘的第一個步驟是進行資料的前置處理(Pre-processing),將原始資 料(Raw data)之雜訊除去、不一致之格式統一、缺失的資訊補齊,如此,可提升資 料的正確性、完整性和一致性,此處理步驟可稱為正規化(Normalization),經過正 規化處理的資料能大幅提升最後產出資訊之正確率100。
本研究所取得之判決資料,為純文字檔案格式,在開始利用程式處理之前,必 須先將資料進行資料整理的動作,其過程敘述如下:
一、擴充系統可讀字元:
判決書為了繕打 Big5 碼中無法出現之字碼,因此由司法院自行建立 造字系統101,使用者需另行下載安裝該造字檔,方可閱讀特殊字碼。但該 系統無法直接安裝於 UNIX 系統中,因此本研究利用 Big 5 plus 擴充字集 增加系統可辨識文字並將部分重要司法院造字系統字碼寫入系統102,以便 減低程式判斷字元為亂碼之狀況。
二、除去雜訊資料:
1. 刪除錯誤資料:將原始資料中無判決字號103、內容重複出現104及超過研 究範圍之外105的檔案刪除。
100 William E. Winkler, Methods for Evaluating and Creating Data Quality, 29 INF.SYST., 531-550 (2004).
101 司法院造字檔安裝及使用說明,網址:http://www.judicial.gov.tw/jfont/makefont.asp(最後瀏覽日:
2013/06/17)。
102 司法院造字系統中,叁即用了 9 種以上不同的字碼表達,包括 UTF-8 碼中 e5 8f 81(C8FE)之「叁」、 e5 8f 82(B2CE)之「参」、e5 8f 83(85A2)之「參」、ee 8d b2(8EC3) ee 8d b3(8EC4)
ee 90 ae(8FE2) ee a5 8b(9858) ef 99 8a (8D76) 法院造字 系統自行建制之 BIG 5 碼。
103 部份資料因為建檔時的疏失,缺少「判決字號」此項最重要的辨識條件。因為無法取得法院內 部其他資訊比對案件並還原字號,因此將此類(共 1 筆)資料刪除。
104 除檔名及裁判日期不同外,判決內容全部相同,因此刪除重複之資訊,包括兩筆資料:97 年度 民著訴字第 15 號、99 年度民著訴字第 6 號。
105 如著作權裁定案件、專利法與商標法之裁判均排除於本文研究範圍之外。
2. 除去不必要之空白:因為判決檔案利用空白及換行符號進行排版之故,
增加許多非必要之空白及換行符號。為避免影響系統對於字串的判讀,
因此將其刪除,只留英文字與字間之必要空白。但當事人欄位因為單純 刪除空白換行會導致資料內容錯誤,因此不進行此部份處理。
3. 重新建立語句段落:將除去空白及換行之整段文字,利用句號(。)、驚嘆 號(!)、問號(?) 及冒號(:)等標點符號,作為辨識為句子結束之標記。
三、進行資料之正規化:
主要利用程式進行數字、文字、法條之格式統一並區隔裁判書欄位:
1. 數字及法條格式統一:
將判決中以中文表達之數字部分,依照前後語句判斷是否應改由阿拉 伯數字表示106,判斷方式主要包括三種情形:
(1) 量詞:將數字後綴有量詞107之中文數字,改為阿拉伯數字,如十張,
改為 10 張。
(2) 金額部分:將中文大寫之金額108轉為阿拉伯數字,如:十萬改為 100000。
(3) 法條:將法律條文中之數字部分,全部改為阿拉伯數字,如:著作權 法第八十八條第一項改為著作權法第 88 條第 1 項。
(4) 成效:利用上述三個判斷原則,可避免原本不需替換成阿拉伯數字之 中文慣用語法,誤被系統更改(如:「一部份」,誤改為「1 部份」),
以其兼顧閱讀順暢及搜尋完整等兩項目標。
106 〇、零取代為 0;乙、一、壹取代為 1;二、貳、兩取代為 2;三、叁、参、參取代為 3;四、
肆取代為 4;五、伍取代為 5;六、陸取代為 6;七、柒取代為 7;八、捌取代為 8;九、玖取代為 9 等。
107 如:個、片、件、支、瓶、罐、包、箱、盒、隻、枝、顆、棵、株、頭、根、張、本、台、輛、
塊、艘、棟、雙、組、疊、次、元等。
108 包括十、拾、百、佰、千、仟、萬、億、兆等。
2. 文字格式統一:
將同義異形字寫入系統,使系統得以辨識。以台、臺之互換為例,使 用者輸入「新台幣」搜尋,可尋找到「新臺幣」之結果,反之亦然。此 類同義異形字包括:台與臺、散布與散佈、作與做、雇與僱、部份與部 分等。
3. 欄位區隔:
裁判書欄位依照內容區分,可分為第一部份之標題及案號,第二部份 當事人欄,第三部份之案由欄,第四部份之主文欄,以及第五部份之事 實及理由欄等欄位,系統將依照上述順序及格式,自動將欄位分隔並標 記之,使其便於檢索或顯示之。
(1) 標題及案號:標題記載內容包含裁判法院、案件類型(民事、刑事、
行政)及裁判種類(判決、裁定);案號乃案件在被引用時之代稱,其構 成為年度、字號、編號。其中,年度為民國紀年,以數字表示;字號 以中文字代稱,編碼方式則由法院依照案件類型之代碼而產生 (智慧 財產法院編號計數分案報結實施要點109);最後之編號則為序數;此 部份不列入搜尋欄位,僅用於顯示。
(2) 當事人欄:記載事項包括當事人及辯護人。當事人可能出現之標籤為:
原告、被告、上訴人、被上訴人、法定代理人、再審原告、再審被告 等。辯護人可能出現之標籤包括訟訴代理人、複代理人等;系統搜尋 時欄位代號為 roles。
(3) 案由欄:說明案件原由之文字。民事案件之案由會說明當事人之請求,
如有言詞辯論,則會一併於案由欄指出言詞辯論終結時間點 ;如為 上訴案件,則會說明前一審資訊;如為刑事附帶民事訴訟,則會說明 移送資訊。刑事案件則會說明被告之罪名、起訴之偵察案號、是否有 程序轉換情形;系統搜尋時欄位代號為 gist。
(4) 主文欄:民事案件之主文欄位應記載包括:請求事件之裁判及訴訟費
109 智慧財產法院,網址:http://ipc.judicial.gov.tw/ipr_internet/index.php?
option=com_content&task=view&id=108(最後瀏覽日:2013/05/02)。
用負擔,若有假執行部分,則記載於請求事件之後,系統搜尋時欄位 代號為 main。
(5) 事實及理由欄:事實乃記載當事人之請求、客觀之發生之事實,若事 實發生有先後順序時,則依序說明,理由欄則應記載法院對事實之認 定、據以判決之理由、裁判依據之法條。一般而言,民事案件多將事 實欄及理由欄合併記載,其記載遵守先程序後實體的原則,將雙方請 求、爭點、兩造不爭之事實、法院之認定及總結等事項分別說明;若 有證據引用部分原則上以書證、人證、勘驗、鑑定之順序為之;如一 方未到場說明,亦會記載「一造辯論判決」於文內。系統搜尋時欄位 代號為 reason。
4. 增設字串取代複雜表示式:
(1) 中文 big5 plus 碼字串:利用$C 代表 [\x81-\xFE][\x40-\x7E\x80-\xFE].。
如此協助查詢詞彙與詞彙間可能存在之其他中文字,例如:「上訴 ($C)110*駁回」,可查詢到:「上訴人在第一審之訴駁回」、「上訴人之 訴及假執行之聲請均駁回」、「上訴及附帶上訴均駁回」。
(2) 法律條文字串:利用$L 代表「((第\d+條)?(第\d+項)?(前段|後段)?(,
|、|及))」。因為在判決書中,法官引用條文之寫法通常是先說明法律 名稱,再說明該法中所引用之條文號碼,例如:「著作權法第 84 條、
第 85 條第 1 項、第 88 條第 1 項」。這種寫法會造成單純在檢索欄位 輸入「著作權法第 88 條」搜尋時,無法檢索到該篇判決,如果輸入
「著作權法」及「88 條」,雖然可以搜尋到該篇判決,但如果判決有 包括「著作權法第 85 條」及「民法第 88 條」,也會誤被列搜尋結果;
若利用「著作權法($L)*第 88 條($L)*第 2 項前段」,則包括「著作權 法第 84 條、第 85 條第 1 項、第 88 條第 1 項、第 2 項前段」字串之 判決,可正確列入結果清單,而包含「著作權法第 85 條及民法第 88 條」字串之判決,則不會列入檢索結果清單。
110 本段利用陰影及底線表示符合正規表示式字串之內容。