• 沒有找到結果。

第四章 文字探勘系統

第二節 資料之前置處理

進行文字探勘的第一個步驟是進行資料的前置處理(Pre-processing),將原始資 料(Raw data)之雜訊除去、不一致之格式統一、缺失的資訊補齊,如此,可提升資 料的正確性、完整性和一致性,此處理步驟可稱為正規化(Normalization),經過正 規化處理的資料能大幅提升最後產出資訊之正確率100

本研究所取得之判決資料,為純文字檔案格式,在開始利用程式處理之前,必 須先將資料進行資料整理的動作,其過程敘述如下:

一、擴充系統可讀字元:

判決書為了繕打 Big5 碼中無法出現之字碼,因此由司法院自行建立 造字系統101,使用者需另行下載安裝該造字檔,方可閱讀特殊字碼。但該 系統無法直接安裝於 UNIX 系統中,因此本研究利用 Big 5 plus 擴充字集 增加系統可辨識文字並將部分重要司法院造字系統字碼寫入系統102,以便 減低程式判斷字元為亂碼之狀況。

二、除去雜訊資料:

1. 刪除錯誤資料:將原始資料中無判決字號103、內容重複出現104及超過研 究範圍之外105的檔案刪除。

100 William E. Winkler, Methods for Evaluating and Creating Data Quality, 29 INF.SYST., 531-550 (2004).

101 司法院造字檔安裝及使用說明,網址:http://www.judicial.gov.tw/jfont/makefont.asp(最後瀏覽日:

2013/06/17)。

102 司法院造字系統中,叁即用了 9 種以上不同的字碼表達,包括 UTF-8 碼中 e5 8f 81(C8FE)之「叁」、 e5 8f 82(B2CE)之「参」、e5 8f 83(85A2)之「參」、ee 8d b2(8EC3) ee 8d b3(8EC4)

ee 90 ae(8FE2) ee a5 8b(9858) ef 99 8a (8D76) 法院造字 系統自行建制之 BIG 5 碼。

103 部份資料因為建檔時的疏失,缺少「判決字號」此項最重要的辨識條件。因為無法取得法院內 部其他資訊比對案件並還原字號,因此將此類(共 1 筆)資料刪除。

104 除檔名及裁判日期不同外,判決內容全部相同,因此刪除重複之資訊,包括兩筆資料:97 年度 民著訴字第 15 號、99 年度民著訴字第 6 號。

105 如著作權裁定案件、專利法與商標法之裁判均排除於本文研究範圍之外。

2. 除去不必要之空白:因為判決檔案利用空白及換行符號進行排版之故,

增加許多非必要之空白及換行符號。為避免影響系統對於字串的判讀,

因此將其刪除,只留英文字與字間之必要空白。但當事人欄位因為單純 刪除空白換行會導致資料內容錯誤,因此不進行此部份處理。

3. 重新建立語句段落:將除去空白及換行之整段文字,利用句號(。)、驚嘆 號(!)、問號(?) 及冒號(:)等標點符號,作為辨識為句子結束之標記。

三、進行資料之正規化:

主要利用程式進行數字、文字、法條之格式統一並區隔裁判書欄位:

1. 數字及法條格式統一:

將判決中以中文表達之數字部分,依照前後語句判斷是否應改由阿拉 伯數字表示106,判斷方式主要包括三種情形:

(1) 量詞:將數字後綴有量詞107之中文數字,改為阿拉伯數字,如十張,

改為 10 張。

(2) 金額部分:將中文大寫之金額108轉為阿拉伯數字,如:十萬改為 100000。

(3) 法條:將法律條文中之數字部分,全部改為阿拉伯數字,如:著作權 法第八十八條第一項改為著作權法第 88 條第 1 項。

(4) 成效:利用上述三個判斷原則,可避免原本不需替換成阿拉伯數字之 中文慣用語法,誤被系統更改(如:「一部份」,誤改為「1 部份」),

以其兼顧閱讀順暢及搜尋完整等兩項目標。

106 〇、零取代為 0;乙、一、壹取代為 1;二、貳、兩取代為 2;三、叁、参、參取代為 3;四、

肆取代為 4;五、伍取代為 5;六、陸取代為 6;七、柒取代為 7;八、捌取代為 8;九、玖取代為 9 等。

107 如:個、片、件、支、瓶、罐、包、箱、盒、隻、枝、顆、棵、株、頭、根、張、本、台、輛、

塊、艘、棟、雙、組、疊、次、元等。

108 包括十、拾、百、佰、千、仟、萬、億、兆等。

2. 文字格式統一:

將同義異形字寫入系統,使系統得以辨識。以台、臺之互換為例,使 用者輸入「新台幣」搜尋,可尋找到「新臺幣」之結果,反之亦然。此 類同義異形字包括:台與臺、散布與散佈、作與做、雇與僱、部份與部 分等。

3. 欄位區隔:

裁判書欄位依照內容區分,可分為第一部份之標題及案號,第二部份 當事人欄,第三部份之案由欄,第四部份之主文欄,以及第五部份之事 實及理由欄等欄位,系統將依照上述順序及格式,自動將欄位分隔並標 記之,使其便於檢索或顯示之。

(1) 標題及案號:標題記載內容包含裁判法院、案件類型(民事、刑事、

行政)及裁判種類(判決、裁定);案號乃案件在被引用時之代稱,其構 成為年度、字號、編號。其中,年度為民國紀年,以數字表示;字號 以中文字代稱,編碼方式則由法院依照案件類型之代碼而產生 (智慧 財產法院編號計數分案報結實施要點109);最後之編號則為序數;此 部份不列入搜尋欄位,僅用於顯示。

(2) 當事人欄:記載事項包括當事人及辯護人。當事人可能出現之標籤為:

原告、被告、上訴人、被上訴人、法定代理人、再審原告、再審被告 等。辯護人可能出現之標籤包括訟訴代理人、複代理人等;系統搜尋 時欄位代號為 roles。

(3) 案由欄:說明案件原由之文字。民事案件之案由會說明當事人之請求,

如有言詞辯論,則會一併於案由欄指出言詞辯論終結時間點 ;如為 上訴案件,則會說明前一審資訊;如為刑事附帶民事訴訟,則會說明 移送資訊。刑事案件則會說明被告之罪名、起訴之偵察案號、是否有 程序轉換情形;系統搜尋時欄位代號為 gist。

(4) 主文欄:民事案件之主文欄位應記載包括:請求事件之裁判及訴訟費

109 智慧財產法院,網址:http://ipc.judicial.gov.tw/ipr_internet/index.php?

option=com_content&task=view&id=108(最後瀏覽日:2013/05/02)。

用負擔,若有假執行部分,則記載於請求事件之後,系統搜尋時欄位 代號為 main。

(5) 事實及理由欄:事實乃記載當事人之請求、客觀之發生之事實,若事 實發生有先後順序時,則依序說明,理由欄則應記載法院對事實之認 定、據以判決之理由、裁判依據之法條。一般而言,民事案件多將事 實欄及理由欄合併記載,其記載遵守先程序後實體的原則,將雙方請 求、爭點、兩造不爭之事實、法院之認定及總結等事項分別說明;若 有證據引用部分原則上以書證、人證、勘驗、鑑定之順序為之;如一 方未到場說明,亦會記載「一造辯論判決」於文內。系統搜尋時欄位 代號為 reason。

4. 增設字串取代複雜表示式:

(1) 中文 big5 plus 碼字串:利用$C 代表 [\x81-\xFE][\x40-\x7E\x80-\xFE].。

如此協助查詢詞彙與詞彙間可能存在之其他中文字,例如:「上訴 ($C)110*駁回」,可查詢到:「上訴人在第一審之訴駁回」、「上訴人之 訴及假執行之聲請均駁回」、「上訴及附帶上訴均駁回」。

(2) 法律條文字串:利用$L 代表「((第\d+條)?(第\d+項)?(前段|後段)?(,

|、|及))」。因為在判決書中,法官引用條文之寫法通常是先說明法律 名稱,再說明該法中所引用之條文號碼,例如:「著作權法第 84 條、

第 85 條第 1 項、第 88 條第 1 項」。這種寫法會造成單純在檢索欄位 輸入「著作權法第 88 條」搜尋時,無法檢索到該篇判決,如果輸入

「著作權法」及「88 條」,雖然可以搜尋到該篇判決,但如果判決有 包括「著作權法第 85 條」及「民法第 88 條」,也會誤被列搜尋結果;

若利用「著作權法($L)*第 88 條($L)*第 2 項前段」,則包括「著作權 法第 84 條、第 85 條第 1 項、第 88 條第 1 項、第 2 項前段」字串之 判決,可正確列入結果清單,而包含「著作權法第 85 條及民法第 88 條」字串之判決,則不會列入檢索結果清單。

110 本段利用陰影及底線表示符合正規表示式字串之內容。