• 沒有找到結果。

第四章 文字探勘系統

第三節 因子表之建立

詞彙表的基礎概念乃是將具有相類似涵義之關鍵字(Keyword)匯集,可將該涵 義以具象之方式表達,索引典(Thesaurus)為結構化之詞彙表,包含廣義詞和狹義詞 之上下層關係,更能說明該詞彙之主體及意涵。

因為我國並沒有建立專業的法律索引典可供參考,因此本研究建立檢索之詞 彙因子表時必須依靠研究者之觀察以及對法律條文之瞭解111

此外,法律語言具有特殊之用詞及表達方式,分析判決文字即是萃取出判決 中常用固定的語法,利用其作為判斷案件狀況之基礎。例如,在給付之訴中,若 主文中出現「原告之訴駁回」、「訴訟費用由原告負擔」等語,則可確定原告敗訴。

以下簡述本研究因子表建立之原則。

1. 優先利用法律條文號碼搜尋:法條為描述法律概念最簡單扼要、廣為接受 及權威之表達方式,因此在搜尋時,如欲檢索之概念有相對應之法律條文,

盡量優先使用法條號碼搜尋。

2. 利用法條中例示之詞句:法條中常有例示文字,以解釋該條文之意涵或說 明包攝之範圍,例如:著作權法第 17 條中:「著作人享有禁止他人以歪曲、

割裂、竄改或其他方法改變其著作之內容、形式、或名目致損害其名譽之 權利。」條文中列舉了「歪曲」、「割裂」、「竄改」三種方式說明何謂「改 變其著作內容」,此類文字即適合用於擴大同義詞彙表。

3. 優先利用法律專業詞彙搜尋:若單一詞語即可代表固定之法律概念,無須 另行說明時,盡量利用該詞彙檢索,例如:出現「同一性保持」可認為該 案件涉及著作人格權或是改作、衍生著作之問題;出現「共同不法」可認 為該案件討論到共犯之問題;在民事案件出現同一事實之「不起訴處分」,

則可查詢該民事案件是否曾歷經刑事程序等等。

111 目前資訊學界已有研究自動建立詞彙表之研究,主要利用斷詞切字系統進行斷詞並將字詞註記 詞性後,利用各種演算法自動將該相關於該文章之重要詞彙尋獲並標註。

4. 優先選擇出現率較低之詞彙:如果某詞彙太常出現於整體資料庫文件內,

說明該詞彙用於檢索時,較不具有代表性;此概念經常應用於資料或文件 探勘中,稱為「TF-IDF112」,即一個詞彙之重要性與在所有文件中出現之 頻率成反比。如:網路作為一種媒體,經常出現於著作權判決內,如欲檢 索被重製之著作銷售之管道,若僅檢索「網路」,則會出現巨量不相關之 結果,影響效能,若以「拍賣」、「網站」、「露天」、「奇摩」等特定詞彙,

則易檢索到相關裁判。

5. 擴大同義詞群:

(1)本身具有法律意涵之同義詞群:如:出現「慣犯」、「再犯」、「虞犯」、「累 犯」、「常業犯113」、「連續犯」、「前科」等詞彙都表示該案件可能討論到當 事人是否重複犯罪之問題。

(2) 為一般日常用語之同義詞群:如:出現「受雇」、「受僱」、「受聘」、「聘 用」、「聘僱」、「聘請」、「僱用」、「雇用」、「雇佣」、「雇傭」、「出資」、「雇 主」等詞彙則表示該案件涉及討論當事人間僱用關係之疑義或情狀,而於 著作權案件中,可能相關之議題包括著作權歸屬問題、當事人是否有「接 觸」著作之機會等等。

(3) 若上述同義詞群可以擴大並歸納於同一個詞彙表中,則可以達到有效 搜尋判決之目標。

6. 除去不必要之贅詞:在能夠完整表達之前提下,以最少的字數表達欲檢索 之詞彙,可增加檢索之求全率,例如:檢索「防盜拷」,可檢索到:「防盜 拷措施」、「防盜拷設備」,如檢索「防盜拷措施」,則無法檢索出「防盜拷

112 TF 為 Term Frequency,IDF 為 Inverse Document Frequency;TF-IDF 是一種統計方法,用以評估 某一字詞對於一個文件集或一個語料庫中特定文件的重要程度。字詞的重要性隨著它在文件中出現 的次數成正比增加,但同時會隨著它在資料庫中出現的頻率成反比下降。TF-IDF 加權的各種形式 常被搜索引擎應用,作為使用者查詢之文件間相關程度的評量。除了 TF-IDF 以外,網際網路上的 搜尋引擎還會以使用連結分析的評量方法,以確定文件在搜尋結果中出現的順序。

113 著作權法在民國九十五年時配合刑法修正,刪除常業犯規定,但是在查詢修法前之案件時,還 是需要將常業犯此一關鍵字加入,以免有所遺漏。

設備」;檢索「公開傳輸」亦較「公開傳輸權」為佳。

7. 善用正規表示式:如「(一部|部份)(有|無)理」,可檢索「一部有理」、「一部 有理由」、「一部無理」、「一部無理由」、「部份有理」、「部份有理由」、「部 份無理」、「部份無理由」等 8 種結果字串,如果再加上中間可能有頓號或 逗點,可符合之結果字串種類更多。

8. 觀察詞彙出現之欄位:為了避免過於擴張或限縮檢索結果,部份詞彙需加 以限定檢索欄位或加上其他檢索條件協助判讀。例如:「原判決廢棄」可 能出現在主文欄位,代表判決之結果,也可能因上訴人之請求而出現在「事 實及理由」欄位中,因此,在設定檢索字串時,可利用欄位限定之方式,

設定系統將所有「原判決廢棄」出現在主文欄位之案件,判讀為上訴人勝 訴之案件,而不計入「事實及理由」欄之結果。

9. 廢棄裁判部份需排除:部份判決將廢棄之請求記載於主文,需另尋模式排 除之,否則會造成結果之誤計,如主文欄中判斷賠償金額或登報請求之廢 棄部份。