中文裁判書之要旨擷取：以最高法院裁判書為例 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學 ‧. 中文裁判書之要旨擷取：以最高法院裁判書為例 Automatic Extraction of Gist of Chinese Judgments of the Supreme Court n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 研究生：陳冠群指導教授：劉昭麟. 中華民國一百零七年七月 July 2018. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(2) 中文裁判書之要旨擷取：以最高法院裁判書為例 Automatic Extraction of Gist of Chinese Judgments of the Supreme Court 研究生：陳冠群. Student：Kuan-Chun Chen. 指導教授：劉昭麟. Advisor：Chao-Lin Liu. 國立政治大學. 立. 政治大資訊科學系碩士論文. ‧. ‧ 國. 學 A Thesis. Nat. sit. y. submitted to Department of Computer Science. a. er. io. National Chengchi University. n. v in partial lfulfillment of the requirements ni Ch. U i e h n c g for the degree of Master in. Computer Science. 中華民國一百零七年七月 July 2018. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(3) 中文裁判書之要旨擷取：以最高法院裁判書為例. 摘要. 裁判書為法律實務工作者與研究者在處理法律問題時之重要參考資料。從裁判書中可得知法院於先前案件中對特定法律問題所持之見解。但裁判書中除較具參考價值之法院見解外，尚包含其他較無法適用至其他案件之資訊。因此導致閱讀裁判書時經常需耗費大量時間與精力。. 治政大目前雖有部份裁判書具有由法院所製作之裁判要旨，將裁判書中較具參考價值立部份摘錄為裁判要旨。但人工製作裁判要旨之效率不佳，因此僅有少數裁判書 ‧ 國. 學. 具有由法院所製作之裁判要旨。且具有裁判要旨之裁判書多為最高法院之裁判書，下級審法院之裁判書幾乎皆不具有裁判要旨。若能從裁判書中自動擷取裁. ‧. 判要旨，將可改善由人工製作裁判要旨效率不佳之問題。. sit. y. Nat. 本研究之目的為應用機器學習技術從裁判書中自動擷取裁判要旨，並分別提出. er. io. 自動擷取裁判要旨之方法以及評估裁判要旨擷取結果之方法。. n. al 關於裁判要旨擷取方法部份，本研究將擷取裁判要旨之工作轉換為序列標記問 iv. n U e n等機器學習技術建立分類模型，對裁判書題，利用深度學習及 gradient boosting gchi. Ch. 之裁判理由進行分句標記，從裁判理由中擷取裁判要旨。本研究亦使用不同之特徵、分類模型、模型訓練方法改善裁判要旨擷取之結果。關於擷取結果評估方法部份，本研究以法院製作之裁判要旨與自動擷取之裁判要旨進行比對，並且計算 precision、recall 及 F1 score 等指標，藉以評估裁判要旨擷取之結果。. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(4) 關於實驗設計部份，以最高法院之裁判書做為實驗語料，分別進行與特徵相關之實驗以及與裁判要旨擷取模型相關之實驗。與特徵相關之各項實驗，目的為觀察加入各項特徵對裁判要旨擷取結果之影響。與裁判要旨擷取模型相關之各項實驗，目的則為觀察使用不同之機器學習方法及模型訓練方法建立分類模型對裁判要旨擷取結果之影響。關於實驗結果部份，在與特徵相關之各項實驗中，可驗證本研究所使用之各項特徵皆有助於改善裁判要旨擷取之結果。在與裁判要旨擷取模型相關之實驗中做為比較基準之 random forest 方法在 F1 score 上可達到 0.56。本研究所使用之深度學習方法及 gradient boosting 方法，在 F1 score 上則可分別達到 0.91 及. 政治大. 0.85 。利用 ensemble 方法結合多種模型後，更可進一步將 F1 score 提昇至. 立. 0.93。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(5) Automatic Extraction of Gist of Chinese Judgments of the Supreme Court. Abstract. Judgments of the courts are important judicial references for legal practitioners and researchers in the practice of the legal issues. Previous decision-making judgments of the court for specific cases can be found in the judgments. Reading judgments often. 政治大. takes much time and effort since it contains too much information which is less. 立. applicable to case by case.. ‧ 國. 學. At present, the gist of judgments has been extracted by the senior judges hired by the court. However, this working is not common since it is not efficient done by human. ‧. beings. In addition, most of the extraction has been done for the judgments of the. y. Nat. Supreme Court. Only little extraction has been done for the judgments of the lower. sit. courts. If the gist of judgments could be automatically extracted from the judgments,. er. io. it will effectively improve the insufficient quality when it done by human beings.. n. a. v. i The objective of this study is lusing to extract the gist of C machine learningnmethod. hengchi U. judgments. In this study, we propose the approach to extracting the gist of judgments and evaluate the performance of extraction results. With the approach to extracting the gist of judgments, this study transfer gist extracting task for sequence labeling task. Using machine learning based approach, e.g. deep learning and gradient boosting, to establish classifiers. And then, we use the classifier to extract the gist. This study also uses different features, classifiers and machine learning methods to improve the results of gist extraction.. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(6) This study compares automatic extraction with artificial extraction by calculating the indicator such as precision, recall, and F1 score to evaluate the results of gist extraction with automatic method. We run feature related experiments and gist extraction model related experiments on the corpora of judgments of the Supreme Court. The aim of feature related experiments is to observe the extraction results with adding different features. The aim of gist extraction model related experiments is to observe the extraction results with using different classifiers and machine learning methods. In our feature related experiments, we observed that all the proposed features in this. 政治大. study could improve the performance of gist extraction results.. 立. In our gist extraction model related experiments, we use random forest method as our. ‧ 國. 學. baseline with a F1 of 0.56. In our study, we obtained a F1 of 0.91 by deep learningbased model and a F1 of 0.85 by gradient boosting-based model, respectively.. ‧. Furthermore, the results show that using ensemble learning method with multiple classifiers could achieves a F1 of 0.93.. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(7) 誌謝. 在學習以及研究的過程中，受到許多支持與幫助，謹於此致謝之。首要感謝者為指導教授劉昭麟老師之指導。在每次討論中，總是能使我學習到更多知識。在碰到困難時，亦能指引我解決問題的方向。感謝擔任口試委員的洪振洲老師及王昱鈞老師，在論文口試中指正論文的瑕疵並提供許多寶貴的建議，使此篇論文得以更加完善。感謝 MIG 的張逸、子皓、育增、植琨以及禔雍，無論任何事物總是能與你們討. 治政論、分享，並且與你們共同度過在實驗室的歡樂時光。特別感謝張逸在研究過大立程中的陪伴，共同解決研究中所遇到的問題，在研究以外之事務亦提供諸多協 ‧ 國. 學. 助。. 在就讀研究所的這段期間，感謝教授各項課程的老師們所提供的指導，以及一. ‧. 起學習的同學們在學習過程中的陪伴。特別感謝使我具有持續努力之動力且總. sit. y. Nat. 是使我感到開心的同學。. n. al. er. io. 最後感謝家人的支持，使我能心無旁鶩的完成研究所之學業。. Ch. engchi. i n U. v. 陳冠群 2018 年 7 月 25 日機器智能實驗室. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(8) 目錄 1 緒論..................................................................................................................................... 1 1.1 研究背景與動機..........................................................................................................1 1.2 研究目的...................................................................................................................... 1 1.3 主要貢獻...................................................................................................................... 1 1.4 論文架構...................................................................................................................... 2 2 文獻回顧............................................................................................................................. 3 2.1 應用自然語言處理技術於中文裁判書......................................................................3. 政治大 2.1.2 案件分類或分群...................................................................................................3 立 2.1.1 裁判檢索系統......................................................................................................3. ‧ 國. 學. 2.1.3 裁判因素分析與結果預測...................................................................................4 2.2 以機器學習為基礎之自動摘要..................................................................................5. ‧. 3 語料來源與系統架構.........................................................................................................6 3.1 語料來源...................................................................................................................... 6. y. Nat. sit. 3.1.1 最高法院裁判書...................................................................................................6. n. a. er. io. 3.1.2 司法院各級法院裁判書.......................................................................................6. v. l 3.2 系統架構...................................................................................................................... 7 ni. Ch. i U. engch 4 語料前處理......................................................................................................................... 9 4.1 原始資料解析..............................................................................................................9 4.1.1 HTML 文字區塊擷取.........................................................................................10 4.1.2 裁判全文段落切割.............................................................................................10 4.1.3 裁判要旨註解去除.............................................................................................11 4.1.4 裁判要旨及裁判理由之分句切割.....................................................................12 4.1.5 JSON 格式轉換與儲存......................................................................................13 4.2 斷詞及詞性標記........................................................................................................14. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(9) 4.2.1 自動斷詞系統.....................................................................................................14 4.2.2 斷詞結果............................................................................................................14 4.2.3 詞性標記結果.....................................................................................................15 4.3 裁判要旨與裁判理由之對應....................................................................................15 4.3.1 分句對應關係計算方法.........................................................................................15 4.3.2 分句異同判斷方式之改良.................................................................................17 5 特徵擷取........................................................................................................................... 20 5.1 基本特徵....................................................................................................................20 5.2 裁判特徵....................................................................................................................21. 政治大. 5.2.1 裁判類型............................................................................................................21. 立. 5.2.2 裁判性質............................................................................................................21. ‧ 國. 學. 5.2.3 案件字別............................................................................................................21 5.2.4 裁判時間............................................................................................................22. ‧. 5.3 分句標記特徵............................................................................................................23. y. Nat. 5.3.1 規則式分句標記.................................................................................................23. io. sit. 5.3.2 法規名稱標記.....................................................................................................25. er. 5.4 詞彙特徵....................................................................................................................27. n. a. iv. l C 5.4.1 Word embedding 模型........................................................................................27 n. hengchi U. 5.4.2 特徵擷取方式.....................................................................................................27 5.5 詞性特徵....................................................................................................................28 5.6 句首詞彙特徵............................................................................................................28 5.7 特徵型態....................................................................................................................29 6 裁判要旨擷取模型...........................................................................................................30 6.1 裁判要旨擷取模型之建立........................................................................................30 6.2 深度學習模型............................................................................................................30 6.2.1 Fully-connected neural networks........................................................................30. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(10) 6.2.2 Recurrent neural networks..................................................................................31 6.2.3 混合式模型........................................................................................................32 6.3 Gradient boosting 模型..............................................................................................33 6.4 兩階段學習方法........................................................................................................34 6.5 半監督式學習方法....................................................................................................35 6.6 Ensemble 學習方法...................................................................................................35 7 實驗設計與結果分析.......................................................................................................37 7.1 實驗語料....................................................................................................................37 7.2 實驗結果評估方法....................................................................................................37. 政治大. 7.3 實驗參數....................................................................................................................38. 立. 7.4 基本特徵及裁判特徵實驗........................................................................................39. ‧ 國. 學. 7.4.1 實驗設計............................................................................................................39 7.4.2 結果分析............................................................................................................40. ‧. 7.5 分句標記特徵實驗....................................................................................................42. y. Nat. 7.5.1 實驗設計............................................................................................................42. io. sit. 7.5.2 結果分析............................................................................................................42. er. 7.6 詞彙特徵實驗............................................................................................................44. n. a. v. l C 7.6.1 實驗設計............................................................................................................44 ni. hengchi U. 7.6.2 結果分析............................................................................................................44 7.7 詞性特徵實驗............................................................................................................45 7.7.1 實驗設計............................................................................................................45 7.7.2 結果分析............................................................................................................46 7.8 句首詞彙特徵實驗....................................................................................................47 7.8.1 實驗設計............................................................................................................47 7.8.2 結果分析............................................................................................................48 7.9 分類模型實驗............................................................................................................49. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(11) 7.9.1 實驗設計............................................................................................................49 7.9.2 結果分析............................................................................................................49 7.10 兩階段學習方法實驗..............................................................................................50 7.10.1 實驗設計..........................................................................................................50 7.10.2 結果分析..........................................................................................................51 7.11 半監督式學習方法實驗..........................................................................................52 7.11.1 實驗設計...........................................................................................................52 7.11.2 結果分析...........................................................................................................53 7.12 Ensemble 學習方法實驗.........................................................................................54. 政治大. 7.12.1 實驗設計..........................................................................................................54. 立. 7.12.2 結果分析..........................................................................................................54. ‧ 國. 學. 8 結論與未來展望...............................................................................................................56 8.1 結論............................................................................................................................ 56. ‧. 8.2 未來展望....................................................................................................................56. y. Nat. 參考文獻.............................................................................................................................. 58. n. al. er. io. sit. 附錄...................................................................................................................................... 61. Ch. engchi. i n U. v. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(12) 表目錄表 1: 文字區塊擷取範例......................................................................................................9 表 2: 裁判全文段落切割範例............................................................................................10 表 3: 裁判要旨註解去除範例............................................................................................11 表 4: 裁判理由分句切割範例............................................................................................12 表 5: JSON 格式範例..........................................................................................................13 表 6: 斷詞結果....................................................................................................................14. 政治大. 表 7: 詞性標記結果............................................................................................................15. 立. 表 8: 分句對應關係範例....................................................................................................16. ‧ 國. 學. 表 9: 字元對應比例範例....................................................................................................18 表 10: 平均分句對應比例..................................................................................................19. ‧. 表 11: 裁判類型.................................................................................................................. 21. y. Nat. 表 12: 裁判性質..................................................................................................................21. io. sit. 表 13: 案件字別..................................................................................................................22. er. 表 14: 規則式分句標記範例..............................................................................................24. n. a. iv. l C 表 15: 裁判理由特定撰寫格式範例（一）.......................................................................25 n. hengchi U. 表 16: 裁判理由特定撰寫格式範例（二）.......................................................................25 表 17: 法規名稱標記範例..................................................................................................26 表 18: 句首詞彙範例..........................................................................................................29 表 19: 特徵型態分類..........................................................................................................29 表 20: 實驗語料統計..........................................................................................................37 表 21: 混淆矩陣..................................................................................................................38 表 22: 語料前處理及特徵擷取參數設定...........................................................................39 表 23: 分類模型參數設定..................................................................................................39. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(13) 表 24: 深度學習模型網路結構設定..................................................................................39 表 25: 基本特徵及裁判特徵實驗設定..............................................................................40 表 26: 基本特徵及裁判特徵實驗結果..............................................................................40 表 27: 分句標記特徵實驗設定..........................................................................................42 表 28: 分句標記特徵實驗結果..........................................................................................42 表 29: 詞彙特徵實驗設定..................................................................................................44 表 30: 詞彙特徵實驗結果..................................................................................................45 表 31: 詞性特徵實驗設定..................................................................................................46 表 32: 詞性特徵實驗結果..................................................................................................46. 政治大. 表 33: 句首詞彙特徵實驗設定..........................................................................................47. 立. 表 34: 句首詞彙特徵實驗結果..........................................................................................48. ‧ 國. 學. 表 35: 分類模型實驗設定..................................................................................................49 表 36: 分類模型實驗結果..................................................................................................49. ‧. 表 37: 兩階段學習方法實驗設定......................................................................................51. sit. y. Nat. 表 38: 兩階段學習方法實驗結果......................................................................................51. io. er. 表 39: 半監督式學習方法實驗設定..................................................................................52 表 40: 半監督式學習方法實驗結果..................................................................................53. al. n. v i n Ch 41: Ensemble 學習方法實驗設定..................................................................................54 engchi U 42: Ensemble 學習方法實驗結果..................................................................................54. 表表. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(14) 圖目錄圖 1: 系統架構流程圖..........................................................................................................8 圖 2: 裁判時間分佈圖........................................................................................................23 圖 3: Fully-connected neural network 範例........................................................................31 圖 4: RNN 範例..................................................................................................................32 圖 5: 混合式模型範例........................................................................................................33 圖 6: 基本特徵及裁判特徵實驗結果（5-layer NN）......................................................41. 政治大. 圖 7: 基本特徵及裁判特徵實驗結果（gradient boosting）.............................................41. 立. 圖 8: 分句標記特徵實驗結果（5-layer NN）..................................................................43. ‧ 國. 學. 圖 9: 分句標記特徵實驗結果（gradient boosting）.........................................................43 圖 10: 詞性特徵實驗結果..................................................................................................47. ‧. 圖 11: 句首詞彙特徵實驗結果..........................................................................................48. y. Nat. 圖 12: 分類模型實驗結果..................................................................................................50. io. sit. 圖 13: 兩階段學習方法實驗結果......................................................................................52. er. 圖 14: 半監督式學習方法實驗結果..................................................................................53. n. a. iv. l C 圖 15: Ensemble 學習方法實驗結果..................................................................................55 n. hengchi U. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(15) 1 緒論 1.1 研究背景與動機法院之裁判書為法律實務工作者或研究者在處理法律問題時之重要參考資料。從裁判書中可得知法院在過去的案件中處理特定問題時所持之法律見解。但裁判書中除了較具有參考價值之法院見解外，尚包含其他較無法適用至其他案件之文字資訊。因此在閱讀裁判書時經常需耗費大量時間與精力。目前雖有部份裁判書具有由法院聘請資深法官所製作之裁判要旨，將裁判書中較具有參考價值之部份摘錄為裁判要旨。但由人工製作裁判要旨之效率不高，因此僅有少數裁判書具有由法院所製作之裁判要旨。且具有法院製作裁判要旨之裁判書大多為最高法院之裁判書，下級. 政治大由人工製作裁判要旨效率過低之問題。立. 審法院之裁判書幾乎皆不具有裁判要旨。若能從裁判書中自動擷取裁判要旨，將可有效改善. ‧ 國. 學. 1.2 研究目的. 本研究目的為應用機器學習技術從裁判書之裁判理由中擷取裁判要旨，以改善由人工製作裁. ‧. 判要旨效率低落之問題，並藉此提昇使用者閱讀裁判書之效率。本研究之目標如下：. sit. y. Nat. 1. 提出從裁判書中擷取裁判要旨之方法。. io. al. er. 2. 評估自動擷取裁判要旨之結果。. n. 3. 改善自動擷取裁判要旨之結果。. 1.3 主要貢獻. Ch. engchi. i n U. v. 本研究分別提出從裁判書中擷取裁判要旨之方法以及評估裁判要旨擷取結果之方法。關於裁判要旨擷取方法部份，本研究將擷取裁判要旨之工作轉換為序列標記問題，利用深度學習及 gradient boosting [1]等機器學習技術建立分類模型，對裁判書之裁判理由進行分句標記，從裁判理由中擷取裁判要旨。本研究亦使用不同之特徵、分類模型、模型訓練方法改善裁判要旨擷取之結果。關於擷取結果評估方法部份，以最高法院之裁判書做為實驗語料，透過實驗驗證本研究所提出之裁判要旨擷取方法。以法院製作之裁判要旨與自動擷取之裁判要旨進行比對，並且計算 precision、recall 及 F1 score 等指標[2]，藉以評估裁判要旨擷取之結果。 1. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(16) 關於實驗結果部份，本研究分別進行與特徵相關之實驗以及與裁判要旨擷取模型相關之實驗。在與特徵相關之各項實驗中，可驗證本研究所使用之各項特徵皆有助於改善裁判要旨擷取之結果。在與裁判要旨擷取模型相關之各項實驗中，本研究所使用之深度學習方法及 gradient boosting 方法，在 F1 score 上可分別達到 0.91 及 0.85 以上。利用 ensemble 方法結合多種模型後，更可進一步將 F1 score 提昇至 0.93 以上。. 1.4 論文架構本論文共分為八章。第一章介紹本研究之背景、動機、目的及主要貢獻。第二章回顧與本研究相關之先前研究。第三章為本研究所使用之語料以及主要系統架構、流程。第四章為語料之前處理步驟，主要分為「原始資料解析」、「斷詞及詞性標記」及「裁判要旨與裁判理由之對應」三部份。第五章介紹裁判要旨擷取模型需使用之各項特徵。第六章說明如何以分類. 政治大本研究所提出之裁判要旨擷取方法。第八章為本研究所提出之結論及未來可進行之工作。立. 模型為基礎建立裁判要旨擷取模型，以及本研究所使用之各類分類模型。第七章以實驗驗證. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 2. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(17) 2 文獻回顧與本研究相關之先前研究可分為兩種類型，分別為「應用自然語言處理技術於中文裁判書之相關研究」以及「以機器學習為基礎之自動摘要相關研究」，以下分別介紹。. 2.1 應用自然語言處理技術於中文裁判書過往將自然語言處理技術應用於中文裁判書之相關研究可依其研究目的分為「裁判檢索系統」、「案件分類或分群」及「裁判因素分析與結果預測」等三種類型，以下分別介紹各類型之相關研究。. 2.1.1 裁判檢索系統. 政治大. 此類型相關研究之主要目的為開發、改善裁判檢索系統，提昇使用者之檢索效率或增進檢索結果之準確率。. 立. 謝淳達[3]利用裁判書事實段落中的詞彙組合為基礎改善裁判檢索之效果。在研究中分別提. ‧ 國. 學. 出從裁判書中自動擷取中文詞彙之方法、從裁判書事實段落中擷取重要詞組之方法、以詞組搜尋相似案例之方法。並將其所提出之方法應用於案件分類及裁判檢索系統。. ‧. 藍家樑[4]利用階層式分群法改善裁判檢索系統，將檢索結果進行分群，以提昇使用者之檢. y. sit. io. er. 2.1.2 案件分類或分群. Nat. 索效率。並且利用共現詞彙提供相關詞彙檢索功能，建立互動式之裁判檢索系統。. al. v i n Ch 廖鼎銘[5]以案例式推論系統為基礎進行賭博與竊盜案件之分類。並進一步將案例式推論系 engchi U n. 此類型之相關研究使用不同方法將裁判書依其案由進行分類或分群。. 統與專家知識所建立之規則結合，以改善分類效果。另外提出對裁判書事實段落進行語意段落自動標記之方法，用以擷取案件事實之抽象結構。何君豪[6]以階層式分群法進行民事裁判要旨之分群。研究中提出計算民事裁判要旨相似度之方法，比較各類階層式分群法適用於民事裁判要旨分群之效果，並以法律關鍵詞加權之方式改善分群效果。鄭人豪[7]比較以不同方式建立詞組對裁判分類結果之影響。在研究中提出使用一般辭典及專業辭典分別建立詞組之方法，以及兩種特徵詞組權重計算方式（ term pair frequency –. 3. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(18) inverse document frequency 及 term pair frequency – inverse category frequency）。並比較以不同詞組來源及詞組權重計算方式對於以 k-nearest neighbor（kNN）1進行裁判分類結果之影響。林琬真[8]以條件隨機場（conditional random field）2及預先定義之構成要件要素對裁判書之內文進行標記。並以標記結果做為特徵，利用 LIBLINEAR3及 logistic model tree4將裁判書區分為強盜案件及恐嚇取財案件兩種類別。. 2.1.3 裁判因素分析與結果預測此類型之相關研究從裁判書中擷取裁判因素，並以裁判因素進行裁判結果預測或分析各項裁判因素與裁判結果間之關聯。林琬真[8]以人工或自動標記之構成要件要素做為特徵，利用 additive regression5預測強盜及. 治政大黃玉婷[9]提出從涉及商標法之刑事有罪判決書中擷取求刑及量刑因子之方法。以正規表示立式（regular expression）[10]從判決書中擷取「因子所在段」，將關鍵詞進行分群，並以人工. 恐嚇取財案件之量刑結果，並分析各項特徵對量刑結果之影響。. ‧ 國. 學. 標記方式將分群結果對應至刑法所規範之量刑標準，以取得特定類型案件之求刑及量刑因子。林筱瓴[11]建立著作權法相關民事判決之因子表，提出以正規表示式從判決書中擷取相關因. ‧. 子之方法，並分析各項因子間之關聯。. y. Nat. 陳政瑜[12]分析刑事訴訟停止羈押聲請裁定書之文本撰寫一致性與各項關鍵影響因子（例：. n. al. er. io. 聯性。. sit. 裁判時間、裁判法院、涉案罪名）間之關聯性。並分析各項關鍵影響因子與裁判結果間之關. i n U. v. 黃詩淳[13][14]等提出預測「酌定未成年子女親權人事件」裁判結果之方法。預先定義此類. Ch. engchi. 事件中法院所審酌之因素，以人工標記方式對裁判書進行編碼。分別使用類神經網路及決策樹以法院審酌因素做為特徵預測法院之裁判結果，並分析各項法院審酌因素與裁判結果間之關聯。. 1 2. 3 4 5. Naomi Altman. 1992. An introduction to kernel and nearest-neighbor nonparametric regression. The American Statistician, 46:3, 175-185. DOI: https://doi.org/10.1080/00031305.1992.10475879 John D. Lafferty, Andrew McCallum, and Fernando C. N. Pereira. 2001. Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In Proceedings of the Eighteenth International Conference on Machine Learning (ICML '01), Carla E. Brodley and Andrea Pohoreckyj Danyluk (Eds.). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA, 282-289. Rong-En Fan, Kai-Wei Chang, Cho-Jui Hsieh, Xiang-Rui Wang, and Chih-Jen Lin. 2008. LIBLINEAR: A library for large linear classification. Journal of Machine Learning Research, 9 (June 2008), 1871-1874. Niels Landwehr, Mark Hall, and Eibe Frank. 2005. Logistic model trees. Machine Learning, 59, 1-2 (May 2005), 161-205. DOI=http://dx.doi.org/10.1007/s10994-005-0466-3 Additive Regression. http://weka.sourceforge.net/doc.dev/weka/classifiers/meta/AdditiveRegression.html. 4. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(19) 2.2 以機器學習為基礎之自動摘要本研究利用以機器學習為基礎之方法從裁判書之裁判理由中擷取裁判要旨，與抽取式自動摘要（extractive summarization）技術具有不少關聯，以下介紹以機器學習為基礎之抽取式自動摘要相關研究。 Dou Shen [15]等提出以條件隨機場為基礎之自動摘要架構。在其所提出之自動摘要架構中，自動摘要問題被轉換為序列標記問題，文件可被視為以句子組成之序列，因此自動摘要之工作等同於對文件中的每個句子依序標記為「摘要」或「非摘要」，利用條件隨機場對文件進行標記後，再將被標記為摘要之句子抽出組合為文件摘要。 Kam-Fai Wong [16]等提出監督式與半監督式之自動摘要方法。關於監督式自動摘要方法之部份，利用句子位置、包含詞彙數量、詞彙出現頻率、詞性、實體名詞、與文件或段落首句之. 政治大分為「摘要」或「非摘要」。關於半監督式自動摘要方法之部份，加入無要旨標記之語料做立為訓練資料。先利用有要旨標記之語料訓練分類模型後，再以分類模型對無要旨標記之語料相關性等特徵表示文件中的句子，並以 probabilistic support vector machine（PSVM）6將句子. ‧ 國. 學. 進行預測，並取信心水準較高之預測結果加入有要旨標記之語料，直到所有無要旨標記之語料皆被標記完成。在進行半監督式自動摘要方法之實驗時，採用 PSVM 與 naive Bayes. ‧. classifier7共同進行要旨標記。. y. Nat. Jianpeng Cheng [17]等提出以類神經網路為基礎之抽取式自動摘要模型。該模型使用 encoder-. sit. decoder 架構8及 attention 機制9，可適用於句或詞彙之摘要抽取。以句為單位進行摘要抽取時，. er. io. 摘要抽取模型可分為三階段，分別為 sentence encoder 、 document encoder 及 sentence. al. extractor。第一階段之以句所包含之詞彙做為輸入，使用 convolution neural network（CNN）. n. v i n [18]轉換為句表示法。第二階段將句表示法依序輸入 recurrent neural network（RNN）[19]， Ch U i e h n c g 並以 RNN 之輸出做為文件表示法。第三階段以文件表示法做為輸入，使用另一組 RNN 標記文件中各句是否應被選為摘要。. 6 7 8. 9. Ting-Fan Wu, Chih-Jen Lin, and Ruby C. Weng. 2004. Probability estimates for multi-class classification by pairwise coupling. Journal of Machine Learning Research, 5 (December 2004), 975-1005. Ethem Alpaydin. 2010. Introduction to Machine Learning (2nd ed.). The MIT Press. 396-398. Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk and Yoshua Bengio. 2014. Learning phrase representations using RNN encoder-decoder for statistical machine translation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP 2014). Association for Computational Linguistics, Doha, Qatar, 1724–1734. Dzmitry Bahdanau, Kyunghyun Cho and Yoshua Bengio. 2015. Neural machine translation by jointly learning to align and translate. arXiv:1409.0473. Retrieved from https://arxiv.org/abs/1409.0473. 5. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(20) 3 語料來源與系統架構 3.1 語料來源 3.1.1 最高法院裁判書本研究使用之主要語料為自司法院法學資料檢索系統 10取得之最高法院裁判書。取得範圍為「判解函釋」資料庫之「最高法院判例」及「最高法院裁判」類別，時間範圍為 1927 年至 2017 年。共計取得 34496 篇裁判書，包含 8557 篇最高法院判例及 25939 篇最高法院裁判。本研究需使用各裁判書之裁判要旨以及裁判全文中之理由段落。部份裁判書僅有裁判要旨而無裁判全文或僅有裁判全文而無裁判要旨，因此需篩除無裁判要旨或無裁判全文之裁判書。. 政治大以下分別說明「最高法院判例」及「最高法院裁判」兩類語料：立. 篩除後剩餘 30554 篇裁判書，包含 5002 篇最高法院判例及 25552 篇最高法院裁判。. ‧ 國. 學. 1. 最高法院判例. 本類別語料之原始來源為最高法院出版之《最高法院判例要旨》及《最高法院判例全文彙. ‧. 編》。最高法院判例之選編係依《法院組織法》第 57 條及《最高法院判例選編及變更實施要點》，就最高法院裁判之法律見解認有編為判例之必要者，經民事庭會議、刑事庭會議或. y. sit. io. al. er. 2. 最高法院裁判. Nat. 民刑事庭總會議決議後編列。. n. 本類別語料之原始來源為最高法院出版之《最高法院民刑事裁判選輯》、《最高法院民刑事. Ch. i n U. v. 裁判書彙編》及《最高法院民刑事庭所製作具有參考價值之裁判要旨》以及司法院出版之. engchi. 《司法院公報》所刊登之最高法院裁判。. 3.1.2 司法院各級法院裁判書本研究使用之輔助語料為自政府資料開放平台 11取得之「司法院各級法院裁判書」資料集。取得時間範圍為 1996 年 1 月至 2017 年 12 月。該資料集包含各審級法院之裁判書，以裁判法院為最高法院為條件篩選後取得 276189 篇裁判書。「司法院各級法院裁判書」資料集僅收錄裁判書之裁判全文，並無經由人工編輯製作之裁判要旨，因此無法做為監督式機器學習方法之訓練資料。本研究以該資料集為輔助語料，用於半監督式機器學習方法，以增加訓練資料之數量。 10 司法院法學資料檢索系統，http://jirs.judicial.gov.tw/Index.htm。 11 政府資料開放平臺，https://data.gov.tw/。. 6. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(21) 3.2 系統架構本研究之系統架構可分為「語料取得」、「語料前處理」、「特徵擷取」及「裁判要旨擷取」四部份，以下分別簡介各項流程： 1. 語料取得從語料來源取得裁判書之原始資料。 2. 語料前處理從原始資料中擷取研究所需之語料，並進行斷詞、詞性標記、分句對應關係計算等程序。 3. 特徵擷取. 政治大. 將裁判理由中之分句轉換為數值型態之特徵，以做為裁判要旨擷取模型之輸入資料。 4. 裁判要旨擷取. 立. 將分句特徵及分句對應關係標記整合後隨機劃分為訓練資料、驗證資料以及測試資料。. ‧ 國. 學. 以訓練資料及驗證資料訓練分類模型。使用訓練後之分類模型對測試資料進行預測，並評估分類模型之預測結果。. ‧. 本研究之系統架構流程圖如圖 1。. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 7. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(22) 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 1: 系統架構流程圖 8. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(23) 4 語料前處理 4.1 原始資料解析自司法院法學資料檢索系統取得之最高法院裁判書為 HTML 格式之網頁檔案，無法直接用以進行分析，因此需先從原始資料中擷取研究所需之語料，並轉換為易於程式處理之格式。本章節介紹擷取文字區塊、切割段落、去除註解、切割分句、轉換儲存格式之方法與步驟。表 1: 文字區塊擷取範例文字區塊名稱. 文字區塊擷取結果. 裁判字號. 83 年度台上字第 1865 號. 案由摘要. 違反著作權法. 裁判日期. 民國 83 年 04 月 01 日. 裁判要旨. 著作權法第九十八條規定「犯第九十一條至第九十五條之罪，供犯罪所用或因犯罪所得之物沒收之」，係刑法第三十八條第三項但書之特別規定，採義務沒收主義。如能認定確係供犯罪所用或因犯罪所得之物，均應宣告沒收，不以當場搜獲扣押者為限，原判決既認定上訴人擅自公開播放如原判決附表一所示之錄影帶為常業，則該錄影帶係上訴人犯著作權法第九十四條所用之物，竟未予以宣告沒收，自非適法。. 政治大. 上訴人. 學. ‧ 國. 立. 王泓仁. ‧. 男民國○○○年○月○○○日生身分證統一編號Ｚ０００００００００業工住臺灣省台南縣學甲鎮佳里興二五五之三號右上訴人因違反著作權法案件，不服台灣高等法院台南分院中華民國八十二年六月二十九日第二審判決（八十一年度上訴字第二四六七號，起訴案號：台灣台南地方法院檢察署八十一年度偵字第九五四六號），提起上訴，本院判決如左：主文原判決撤銷，發回台灣高等法院台南分院。理由本件原判決認定上訴人王泓仁自民國八十一年五月間起，在台南縣學甲鎮○○路九十四號經營「新世紀有線視訊」有線電視台，未經著作權人之同意，擅自公開播送原判決附表一所示錄影帶，並以之為常業，嗣於八十一年七月二十九日上午十時四十分許，經台南縣調查站人員會同台南縣政府新聞室及警方人員在台南縣學甲鎮○○路九四號及同鎮○○路八六號當場查獲，並扣得如原判決附表二所示盜版錄影帶等情。因而撤銷第一審判決，仍論處上訴人擅自以公開播送侵害他人之著作財產權為常業罪刑，固非無見。惟查：沒收之物，須於犯罪事實中有具體之記載，始為合法，否則諭知沒收，即難謂有事實之根據。原判決於主文內宣告「附表二、三所示物品沒收」，然事實欄內並無該「附表三」物品之記載，且此附表三之物品與上訴人違反本件著作權法究有如何關係亦不明確，遽予諭知沒收，顯屬於法有違。又著作權法第九十八條規定「犯第九十一條至第九十五條之罪，供犯罪所用或因犯罪所得之物沒收之」，係刑法第三十八條第三項但書之特別規定，採義務沒收主義。如能認定確係供犯罪所用或因犯罪所得之物，均應宣告沒收，不以當場搜獲扣押者為限，原判決既認定上訴人擅自公開播放如原判決附表一所示之錄影帶為常業，則該錄影帶係上訴人犯著作權法第九十四條所用之物，竟未予以宣告沒收，自非適法。上訴意旨雖未指摘及此，但為本院得依職權調查之事項，應認有發回更審之原因。據上論結，應依刑事訴訟法第三百九十七條、第四百零一條，判決如主文。中華民國八十三年四月一日最高法院刑事第八庭審判長法官施文仁法官陳錫奎法官王景山法官陳炳煌法官張淳淙右正本證明與原本無異書記官中華民國八十三年四月七日. n. er. io. sit. y. Nat. al. 裁判全文. Ch. engchi. i n U. v. 9. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(24) 4.1.1 HTML 文字區塊擷取以正規表示式（regular expression）[10]從 HTML 格式之原始資料中擷取裁判要旨、裁判全文、裁判字號、裁判日期及案由摘要等文字區塊。表 1 為以最高法院 83 年度台上字第 1865 號判決為例之文字區塊擷取結果。. 4.1.2 裁判全文段落切割裁判全文中包含當事人、主文、事實、理由、裁判日期、法院及法官姓名…等段落。本研究所需使用之部份為裁判理由段落，因此利用裁判書中常見之特定段落標題（例：主文、事實、理由、事實及理由）將裁判全文切割為數段落，並擷取其中之裁判理由段落。表 2 為以最高法院 83 年度台上字第 1865 號判決為例之段落切割範例。表 2: 裁判全文段落切割範例段落名稱. 政治大段落內容. 上訴人當事人. 立. 王泓仁. 男民國○○○年○月○○○日生身分證統一編號Ｚ０００００００００業工住臺灣省台南縣學甲鎮佳里興二五五之三號. ‧ 國. 學. 右上訴人因違反著作權法案件，不服台灣高等法院台南分院中華民國八十二年六月二十九日第二審判決（八十一年度上訴字第二四六七號，起訴案號：台灣台南地方法院檢察署八十一年度偵字第九五四六號），提起上訴，本院判決如左：. 主文. 原判決撤銷，發回台灣高等法院台南分院。. ‧. 案由. n. al. er. io. sit. y. Nat. 本件原判決認定上訴人王泓仁自民國八十一年五月間起，在台南縣學甲鎮○○路九十四號經營「新世紀有線視訊」有線電視台，未經著作權人之同意，擅自公開播送原判決附表一所示錄影帶，並以之為常業，嗣於八十一年七月二十九日上午十時四十分許，經台南縣調查站人員會同台南縣政府新聞室及警方人員在台南縣學甲鎮○○路九四號及同鎮○○路八六號當場查獲，並扣得如原判決附表二所示盜版錄影帶等情。因而撤銷第一審判決，仍論處上訴人擅自以公開播送侵害他人之著作財產權為常業罪刑，固非無見。惟查：沒收之物，須於犯罪事實中有具體之記載，始為合法，否則諭知沒收，即難謂有事實之根據。原判決於主文內宣告「附表二、三所示物品沒收」，然事實欄內並無該「附表三」物品之記載，且此附表三之物品與上訴人違反本件著作權法究有如何關係亦不明確，遽予諭知沒收，顯屬於法有違。又著作權法第九十八條規定「犯第九十一條至第九十五條之罪，供犯罪所用或因犯罪所得之物沒收之」，係刑法第三十八條第三項但書之特別規定，採義務沒收主義。如能認定確係供犯罪所用或因犯罪所得之物，均應宣告沒收，不以當場搜獲扣押者為限，原判決既認定上訴人擅自公開播放如原判決附表一所示之錄影帶為常業，則該錄影帶係上訴人犯著作權法第九十四條所用之物，竟未予以宣告沒收，自非適法。上訴意旨雖未指摘及此，但為本院得依職權調查之事項，應認有發回更審之原因。據上論結，應依刑事訴訟法第三百九十七條、第四百零一條，判決如主文。. 裁判理由. 裁判日期. 中. 華. 民. Ch. engchi. 國. 法院及法官. 八十三. i n U. v. 年. 四. 月. 最高法院刑事第八庭審判長法官施法官陳法官王法官陳法官張. 文錫景炳淳. 仁奎山煌淙. 書. 記. 官. 一. 日. 七. 日. 右正本證明與原本無異. 其他中. 華. 民. 國. 八十三. 年. 四. 月. 10. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(25) 4.1.3 裁判要旨註解去除判例發佈後可能因法規修改或社會變遷而有需變更判例之情狀，因此部份裁判要旨中具有因判例變更而額外加註之編註、附註或決議。此類註解與原始之裁判全文較無關聯且可能影響自動擷取裁判要旨之效果，因此利用正規表示式將裁判要旨中包含之註解去除。表 3 為以最高法院 74 年台抗字第 431 號裁定及最高法院 48 年台上字第 946 號判例為例之註解去除範例。表 3: 裁判要旨註解去除範例最高法院 74 年台抗字第 431 號裁定不動產所有人設定抵押權後，將不動產讓與他人者，依民法第八百六十七條但書規定，其抵押權不因此而受影響，抵押權人得本於追及其物之效力實行抵押權。系爭不動產既經抵押人讓與他人而屬於受讓之他人所有，則因實行抵押權而聲請法院裁定准許拍賣該不動產時，自應列受讓之他人為相對人。. 政治大註：本則判例於民國 95 年 3 月 21 日經最高法院民國 95 年度第 4 次民事庭會議決議改列適用法條，並於民國 95 年立 4 月 21 日由最高法院依據最高法院判例選編及變更實施要. 編. 點規定以台資字第 0950000355 號公告之。. 學. 決. 點第 9. ‧ 國. 原裁判要旨. 議：本則判例非訟事件法部分改列修正非訟事件法第 72 條。. ‧. 不動產所有人設定抵押權後，將不動產讓與他人者，依民法第八百六十七條但書規定，其抵押權不因此而受影響，抵押權人得本於追及其物之效力註解去除結果實行抵押權。系爭不動產既經抵押人讓與他人而屬於受讓之他人所有，則因實行抵押權而聲請法院裁定准許拍賣該不動產時，自應列受讓之他人為相對人。. sit. y. Nat. al. er. io. 最高法院 48 年台上字第 946 號判例. n. 確認之訴除確認證書真偽之訴外，應以法律關係為訴訟標的，觀民事訴訟法第二百十七條之規定自明。身分為法律關係發生之原因，非即法律關係之本身，身分之存在與否，乃屬一種事實問題，不得為確認之訴之標的，即在親子關係事件中，亦祇有確認收養關係成立或不成之訴，而無所謂確認養親與養子身分之訴，徵諸同去第五百七十九條之規定，益為顯然。原裁判要旨. Ch. engchi. i n U. v. (編. 註：本則判例於九十年三月二十日經最高法院九十年度第三次民事庭會議決議不再援用，並於九十年五月八日由最高法院依據最高法院判例選編及變更實施要點第九點規定以 ( 90) 台資字第 00300 號公告之。) (理由：本則要旨與新修正民事訴訟法第二百四十七條之規定不符，已無援用之餘地)). 確認之訴除確認證書真偽之訴外，應以法律關係為訴訟標的，觀民事訴訟法第二百十七條之規定自明。身分為法律關係發生之原因，非即法律關係註解去除結果之本身，身分之存在與否，乃屬一種事實問題，不得為確認之訴之標的，即在親子關係事件中，亦祇有確認收養關係成立或不成之訴，而無所謂確認養親與養子身分之訴，徵諸同去第五百七十九條之規定，益為顯然。. 11. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(26) 4.1.4 裁判要旨及裁判理由之分句切割本研究以分句為擷取裁判要旨之基本單位，因此需將裁判要旨及裁判理由段落切割為分句。前步驟所擷取之段落區塊並非依段落之起訖排版，而係使用每行固定字數之排版方式。斷句前需先將段落區塊內之各行合併，再以標點符號「。！？，；：」將合併後之段落區塊重新切割為分句。表 4 為以最高法院 83 年度台上字第 1865 號判決之部份裁判理由為例之分句切割範例。表 4: 裁判理由分句切割範例. 裁判理由（部份）. 本件原判決認定上訴人王泓仁自民國八十一年五月間起，在台南縣學甲鎮○○路九十四號經營「新世紀有線視訊」有線電視台，未經著作權人之同意，擅自公開播送原判決附表一所示錄影帶，並以之為常業，嗣於八十一年七月二十九日上午十時四十分許，經台南縣調查站人員會同台南縣政府新聞室及警方人員在台南縣學甲鎮○○路九四號及同鎮○○路八六號當場查獲，並扣得如原判決附表二所示盜版錄影帶等情。因而撤銷第一審判決，仍論處上訴人擅自以公開播送侵害他人之著作財產權為常業罪刑，固非無見。. 政治大. 立. ‧ 國. 學. 本件原判決認定上訴人王泓仁自民國八十一年五月間起. ‧. 在台南縣學甲鎮○○路九十四號經營「新世紀有線視訊」有線電視台未經著作權人之同意. y. Nat. io. n. al. er. 並以之為常業. sit. 擅自公開播送原判決附表一所示錄影帶. i n U. v. 分句切割結果嗣於八十一年七月二十九日上午十時四十分許. Ch. engchi. 經台南縣調查站人員會同台南縣政府新聞室及警方人員在台南縣學甲鎮 ○○路九四號及同鎮○○路八六號當場查獲並扣得如原判決附表二所示盜版錄影帶等情因而撤銷第一審判決仍論處上訴人擅自以公開播送侵害他人之著作財產權為常業罪刑固非無見. 12. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(27) 4.1.5 JSON 格式轉換與儲存為利於後續之語料處理程序，將前步驟取得之解析結果轉換為易於程式處理之 JSON 格式12 並儲存解析結果。表 5 為以最高法院 74 年台抗字第 431 號裁定為例之 JSON 格式範例。表 5: JSON 格式範例 {'裁判要旨': ['不動產所有人設定抵押權後', '將不動產讓與他人者', '依民法第八百六十七條但書規定', '其抵押權不因此而受影響', '抵押權人得本於追及其物之效力實行抵押權', '系爭不動產既經抵押人讓與他人而屬於受讓之他人所有', '則因實行抵押權而聲請法院裁定准許拍賣該不動產時', '自應列受讓之他人為相對人'], '裁判全文': {'主文': ['再抗告駁回', '再抗告訴訟費用', '由再抗告人負擔'], '理由': ['按不動產所有人設定抵押權後', '將不動產讓與他人', '依民法第八百六十七條但書之規定', '其抵押權固不因此而受影響', '抵押權人得本於追及其物之效力實行其抵押權', '然不動產既經抵押人讓與他人', '屬於受讓之他人所有', '則因實行抵押權而聲請法院裁定准許拍賣該不動產', '自應列受讓之他人為其相對人', '本件設定抵押權之不動產', '原抵押人即相對人余枝發已讓與徐天珍', '抵押權人即再抗告人聲請裁定法院對相對人為准許拍賣該不動產之裁定', '經裁定法院准許後', '相對人提起抗告', '抗告法院以再抗告人列原抵押人為相對人聲請裁定', '於法不合', '爰將裁定法院所為有利於再抗告人之裁定廢棄', '並自為裁定', '駁回其在裁定法院之聲請', '殊非違法', '再抗告意旨', '誤解法意', '指摘抗告法院之裁定違背法令', '求為廢棄', '難謂有理', '據上論結', '本件再抗告為無理由', '依非訟事件法第二十八條', '第八條第二項', '民事訴訟法第四百九十二條第一項', '第九十五條', '第七十八條', '裁定如主文']}, '案由摘要': '拍賣抵押物', '裁判字號': '74 年台抗字第 431 號', '裁判日期': '民國 74 年 10 月 03 日', '裁判類型': '裁定'}. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 12 The JavaScript Object Notation (JSON) Data Interchange Format, https://tools.ietf.org/html/rfc8259 .. 13. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(28) 4.2 斷詞及詞性標記 4.2.1 自動斷詞系統利用自動斷詞系統將先前切割為分句之裁判要旨及裁判理由進行斷詞並標記各詞彙之詞性。本研究使用兩種不同的自動斷詞系統，分別為中央研究院資訊科學所詞庫小組所開發之 CKIP 中文斷詞系統[20]以及開放原始碼之結巴中文分詞（Jieba）13。. 4.2.2 斷詞結果從斷詞結果觀察，CKIP 中文斷詞系統的表現優於結巴中文分詞。兩種自動斷詞系統在處理一般詞彙時大多皆可正確斷開，但在處理包含法律專有詞彙之分句時經常出現錯誤之斷詞結果，錯誤斷詞結果之範例如表 6。. 政治大統所使用之語料相關，而可用以訓練自動斷詞系統之語料有限，無法涵蓋所有專業領域，因立此自動斷詞系統對於專業領域詞彙之斷詞表現較差。若能建立法律領域之專有詞彙詞庫，並. 學. ‧ 國. 自動斷詞系統在處理法律專有詞彙時表現較差之原因在於自動斷詞之結果與建立自動斷詞系. 加入自動斷詞系統，或能改善自動斷詞之結果。. ‧. 表 6: 斷詞結果範例 1. 結巴斷詞結果. 系爭/土地/為/被/上訴/人/占用. 說明. 「被上訴人」不應被斷開. n. al. Ch. e 範例 n g 2c h i. sit. 系爭/土地/為/被/上訴/人/占用. er. CKIP 斷詞結果. io. 系爭土地為被上訴人占用. y. Nat. 原始分句. i n U. v. 原始分句. 應依刑事訴訟法第三百九十七條. CKIP 斷詞結果. 應/依/刑事/訴訟法/第三百九十七/條. 結巴斷詞結果. 應依/刑事/訴訟法/第三/百/九十七/條. 說明. 「刑事訴訟法」、「第三百九十七條」不應被斷開範例 3. 原始分句. 經原審判決駁回上訴人之請求確定. CKIP 斷詞結果. 經原/審/判決/駁回/上訴/人/之/請求/確定. 結巴斷詞結果. 經原/審判/決駁/回上訴/人/之/請求/確定. 說明. 「原審」、「判決」、「駁回」、「上訴人」不應被斷開. 13 結巴中文分詞，https://github.com/fxsjy/jieba。. 14. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(29) 4.2.3 詞性標記結果 CKIP 中文斷詞系統與結巴中文分詞使用不同的詞類標記集，CKIP 中文斷詞系統使用精簡過的中研院平衡語料庫詞類標記集 14，結巴中文分詞則使用修改過的 ICTPOS 3.0 詞性標記集15。兩系統之詞性標記結果範例如表 7。表 7: 詞性標記結果範例 1 原始分句. 被告不服提起上訴. 斷詞結果. 被告/不服/提起/上訴. CKIP 詞性標記結果 Na 普通名詞 / VK 狀態句賓動詞 / VE 動作句賓動詞 / VC 動作及物動詞結巴詞性標記結果 n 名詞 / v 動詞 / v 動詞/ v 動詞原始分句斷詞結果. 2 政範例治大系爭存款債權之移轉立系爭/存款/債權/之/移轉. 原始分句. ‧ 國. 斷詞結果. 以/裁定/駁回/之. 學. CKIP 詞性標記結果 A 非謂形容詞 / Na 普通名詞 / Na 普通名詞 / DE 之 / Nv 名物化動詞結巴詞性標記結果 n 名詞 / n 名詞 / n 名詞 / u 助詞 / v 動詞. ‧. 範例 3. 以裁定駁回之. y. Nat. n. al. 4.3 裁判要旨與裁判理由之對應C h e. ngchi. er. io. 結巴詞性標記結果 p 介詞 / v 動詞 / v 動詞 / u 助詞. sit. CKIP 詞性標記結果 Cbb 關聯連接詞 / VE 動作句賓動詞 / VC 動作及物動詞 / DE 之. i n U. v. 本章介紹以最長共同子序列（longest common subsequence）[21]為基礎之分句對應關係計算方法，將裁判要旨與裁判理由中所包含之分句進行對應，並依分句對應關係標記裁判理由中之分句是否被屬於裁判要旨。. 4.3.1 分句對應關係計算方法從裁判要旨與裁判理由觀察，裁判要旨所包含之分句多數皆係直接自裁判理由中擷取，且分句之順序多未改變，因此可利用最長共同子序列從裁判理由中找出與裁判要旨對應之分句。 14 CKIP 中文斷詞系統詞類標記列表，http://ckipsvr.iis.sinica.edu.tw/cat.htm。 15 計算所漢語詞性標記集，http://ictclas.nlpir.org/nlpir/html/readme.htm。. 15. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(30) 以分句為單位計算裁判要旨與裁判理由之最長共同子序列，最長共同子序列所包含之分句即為裁判理由與裁判要旨間對應之分句。表 8 為以最高法院 81 年度台上字第 1575 號判決為例之分句對應關係範例，該判決之裁判要旨包含 16 個分句，裁判理由則包含 83 個分句（範例中僅列出其中 31 個分句），以分句為單位計算裁判要旨與裁判理由之最長共同子序列後可得到包含 15 個分句之子序列，此一子序列即代表 15 組裁判理由與裁判要旨間之對應分句。表 8: 分句對應關係範例裁判要旨. 裁判理由（前略）雖上訴人陳稱. 依農業發展條例第三十條但書規定. 政治大. 依農業發展條例第三十條但書規定. 係指耕地出售與毗鄰耕地之自耕農並與其耕地合併時該出售之耕地得予分割而言並非謂耕地之應有部分出售與毗鄰耕地之自耕農即得將耕地移轉為共有. ‧. 係指耕地出售與毗鄰耕地之自耕農並與其耕地合併時該出售之耕地得予分割而言並非謂耕地之應有部分出售與毗鄰耕地之自耕農即得將耕地移轉為共有. 學. ‧ 國. 立. 「因出售與毗鄰耕地自耕農而與其耕地合併者得為分割」伊為系爭土地毗鄰耕地之所有人應有該但書規定之適用云云但上開規定. n. al. er. io. sit. y. Nat. 本件上訴人係請求被上訴人將系爭農地之應有部分移轉與其為共有並無上開規定之適用為其得心證之理由因而將第一審所為被上訴人敗訴部分之判決廢棄改判駁回上訴人該部分之訴經核於法委無違誤茲上訴人以原審審判長未行使闡明權曉諭伊為代位請求分割系爭土地之聲明云云指摘原判決違背法令. Ch. engchi. i n U. v. 按行使闡明權惟按行使闡明權固為審判長之職責但僅得於辯論主義之限度內行之必依當事人言詞之主張或書狀之記載生有疑竇有以發問或曉諭除去之必要然後始得發問或曉諭當事人陳述事實聲明證據或為其他之聲明及陳述或敘明或補充其聲明或陳述之不完足. 固為審判長之職責但僅得於辯論主義之限度內行之必依當事人言詞之主張或書狀之記載生有疑竇有以發問或曉諭除去之必要然後始得發問或曉諭當事人陳述事實聲明證據或為其他之聲明及陳述或敘明或補充其聲明或陳述之不完足本件上訴人自始主張依伊與被上訴人之被繼承人王進財所訂之協議書及讓渡書之約定（後略）. 16. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(31) 利用前述以最長共同子序列為基礎之方法計算分句對應關係，並計算每篇裁判書之分句對應比例（對應分句數量與裁判要旨分句數量之比例），可得到 77.62%之平均分句對應比例，意即平均每篇裁判書中 77.62%之裁判要旨可對應至裁判理由。從分句對應結果中觀察裁判要旨中無法對應至裁判理由之分句，歸納其無法對應之原因如下： 1. 裁判要旨用詞變更裁判要旨中之分句使用同義詞取代裁判理由中對應分句之用詞，雖未改變該分句之意思，但導致裁判要旨及裁判理由中之對應分句並非完全相同。以最高法院 64 年台上字第 110 號判例為例，裁判要旨中之分句為「而將土地及房屋分開同時或先後出賣時」，裁判理由中之分句則為「而將土地及房屋分別同時或先後出賣時」。兩者意思相同，僅用詞不同。 2. 標點符號之使用不一致. 立. 政治大. 裁判要旨及裁判理由所使用之標點符號不一致，導致分句切割之結果相異。. ‧ 國. 學. 以最高法院 56 年台上字第 118 號判例為例，裁判要旨中之分句為「就其心證而為判斷」，裁判理由中之對應分句則為「就其心證，而為判斷」。裁判理由中之對應分句於前處理. ‧. 階段被切割為「就其心證」及「而為判斷」兩分句，因此無法直接於裁判理由中尋得與. y. Nat. 裁判要旨完全相同之對應分句。. er. io. sit. 3. 裁判要旨省略部份敘述. 裁判要旨編輯者在裁判要旨中省略部份裁判理由中所包含之敘述。. al. n. v i n 以最高法院 79 年台上字第 2261C 號判例為例，裁判要旨中之分句為「應各從較重之販賣 hengchi U 毒品罪處斷」，裁判理由中之對應分句則為「應各從較重之販賣毒品、施打毒品罪處斷」。裁判要旨中省略關於施打毒品罪之描述，因此導致裁判要旨與裁判理由無法對應。. 4.3.2 分句異同判斷方式之改良為解決前述裁判要旨與裁判理由對應分句因並非完全相同而無法被對應之問題，修改比對兩分句是否相同之判斷方式，修改後之分句異同判斷方式如下： 1. 計算字元對應比例字元對應比例之計算方式以 Dice coefficient [22]為基礎。先以字元為單位計算兩分句之最長共同子序列，並以最長共同子序列長度與兩分句平均長度之比例做為字元對應比例。. 17. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(32) 最長共同子序列長度字元對應比例 =. 兩分句平均長度. 以分句「而將土地及房屋分開同時或先後出賣時」及「而將土地及房屋分別同時或先後出賣時」為例計算字元對應比例。兩分句之最長共同子序列為「而將土地及房屋分同時或先後出賣時」。最長共同子序列長度為 16，兩分句之平均長度為 17，則兩分句之字元對應比例為 16 ÷ 17 ≈ 0.9411。 2. 判斷字元對應比例是否高於預先設定之閾值若字元對應比例高於預先設定之字元對應比例閾值，則判斷兩分句相同。字元對應比例閾值之設定越低，越容易將相似之兩分句判斷為相同分句。因此可透過降低字元對應比. 政治大. 例閾值使分句對應比例提高，但也可能使錯誤對應之比例提高。. 立. 表 9 為以最高法院 70 年度台上字第 547 號判決為例之字元對應比例範例。該判決之裁判要. ‧ 國. 學. 旨包含 9 個分句，裁判理由則包含 27 個分句（範例中僅列出其中 9 個分句）。若將字元對應比例閾值設定為 1，則僅可取得 7 組分句對應關係。若將字元對應比例閾值降低至 0.9 以下，則可取得全部 9 組分句對應關係。. y. 惟查以法人為刑事被告. er. io. sit. 裁判理由. 查以法人為刑事被告除有明文規定外. ‧. Nat. 裁判要旨. 表 9: 字元對應比例範例. 除有明文規定外. al. n. iv 在實體法上不認其有犯罪能力 C 在實體上不認其有犯罪能力 n h在程序法上不認其有當事人能力 engchi U 在程序法上不認其有當事人能力. 字元對應比例 0.9473 1.0000 0.9600 1.0000. 故以法人為被告而起訴. 故以法人為被告而起訴. 1.0000. 其程序即屬違背規定. 其程序即屬違背規定. 1.0000. 本件上訴人自訴公法人即台北市政府犯有刑法第一百二十二條第二項等之瀆職罪. 本件上訴人自訴公法人即台北市政府犯有刑法第一百二十二條第二項等之瀆職罪. 1.0000. 依照首開說明. 依照首開說明. 1.0000. 其自訴即屬於法不合. 其自訴即屬於法不合. 1.0000. 18. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(33) 表 10 為設定不同字元對應比例閾值與平均分句對應比例間之關係。若將字元對應比例閾值設定為 1，則平均分句對應比例僅有 77.62%。若將字元對應比例閾值降低至 0.8，平均分句對應比例則可提高至 93.14% 。表 10: 平均分句對應比例字元對應比例閾值. 平均分句對應比例. 1.0. 77.62%. 0.9. 89.04%. 0.8. 93.14%. 0.7. 95.01%. 0.6. 96.28%. 0.5. 97.11% 治政 97.60% 大 97.95%. 0.4 0.2. 98.31%. 0.1. 98.92%. 學 ‧. ‧ 國. 立0.3. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 19. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(34) 5 特徵擷取本章介紹裁判要旨擷取模型所使用之特徵，所有特徵可分為六種類別，分別為基本特徵、裁判特徵、分句標記特徵、詞彙特徵、詞性特徵及句首詞彙特徵。. 5.1 基本特徵本類特徵表現與分句組成或分句所在位置相關之基本資訊。分句係由詞彙組成，而詞彙則由字元組成，因此以分句所包含之詞彙數量、字元數量等資訊做為分句之基本特徵。此外，裁判書之撰寫具有一定格式及順序，分句於裁判理由中之位置與該分句表達之內容可能具有關聯，因此加入與分句位置相關之特徵。以下分別簡述基本特徵類別所包含之七項特徵：. 政治大該分句所包含之字元數量（包含重複字元）。立. 1. 分句所包含之字元數. 2. 分句所包含之詞彙數. ‧ 國. 學. 該分句經斷詞後所包含之詞彙數量（包含重複詞彙）。. ‧. 3. 分句所包含之相異詞彙數. sit. y. Nat. 該分句經斷詞後所包含之相異詞彙數量（不包含重複詞彙）。. io. 該分句所屬之裁判理由經斷句後所包含之分句數量。. n. al. 5. 分句於裁判理由中之位置. Ch. engchi. er. 4. 裁判理由所包含之分句數. i n U. v. 該分句於裁判理由中以分句為單位計算之所在位置。 6. 分句於裁判理由中之位置及裁判理由所包含分句數之比例「分句於裁判理由中之位置」與「裁判理由所包含之分句數」兩項特徵之比例，可較精確的表示分句於裁判理由中之位置。 7. 分句是否為裁判理由之首句若該分句為裁判理由中之第一個分句，則以 1 代表此項特徵，否則以 0 代表此項特徵。. 20. DOI:10.6814/THE.NCCU.CS.003.2018.B02.

(35) 5.2 裁判特徵裁判書之撰寫風格及格式與案件類型、裁判法院、裁判時間等因素有關，因此加入與該裁判相關之資訊做為特徵。裁判特徵類別包含四項特徵，分別為「裁判類型」、「裁判性質」、「案件字別」及「裁判時間」，以下簡述各類特徵之擷取方式。. 5.2.1 裁判類型將裁判書依案件類型以及該裁判是否被選為判例分為四類（刑事判例、刑事裁判、民事判例、民事裁判），並以 one-hot encoding [23]將裁判類型轉換為數值向量。各類型裁判書之數量如表 11。表 11: 裁判類型. 12084 2940 13468. 學 ‧. 5.2.2 裁判性質. ‧ 國. 立. 政治數量大 2062. 裁判類型刑事判例刑事裁判民事判例民事裁判. sit. y. Nat. 依裁判之性質可將所有裁判書分為三類（判決書、裁定書、決定書），並以 one-hot. io. 件或冤獄賠償案件中做成，因此數量遠少於其他兩種類別。. n. al. er. encoding 將裁判性質轉換為數值向量。各類型裁判書之數量如表 12，決定書僅於刑事補償案. i n U. C表 h e12:n裁判性質 i g c h數量裁判性質判決裁定決定. v. 26563 3986 5. 5.2.3 案件字別裁判書之裁判字號係依該案件之裁判時間及案件種類編碼，因此可從裁判字號中獲得與案件種類相關之資訊。裁判字號由「裁判時間」、「案件字別」及「編號」組成，例：74 年台抗字第 431 號。透過正規表示式可從裁判字號中取得與案件種類有關之案件字別。. 21. DOI:10.6814/THE.NCCU.CS.003.2018.B02.