資訊擷取

第三章裁判書資料集建置

第三節資訊擷取

利用正則表達式將裁判分為不同區塊，再進而分段，以利抓取特定語句擷取資訊的做法，能夠以程式協助研究者，依照其關心之變項來標記裁判，減少重複的閱讀工作。本文將應用此方法來判斷例如：原告（聲請人）或被告（相對人）

是否同意離婚、是否請求給付、法院裁判結果、裁判中是否出現反訴或一造辯論等、贍養費給付的重要因素等。

具體作法是以上述經拆解為不同區塊的裁判書資料為基礎，再運用關鍵詞語組合以及前後距離的條件以達到對判決進行文字探勘⁶³，設計正則表達式

（Regular Expression），以特定字詞的結合順序來擷取特定訊息。

為了達成上述目的，必須針對實質內容部，更進一步做段落區分，找出哪些段落屬於原告主張、哪些段落屬於被告主張或法院見解。例如若要得知法院判決結果（原告勝訴或敗訴），則若設定了「原告之請求…駁回」的關鍵詞語條件，

在裁判全文檢索的話，很可能該當的是被告的主張或法院的見解；惟有當此一條件出現在法院見解的段落，才能肯定原告確實敗訴。故正確分隔原告、被告主張與法院見解，是正確的資訊擷取與編碼的前提要件。此階段的作法主要是透過搜尋裁判內文的段落起始句，來推測各段落屬於哪個當事人之主張。

然而，不同時代、地域、法官、法庭或法院所慣用的行文風格與字詞選擇，

本有所差異。如何制定關鍵詞語條件，幾乎必須仰賴法學研究者的經驗素養與實作反覆檢證，沒有捷徑。在上述第二節裁判轉化成半結構化資料時，不同區塊間有較明顯區隔。但進到裁判內文的實質內容部後，原告聲明、被告答辯與法院見解的分佈較為曖昧不明，最常見的形式是先描述雙方當事人各自主張及聲明，其後再敘述法院見解。如果有程序性事項時，則會放在原告主張之前（參見下圖 1）。

63 類似做法，可參照：林筱瓴（2013），《文字探勘在判決書上之應用-以著作權法民事賠償為中心》，國立臺灣大學科際整合法律學研究所碩士論文。

但因案件的複雜程度，排列組合可能大有不同。例如在被告提起反訴或反聲請的情形，部分裁判可能在前述結構的基礎上有所變化以容納較為複雜的案件事實，並且根據該結構做出適當回應。例如參見下圖 2 之裁判，先依序列出本訴原告、被告主張、反訴原告、反訴被告主張，再進入法院見解，而此部分基本上亦按照本訴、反訴順序撰寫。

標題部

主文部實質內容部

標尾部

圖 1 士林地院 101 年度婚字第 16 號判決全文區分範圍示意圖

另一方面，也有裁判為了因應這種不易閱讀性，將裁判內文全數依照本訴、

反訴的結構順序編排。先處理本訴，列出本訴原告、被告主張，詳述法院見解後，再處理反訴，同樣列出反訴原告、被告主張，對反訴的法院見解（參見下圖 3）。但即便是較複雜的結構，仍不改裁判內文會處理程序性事項的特性，均將其列於原告主張之前。

標題部

主文部實質內容部

標尾部

圖 2 臺中地院 104 年度婚字第 414 號判決全文區分範圍示意圖

本文具體拆解實質內容區塊中原告、被告之主張的方法如下。

首先，在「實質內容部」的區塊中，若有某段落是以「原告」或是「聲請人」為起始，且該段落未包含有程序性事由的語句，即認為此段屬於原告主張。

例如通常裁判針對訴訟合法性（即程序事項）加以論述後，常以「合先敘明」結標題部

主文部

實質內容部

標尾部

圖 3 桃園地院 101 年度婚字第 820 號判決全文區分範圍示意圖

尾。同一裁判中可能有數個段落是以「原告」為起始，但若第一個段落含有「合先敘明」，那麼本文在此即認為該段落屬於裁判論述程序性事由，應該加以排除，不認定為原告主張。在階層的考量上，則會將附屬於該段落下的小段落亦納入其中，視為一連續而完整的大段落。不過同一裁判中的只將第一次出現以「原告」為起始之段落認定為本文所需，其後再出現之情況則排除，這是因為較後出現「原告」起始的段落，較可能屬於法院針對原告主張回應的部分，而非真正的原告主張。從而，原告主張之正則表達式略為：段落起始標號…原告….且不含程序性事由之關鍵字詞。

其次，被告主張同樣以前述所區分之段落為基礎，如同原告主張一般，其段落起始點是「被告」或是「相對人」，同樣只認定一次，規則與「原告主張」的部分大略相同。唯一不同者，係裁判一定會將原告主張排列在被告主張之前，且被告主張可能因為當事人未遞書狀或到庭陳述而完全缺漏，例如，在一造辯論的判決中，法院會在裁判中指出被告經合法通知而「未到庭陳述」。該段落即屬於為何被告主張缺漏的事由，雖以「被告」為段落之起始，卻並非被告主張。那麼被告主張之正則表達式略為：段落起始標號…被告….且不含程序性事由之關鍵字詞。

在實質內容區塊扣除上述「原告主張」與「被告主張」段落後所餘下者，本文即認定此屬於法院之見解。相較前兩者係以正則表達式做區分，法院見解部分係透過資料結構化的操作，僅移除屬於前兩者的部分即可完成。

綜上，本研究採用正則表達式，以特定字彙的組合，將每一則裁判都區分為標題部、主文部、實質內容部（其下再切分為「原告主張」、「被告主張」、

「法院見解」三個區塊）後、標尾部，亦即將資料結構化後，再繼續使用正則表達式，從各該區塊中擷取出本研究關注的資訊，亦即原被告主張為何、法院裁判結果為何，其內容詳如下述。

主文區塊中，本文所關注重點為：法院是否准許離婚、法院是否命當事人給付、法院是否認為原告請求有理由（以原告主張是否被駁回為判斷）。根據此三個命題所構思的正則表達式略為：准…離婚、應給付….元、訴…駁回與聲請…駁回。

實質內容區塊的原告主張中，本文所關注重點為：原告是否請求離婚、原告是否請求給付、是否出現主文所示代替原告聲明。根據此三命題所構思的正則表達式為：准…離婚、應給付….元、…如主文所示…。

實質內容區塊的被告主張中，本文所關注重點為：被告是否請求離婚、被告是否同意離婚或是無意見、被告是否請求給付、被告是否請求駁回原告之訴、是否出現如主文所示代替被告聲明。根據此五命題所構思的正則表達式為：准…離婚、…同意…離婚、應給付…元、駁回…之訴或…之訴駁回、…如主文所示…。

最後實質內容區塊的所有裁判內文中，本文所關注重點為：被告是否提起反訴、是否為一造辯論判決。根據此二命題所構思的正則表達式為：…反訴原告…、…合法通知…未到庭。

在文檔中以資訊技術分析我國離婚贍養費相關裁判 (頁 39-44)

第三章 裁判書資料集建置

第三節 資訊擷取

第三章裁判書資料集建置

第三節資訊擷取