• 沒有找到結果。

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

4.2.3 詞性標記結果

CKIP 中文斷詞系統與結巴中文分詞使用不同的詞類標記集,CKIP 中文斷詞系統使用精簡過 的中研院平衡語料庫詞類標記集14,結巴中文分詞則使用修改過的 ICTPOS 3.0 詞性標記集15。 兩系統之詞性標記結果範例如表 7。

表 7: 詞性標記結果 範例 1

原始分句 被告不服提起上訴

斷詞結果 被告/不服/提起/上訴

CKIP 詞性標記結果 Na普通名詞 / VK 狀態句賓動詞 / VE動作句賓動詞 / VC 動作及物動詞 結巴詞性標記結果 n 名詞 / v 動詞 / v 動詞/ v 動詞

範例 2

原始分句 系爭存款債權之移轉

斷詞結果 系爭/存款/債權/之/移轉

CKIP 詞性標記結果 A 非謂形容詞 / Na普通名詞 / Na普通名詞 / DE之 / Nv 名物化動詞 結巴詞性標記結果 n 名詞 / n 名詞 / n 名詞 / u 助詞 / v 動詞

範例 3

原始分句 以裁定駁回之

斷詞結果 以/裁定/駁回/之

CKIP 詞性標記結果 Cbb 關聯連接詞 / VE動作句賓動詞 / VC 動作及物動詞 / DE 之 結巴詞性標記結果 p 介詞 / v 動詞 / v 動詞 / u 助詞

4.3 裁判要旨與裁判理由之對應

本章介紹以最長共同子序列(longest common subsequence)[21]為基礎之分句對應關係計算 方法,將裁判要旨與裁判理由中所包含之分句進行對應,並依分句對應關係標記裁判理由中 之分句是否被屬於裁判要旨。

4.3.1 分句對應關係計算方法

從裁判要旨與裁判理由觀察,裁判要旨所包含之分句多數皆係直接自裁判理由中擷取,且分 句之順序多未改變,因此可利用最長共同子序列從裁判理由中找出與裁判要旨對應之分句。

14 CKIP 中文斷詞系統詞類標記列表,http://ckipsvr.iis.sinica.edu.tw/cat.htm。

15 計算所漢語詞性標記集,http://ictclas.nlpir.org/nlpir/html/readme.htm。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

利用前述以最長共同子序列為基礎之方法計算分句對應關係,並計算每篇裁判書之分句對應 比例(對應分句數量與裁判要旨分句數量之比例),可得到 77.62%之平均分句對應比例,

意即平均每篇裁判書中 77.62%之裁判要旨可對應至裁判理由。

從分句對應結果中觀察裁判要旨中無法對應至裁判理由之分句,歸納其無法對應之原因如下:

1. 裁判要旨用詞變更

裁判要旨中之分句使用同義詞取代裁判理由中對應分句之用詞,雖未改變該分句之意思,

但導致裁判要旨及裁判理由中之對應分句並非完全相同。

以最高法院 64 年台上字第 110 號判例為例,裁判要旨中之分句為「而將土地及房屋分開 同時或先後出賣時」,裁判理由中之分句則為「而將土地及房屋分別同時或先後出賣 時」。兩者意思相同,僅用詞不同。

2. 標點符號之使用不一致

裁判要旨及裁判理由所使用之標點符號不一致,導致分句切割之結果相異。

以最高法院 56 年台上字第 118 號判例為例,裁判要旨中之分句為「就其心證而為判斷」,

裁判理由中之對應分句則為「就其心證,而為判斷」。裁判理由中之對應分句於前處理 階段被切割為「就其心證」及「而為判斷」兩分句,因此無法直接於裁判理由中尋得與 裁判要旨完全相同之對應分句。

3. 裁判要旨省略部份敘述

裁判要旨編輯者在裁判要旨中省略部份裁判理由中所包含之敘述。

以最高法院 79 年台上字第 2261 號判例為例,裁判要旨中之分句為「應各從較重之販賣 毒品罪處斷」,裁判理由中之對應分句則為「應各從較重之販賣毒品、施打毒品罪處 斷」。裁判要旨中省略關於施打毒品罪之描述,因此導致裁判要旨與裁判理由無法對應。

4.3.2 分句異同判斷方式之改良

為解決前述裁判要旨與裁判理由對應分句因並非完全相同而無法被對應之問題,修改比對兩 分句是否相同之判斷方式,修改後之分句異同判斷方式如下:

1. 計算字元對應比例

字元對應比例之計算方式以 Dice coefficient [22]為基礎。先以字元為單位計算兩分句之 最長共同子序列,並以最長共同子序列長度與兩分句平均長度之比例做為字元對應比例。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 10 為設定不同字元對應比例閾值與平均分句對應比例間之關係。若將字元對應比例閾值 設定為 1,則平均分句對應比例僅有 77.62%。若將字元對應比例閾值降低至 0.8,平均分句 對應比例則可提高至 93.14% 。

表 10: 平均分句對應比例

字元對應比例閾值 平均分句對應比例 1.0 77.62%

0.9 89.04%

0.8 93.14%

0.7 95.01%

0.6 96.28%

0.5 97.11%

0.4 97.60%

0.3 97.95%

0.2 98.31%

0.1 98.92%

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5 特徵擷取

本章介紹裁判要旨擷取模型所使用之特徵,所有特徵可分為六種類別,分別為基本特徵、裁 判特徵、分句標記特徵、詞彙特徵、詞性特徵及句首詞彙特徵。

相關文件