• 沒有找到結果。

第四章、 中文詞詞間結構自動擷取

4.6 詞間結構自動擷取

4.6.3. 結構自動擷取效能評估

4.6.3.3. 直接擷取腳點

由上述實驗可觀察得知各種標籤集之擷取效能相異不大,考量若以各類分別 給予標籤方式進行實驗,需同時產生四個標記模型,較為複雜,故本研究選定「N, 2H, 2T, 3H, 3T…」標籤集實驗結果評估腳點預測效能。我們僅保留該實驗預測結 果中的「合法標籤」。「合法標籤」須滿足三條件:

其一,一序列中若有腳點,則必有兩腳點(如{N, 2H, 2T})。若一序列中僅 有一腳點(如{N, 2T, N})或三腳點以上者(如{N, 2H, 2H, N, 2T})則不予接受。

其二,此兩腳點必屬同一種結構分類(如{N, 4H, 4T, N}),若分屬兩種結構 分類(如{N, 3H, 4T, N})則不予接受。

其三,此兩腳點必須左腳點在左(H 在左)、右腳點在右(T 在右)。無論均 為左腳點(如{2T, 2T, N})、均為右腳點(如{N, 2H, 2H, N})、或左右顛倒(如

{N, 2T, 2H})均不予接受。

符合此三條件者方會為評估程式判定為實驗所產出之預測結果。選擇此嚴格 標準之目的在於探究若僅以結構資訊進行預測,則可掌握多少含有意見之結構,

此亦可更深一層反映出語法結構與意見表達之關連性強弱。

前一節之評估均以「序列」為單位,而本節之評估直接以標記者產出之所有

「標記單元」為單位(無論該單元是否為同親結構),分析各類結構自動擷取之總 效能。預測結果如表 4-6:

表 4-6 腳點位置直接辨認評估

P R F

修飾 1.00 0.25 0.40 主謂 1.00 0.25 0.41 動賓 1.00 0.39 0.56 動補 1.00 0.13 0.23

4.6.3.4. 討論

由上述實驗可觀察得知,無論是序列判斷或腳點擷取之效能均相當有限,且 使用不同標籤集之效能亦無顯著差異。探究其原因,或可於腳點直接判斷之實驗 結果見其端倪:該實驗結果,回收率極低,精確度卻極高。幾乎是為 CRF 判斷為

「合法腳點」者,該位置便確定有腳點存在。我們逐一觀察預測結果,發覺預測 之結果多在語法分析樹之末端,即接近詞彙層次部份,且其預測結果,多為某些 特定詞彙所構成之腳點,如副詞語尾「地」,或「表示」、「陳述」等在「人講句」

型態之意見句中幾乎必會被標的辭彙,亦即 CRF 實則是在辨認詞彙(可能伴以某 些同時出現之結構),而非單以語法結構本身進行預測。

本結果或可指出:用於意見表達之語法結構,確有一部份與語法特徵密切相 關,然卻亦有另一大部分結構所攜帶之意見來自於詞彙的語義,故以結構為特徵 值進行預測,僅可得到一小部份準確度高、回收率低的結果。

4.7 小結

本段研究乃對詞間結構進行了定義、分析與預測。由依存關係之分析(無論 為句子統計或標記單元統計),肯認了「用於意見表達之語法結構具有特殊性」此 一假設,並找出數種較常用於意見表達之依存關係;我們亦提出了於語法分析樹 上標記意見結構之方法,同時也說明了將此標記結果轉為依存關係之簡易步驟。

最後於語法分析樹上進行意見結構預測,得到高準確度、低回收率之結果。此預 測效能固差強人意,然其高準確度卻仍相當具有價值,如於實際意見分析時可於 套用 14 種依存關係前先以 CRF 方法預測之,先行獲取準確度極高之腳點位置,

藉以改善整體結構預測之效能。其預測效能固然有限,考量其準確度之高,幫助 不可謂之不大。欲改善意見語法結構之擷取效能,或可引進意見詞彙分數等語義 資訊,改善純以語法資訊無法完全掌握之部分。