直接擷取腳點

第四章、中文詞詞間結構自動擷取

由上述實驗可觀察得知各種標籤集之擷取效能相異不大，考量若以各類分別給予標籤方式進行實驗，需同時產生四個標記模型，較為複雜，故本研究選定「N, 2H, 2T, 3H, 3T…」標籤集實驗結果評估腳點預測效能。我們僅保留該實驗預測結果中的「合法標籤」。「合法標籤」須滿足三條件：

其一，一序列中若有腳點，則必有兩腳點（如｛N, 2H, 2T｝）。若一序列中僅有一腳點（如｛N, 2T, N｝）或三腳點以上者（如｛N, 2H, 2H, N, 2T｝）則不予接受。

其二，此兩腳點必屬同一種結構分類（如｛N, 4H, 4T, N｝），若分屬兩種結構分類（如｛N, 3H, 4T, N｝）則不予接受。

其三，此兩腳點必須左腳點在左（H 在左）、右腳點在右（T 在右）。無論均為左腳點（如｛2T, 2T, N｝）、均為右腳點（如｛N, 2H, 2H, N｝）、或左右顛倒（如

｛N, 2T, 2H｝）均不予接受。

符合此三條件者方會為評估程式判定為實驗所產出之預測結果。選擇此嚴格標準之目的在於探究若僅以結構資訊進行預測，則可掌握多少含有意見之結構，

此亦可更深一層反映出語法結構與意見表達之關連性強弱。

前一節之評估均以「序列」為單位，而本節之評估直接以標記者產出之所有

「標記單元」為單位（無論該單元是否為同親結構），分析各類結構自動擷取之總效能。預測結果如表 4-6：

表 4-6 腳點位置直接辨認評估

P R F

修飾 1.00 0.25 0.40 主謂 1.00 0.25 0.41 動賓 1.00 0.39 0.56 動補 1.00 0.13 0.23

4.6.3.4. 討論

由上述實驗可觀察得知，無論是序列判斷或腳點擷取之效能均相當有限，且使用不同標籤集之效能亦無顯著差異。探究其原因，或可於腳點直接判斷之實驗結果見其端倪：該實驗結果，回收率極低，精確度卻極高。幾乎是為 CRF 判斷為

「合法腳點」者，該位置便確定有腳點存在。我們逐一觀察預測結果，發覺預測之結果多在語法分析樹之末端，即接近詞彙層次部份，且其預測結果，多為某些特定詞彙所構成之腳點，如副詞語尾「地」，或「表示」、「陳述」等在「人講句」

型態之意見句中幾乎必會被標的辭彙，亦即 CRF 實則是在辨認詞彙（可能伴以某些同時出現之結構），而非單以語法結構本身進行預測。

本結果或可指出：用於意見表達之語法結構，確有一部份與語法特徵密切相關，然卻亦有另一大部分結構所攜帶之意見來自於詞彙的語義，故以結構為特徵值進行預測，僅可得到一小部份準確度高、回收率低的結果。

本段研究乃對詞間結構進行了定義、分析與預測。由依存關係之分析（無論為句子統計或標記單元統計），肯認了「用於意見表達之語法結構具有特殊性」此一假設，並找出數種較常用於意見表達之依存關係；我們亦提出了於語法分析樹上標記意見結構之方法，同時也說明了將此標記結果轉為依存關係之簡易步驟。

最後於語法分析樹上進行意見結構預測，得到高準確度、低回收率之結果。此預測效能固差強人意，然其高準確度卻仍相當具有價值，如於實際意見分析時可於套用 14 種依存關係前先以 CRF 方法預測之，先行獲取準確度極高之腳點位置，

藉以改善整體結構預測之效能。其預測效能固然有限，考量其準確度之高，幫助不可謂之不大。欲改善意見語法結構之擷取效能，或可引進意見詞彙分數等語義資訊，改善純以語法資訊無法完全掌握之部分。

在文檔中應用於中文意見分析之詞內暨詞間語法結構自動擷取研究 (頁 83-86)