自動擷取方法

第四章、中文詞詞間結構自動擷取

4.6 詞間結構自動擷取

4.6.1. 自動擷取方法

既為「自動擷取」問題，首先必須指明：欲自動擷取的對象為何？依存關係？

文法？抑或詞彙？若以依存關係為擷取對象，考量依存關係樹資訊極為有限，勢必將使用語法分析樹之資訊，於語法分析樹中找出腳點後再行轉換；而為避免轉換過程中漏失之資訊（如 4.5.2.1 節所述，部分標記單元將無法轉為依存關係），

本研究決直接於語法分析樹上進行預測，而預測對象即為標記者所標記之三角單元位置。然頂點於此並無意見分析上之幫助，故預測對象仍以「腳點對」為主。

為簡化問題，本研究暫先鎖定於「兩腳點均為同個親節點之子節點」的標記單元上（即此兩腳點位於同層且互為「兄弟」），此結構稱為「同親結構」，而「屬於同一親節點之所有子節點」所構成之序列稱為「同親序列」。本研究亦假設每一同親序列最多僅含一對腳點。非同親結構範例如圖 4-11、同親結構則如圖 4-10。

需特別說明處為：圖 4-10 中，右下角「堅持」與「實事求是」兩節點，亦視為同親結構。由於「實事求是」為其親節點之「孤子」，故本研究視該點與親節點等價，從而構成同親結構。

定義「同親結構」之主要目的在於：簡化自動擷取問題，將之視為一「序列式標記」問題。即將同親序列視為一句子，以類於詞性標記之方法，以 CRF 逐一標記對應之標籤，如：非腳點標為 N、腳點標為 Y，或「修飾」結構之左腳點標為 2H、右腳點標為 2T、非腳點標為 N，等等。後續研究中將針對各種不同標籤集進行實驗、評估，試圖找出最適合的標籤集。

圖 4-10 同親結構範例

圖 4-11 非同親結構範例

4.6.2.

^{特徵值抽取}

既視為序列式標記問題，此處所稱之特徵值乃指「序列上每一節點」之特徵值。本研究試圖探討以語法分析樹之資訊預測「表達意見之結構」的可能，故並未引用其他外部資訊（如意見詞分數、詞頻等等），而僅以語法結構樹本身為特徵值。所用特徵值可視作「綴於節點下之子樹」：對每一節點而言，均將其下由左而右 4 個子節點之「詞性」與「詞彙本身」（若有的話）納為特徵值（不足者則填入空標籤如「EMPTY」、超過 4 子節點者則僅取由左而右的 4 個節點）；此 4 節點下由左而右 4 個子節點亦納入；再下一層，此 4*4=16 個子節點下，由左而右 3 個子節點再納入。如此便形成一棵底層合有 3*4*4=48 個子節點之子樹，該子樹便為其樹頂（即序列中的一節點）的特徵值。

而序列式標記問題亦有「窗框大小」問題，即標記此點時需考慮前後多少個鄰點。本研究中窗框大小設為 5，故需考慮前後各 2 個相鄰點之特徵值。其特徵值全貌可參圖 4-12：

圖 4-12 詞間關係自動擷取特徵值示意圖

4.6.3.

結構自動擷取效能評估

在文檔中應用於中文意見分析之詞內暨詞間語法結構自動擷取研究 (頁 77-80)

第四章、 中文詞詞間結構自動擷取

4.6 詞間結構自動擷取

4.6.1. 自動擷取方法

4.6.2.

4.6.3.

第四章、中文詞詞間結構自動擷取