• 沒有找到結果。

第四章、 中文詞詞間結構自動擷取

4.6 詞間結構自動擷取

4.6.1. 自動擷取方法

既為「自動擷取」問題,首先必須指明:欲自動擷取的對象為何?依存關係?

文法?抑或詞彙?若以依存關係為擷取對象,考量依存關係樹資訊極為有限,勢 必將使用語法分析樹之資訊,於語法分析樹中找出腳點後再行轉換;而為避免轉 換過程中漏失之資訊(如 4.5.2.1 節所述,部分標記單元將無法轉為依存關係),

本研究決直接於語法分析樹上進行預測,而預測對象即為標記者所標記之三角單 元位置。然頂點於此並無意見分析上之幫助,故預測對象仍以「腳點對」為主。

為簡化問題,本研究暫先鎖定於「兩腳點均為同個親節點之子節點」的標記 單元上(即此兩腳點位於同層且互為「兄弟」),此結構稱為「同親結構」,而「屬 於同一親節點之所有子節點」所構成之序列稱為「同親序列」。本研究亦假設每一 同親序列最多僅含一對腳點。非同親結構範例如圖 4-11、同親結構則如圖 4-10。

需特別說明處為:圖 4-10 中,右下角「堅持」與「實事求是」兩節點,亦視為 同親結構。由於「實事求是」為其親節點之「孤子」,故本研究視該點與親節點等 價,從而構成同親結構。

定義「同親結構」之主要目的在於:簡化自動擷取問題,將之視為一「序列 式標記」問題。即將同親序列視為一句子,以類於詞性標記之方法,以 CRF 逐一 標記對應之標籤,如:非腳點標為 N、腳點標為 Y,或「修飾」結構之左腳點標 為 2H、右腳點標為 2T、非腳點標為 N,等等。後續研究中將針對各種不同標籤 集進行實驗、評估,試圖找出最適合的標籤集。

圖 4-10 同親結構範例

圖 4-11 非同親結構範例

4.6.2.

特徵值抽取

既視為序列式標記問題,此處所稱之特徵值乃指「序列上每一節點」之特徵 值。本研究試圖探討以語法分析樹之資訊預測「表達意見之結構」的可能,故並 未引用其他外部資訊(如意見詞分數、詞頻等等),而僅以語法結構樹本身為特徵 值。所用特徵值可視作「綴於節點下之子樹」:對每一節點而言,均將其下由左而 右 4 個子節點之「詞性」與「詞彙本身」(若有的話)納為特徵值(不足者則填入 空標籤如「EMPTY」、超過 4 子節點者則僅取由左而右的 4 個節點);此 4 節點下 由左而右 4 個子節點亦納入;再下一層,此 4*4=16 個子節點下,由左而右 3 個 子節點再納入。如此便形成一棵底層合有 3*4*4=48 個子節點之子樹,該子樹便 為其樹頂(即序列中的一節點)的特徵值。

而序列式標記問題亦有「窗框大小」問題,即標記此點時需考慮前後多少個 鄰點。本研究中窗框大小設為 5,故需考慮前後各 2 個相鄰點之特徵值。其特徵 值全貌可參圖 4-12:

圖 4-12 詞間關係自動擷取特徵值示意圖

4.6.3.

結構自動擷取效能評估