第四章、 中文詞詞間結構自動擷取
4.4 中文詞詞間結構語料標記
4.4.3. 標記方法暨「潘恩標記系統」 (Pan Annotation System)
由於賓大樹庫資料量極大,若以離線方式標記,於語料管理及標記品質控制 上均非常不便。為解決此問題,我們特架設一線上語料標記系統,將賓大樹庫的 語法分析樹以圖形化介面顯示,以便於任二節點上標記詞間關係。我們稱該系統 為「潘恩標記系統」(Pan Annotation System, PAS)25,其介面可見圖 4-3。潘恩 系統可讀取賓大樹庫所提供的語法結構資訊,並於頁面上顯示任一特定序號
(SID)句子所生成的語法分析樹,標記者可直接於畫面上點選節點、進行標記。
截至目前為止,本論文談及「意見句」、「意見段落」、「詞間結構」及其分類,
卻仍未明確解釋實際標記之方法。欲說明本系統所標記之內容,可先參考圖 4-1:
圖 4-1 意見段落與結構關係圖
25 取「許多語法分析樹叢聚為森林」之義,以希臘神話中森林神潘恩(Pan)為系統命名,同時「Pan」
亦與賓州大學之「Penn」諧音。
意見段落
由結構造成
句法 詞間結構
修飾 主謂 動賓 動補 使役句 把字句 被動句 以……為……
比較句 其他
與結構無關(其他)
圖 4-1 所概括之範圍即為本研究所欲標記之內容。由於本研究以意見句為標 記對象,故可假設句中必有意見段落,而意見段落中實際「造成意見」之部分又 可分為「由結構造成」及「與結構無關」兩類,前者又可細分為「詞間結構」和
「句法結構」兩主要部份。而我們所欲標記的主要部份即為「詞間結構」,系統諸 多細節亦為其所專門設計。標記者首先須判斷各意見句之「意見段落」位置,並 從意見段落中標出符合 4.2 節所定義之詞間關係。本研究將「詞間結構」限定為 二節點間關係,故標記時理當於畫面中點選二詞彙,選擇「結構類別」後送出即 可。然我們欲探討另一子問題:
某詞間結構所造成之意見段落,其範圍是否會受語法分析樹的範圍所限制?
限制到什麼程度?有否可能,以某詞間結構為核心之意見段落,其範圍較「可覆 蓋兩節點之最小子樹」為大?
此問題背後所指涉之更深層問題是:若意見段落之範圍多為語法結構樹所限 制,則於語法結構自動擷取時,只要判斷結構之所在,便可直接由語法樹之結構 決定意見段落範圍,於是問題可進一步被簡化為「判斷特定語法結構之位置」,於 應用時幫助極大。
欲探討此問題,標記時除點選彼此互有關聯的兩節點外,標記者亦需點選此 二節點之「頂點」(head)。此「頂點」的定義為:能夠包含「由該二節點為核心 所構成的意見段落」之「最小子樹」的「樹頂點」。由此可知,「頂點」位置必不 可低於二節點之「最近親節點」(但可等於)。
組成語法結構的兩節點稱為「腳點」(feet),兩腳點位於句中較前方者稱為「左 腳點」、較後方者稱為「右腳點」。而再加以一頂點所構成之基本標記單位,稱為
「三角單元」(trio)。三角單元標記實例可見圖 4-2。
圖 4-2 三角單元實例
而 4.4.2 節中所定義之語法結構,除四種主要結構外,亦有五種常見句型與「其 他意見段落」。此六類並不屬於「二節點間之關係」,是以標記時亦不適用三角單 元。其標記目的在於為意見傾向實驗提供更完整之資訊,故並不拘泥於結構,亦 即將左右兩腳點標示出該意見段落範圍、並選取相對應之句型選項即可26。
潘恩系統以 JSP 撰寫,實際對 4.3.1 節標記之意見句進行意見結構標記。本標 記工作共聘請至少六位中文系大學部學生標記之。每句均由二位標記者共同標 記,第一位標記者標記後,第二位再行檢查。其標記結果將於次節中分析。
26 為實作方便,系統運行時仍會要求標記者點出頂點,但並無實際意義。
NP-OBJ
CP NP
CP
IP
NN 祝賀 WHNP-2
-None-
DEC 的 NP-SBJ VP
VA 熱烈 -None-
左腳點
右腳點 頂點
【註】本例中,頂點 即為最近親節點
意見段落 類別:修飾
圖 4-3 「潘恩標記系統」介面