第四章、 中文詞詞間結構自動擷取
4.3 問題初探:意見句及非意見句之依存關係樹比較
本章所處理之問題皆建立於一基本假設之上:「用於『意見表達』之語法結構 有其特殊性」。即因其具特殊性,吾人得以觀察、分析甚至加以預測。是以展開本 章前首先必對此問題進行初步之確認。欲探討意見表達之語法結構特殊性問題,
一較簡易之方式為分析「意見句」與「非意見句」中語法結構分佈之異同。由於 依存關係其形式為條列式之語法關係,便於比較,故選擇依存關係為比較之對象。
4.3.1.
意見句標記欲對意見句及非意見句之語法關係進行比較,首先必須標記意見句。本研究 依(Ku, Lo et al. 2007)所提出之方法對賓大樹庫 5.1 版之所有句子(所有 SID)
進行意見句標記。賓大樹庫 5.1 版共計 890 個檔案、18784 句,刪去同一 SID 中
含有兩棵語法分析樹之 20 句(詳見附錄B),經標記後,共有 10676 句為意見句24。
4.3.2.
意見句及非意見句依存關係樹分佈比較將賓大樹庫 5.1 版之所有句子(無論是否為意見句)均以史丹佛分析套件中 之中文依存關係樹分析器分析,產生其依存關係列表(並可構成一棵依存關係 樹)。而後結合 4.3.1 節所標記之意見句資訊,統計所有意見句及非意見句中之依 存關係分布狀態,觀察表達意見之語法結構是否有其特殊性。統計結果如表 4-1:
表 4-1 意見句與非意見句依存關係分布比較
非意見句 意見句 合計
排名 類型 數量 比例 類型 數量 比例 類型 數量 比例 1 nmod 22892 17.33% nmod 37503 13.17% nmod 60395 14.49%
2 nsubj 10807 8.18% ccomp 31347 11.01% ccomp 40728 9.77%
3 ccomp 9381 7.10% advmod 26201 9.20% nsubj 36928 8.86%
4 dep 9075 6.87% nsubj 26121 9.17% advmod 34081 8.18%
5 dobj 8670 6.56% dobj 24307 8.54% dobj 32977 7.91%
6 advmod 7880 5.96% prep 11005 3.86% dep 17312 4.15%
7 numod 6626 5.02% rcmod 10459 3.67% prep 16400 3.93%
8 prep 5395 4.08% cpm 9267 3.25% rcmod 14835 3.56%
9 conj 4448 3.37% assm 9189 3.23% numod 14273 3.42%
10 rcmod 4376 3.31% assmod 9113 3.20% cpm 12596 3.02%
11 amod 4254 3.22% dep 8237 2.89% assm 12498 3.00%
12 pobj 4219 3.19% amod 8185 2.87% amod 12439 2.98%
13 clf 3365 2.55% pobj 8069 2.83% assmod 12375 2.97%
14 cpm 3329 2.52% numod 7647 2.69% pobj 12288 2.95%
15 assm 3309 2.50% conj 6968 2.45% conj 11416 2.74%
16 assmod 3262 2.47% cc 5032 1.77% clf 8003 1.92%
17 cc 2433 1.84% mmod 4911 1.72% cc 7465 1.79%
18 lobj 2079 1.57% clf 4638 1.63% lobj 6207 1.49%
24 本標記工作以服務「意見分析」為目的,故標記內容包括意見分析所需之完整欄位,如「是否為意見 句」、「意見傾向」、「意見持有者」、「意見目標」等等。然本研究僅取「是否為意見句」之資訊為用。
非意見句 意見句 合計
24 plmod 1101 0.83% plmod 2382 0.84% lccomp 3103 0.74%
25 lccomp 1039 0.79% lccomp 2064 0.72% neg 2985 0.72%
26 mmod 846 0.64% clmpd 1903 0.67% tcomp 2843 0.68%
27 top 799 0.60% tcomp 1591 0.56% range 2820 0.68%
28 ordmod 667 0.50% top 1460 0.51% clmpd 2344 0.56%
29 etc 502 0.38% xsubj 1230 0.43% top 2259 0.54%
30 prnmod 451 0.34% tclaus 1140 0.40% tclaus 1583 0.38%
31 tclaus 443 0.34% partmod 1039 0.36% xsubj 1514 0.36%
32 clmpd 441 0.33% range 948 0.33% rcomp 1344 0.32%
33 rcomp 407 0.31% rcomp 937 0.33% partmod 1328 0.32%
34 partmod 289 0.22% etc 663 0.23% ordmod 1220 0.29%
35 xsubj 284 0.21% vmod 613 0.22% etc 1165 0.28%
36 neg 283 0.21% ba 576 0.20% vmod 866 0.21%
37 vmod 253 0.19% ordmod 553 0.19% prnmod 771 0.18%
38 comod 222 0.17% dvpm 544 0.19% ba 758 0.18%
意見句中次序較高者有:advmod(adverbial modifier,副詞性修飾子)、rcmod
(resultative modifier,結果動詞)、cpm(complementizer,補語連詞)、assm
(associative maker)、assmod(associative modifier)、mmod(modal verb modifier,
情態動詞修飾子)、neg(negative modifier,否定子)、clmpd、xsubj(controlling subject)、partmod(particles such 所,以,來,而)、ba(把)、dvpm(manner DE 地 modifier);較低者有:dep(dependent,依存關係)、numod(數量修飾子)、
conj(conjunct,連接詞)、clf(classifier modifier,分類修飾子)、range(dative object that is a quantifier phrase,作為語格受詞的數量詞)、tcomp(時間補語)、ordmod
(ordinal number modifier,序數修飾子)、etc(etc modifier,等等、諸如此類)。
由此結果可初步看出,帶有「修飾」意味之關係(情態動詞、副詞)、以及常 於修飾時出現之補語(的、地)較傾向於出現在意見句中,而客觀敘述之結構(如 數量、時間、類別、序數等)則較傾向於出現在非意見句中,初步肯定了表達意 見之語法結構確實具有特殊性。至此固暫時無法深究此差異之成因與細節,然初 步肯認表意結構之特殊性後,即可對表意結構進行進一步的探索。