• 沒有找到結果。

數位人文研究以詞性類別為指標區分文本類型之可行性研究-以漢語之人稱代詞、情態動詞及動詞為例 - 政大學術集成

N/A
N/A
Protected

Academic year: 2021

Share "數位人文研究以詞性類別為指標區分文本類型之可行性研究-以漢語之人稱代詞、情態動詞及動詞為例 - 政大學術集成"

Copied!
181
0
0

加載中.... (立即查看全文)

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政 治 大. 數位人文研究以詞性類別為指標區分文本類型之可. ‧ 國. 學. 行性研究-以漢語之人稱代詞、情態動詞及動詞為例. ‧ sit. y. Nat. Applying Part of Speech as indicators for distinguishing. er. io. corpus type in Digital Humanities Research - A case study of. n. a. v. i l CModal Verbs andn Verbs Personal Pronouns, in Chinese. hengchi U Mandarin.. 研 究 生:陳威全 指導教授:劉吉軒. 中華民國一零六年一月 January 2017.

(2) 摘要 自早期以來,資訊技術在各種不同的領域都扮演著一個輔助工具的角 色,早期像是各種領域的資料庫建立、利用邊緣偵測可作為藝術畫作的真偽 辨識、建立不同的語料庫等等,隨著科技的進步,現今對於資訊技術的應用 更是廣泛,其中數位人文即是很好的例子。在資訊科學的領域裡,我們利用 資料探勘、資訊檢索、社會網路分析等等,這些已經發展成熟的資訊技術, 應用在社會人文科學的研究領域上,除了可以建立一套有系統架構的史料文. 治 政 大 本資料庫方便檢索之外,還能夠有助於人文研究者從更多元的研究角度透視 立 自身的研究,以達到更縝密的研究成果。. ‧ 國. 學. 本研究以中央研究院漢語平衡語料庫、自由中國雜誌及取自《二二八事. ‧. 件臺灣本地新聞史料彙編》書中的台灣新生報為研究文本,將數位化後的原. y. Nat. io. sit. 始文本資料進行斷詞、詞性標記等等的前處理。本研究將定位在嘗試以人稱. er. 代名詞、情態動詞、動詞三大漢語詞類為研究元素,探討以單一詞類、雙詞. al. n. v i n 類組合、三詞類組合而形成的指標,能否使未知的研究資料利用本研究的指 Ch engchi U 標將研究資料進行初步的過濾,以利後續研究進行。. 關鍵詞:數位人文、漢語語言學、文本分析、人稱代詞、情態動詞、動詞. i.

(3) Abstract Since the early days, information technology has been playing a supporting role in various fields, such as creating databases in various fields, the use of edge detection as the authenticity of paintings, the establishment of different corpus.With the advancement of science and technology, the application of information technology is now more extensive, in which Digital Humanities is a good example. In the field of information science, we use data mining, information retrieval, social network. 政 治 大. analysis, etc., which have been well-developed, applied in the field of social and. 立. humanities science research.. ‧ 國. 學. In addition to the establishment of a systematic architecture of the historical data. ‧. for facilitating the retrieval, the text database can help the humanistic researchers to. sit. y. Nat. look into their own research from more diverse perspective, in order to achieve more. io. al. er. careful research results.. n. In this study, the Acadenia Sinica Balanced Corpus of Modern Chinese, Free. Ch. engchi. i n U. v. China Magazine and the Taiwan Shin Sheng Daily News were used as the research text. This study will focus on the three major Chinese word classes, ie, personal pronouns, modal verbs and verbs, and explore whether the indicators formed by the combination of a single word class, two-word class, and three-word class can make unknown corpus text materials use this study indicators to facilitate follow-up studies.. Keywords:Digital Humanities,Chinese Linguistics,Text Analysis,Personal Pronoun,Modal Verb,Verb. ii.

(4) 目錄 第一章  . 緒論  ....................................................................................................  1  . 1.1  . 研究背景  ...........................................................................................................  1  . 1.2  . 研究動機與目的  ................................................................................................  2  . 1.3  . 研究資料  ...........................................................................................................  4  . 1.3.1  . 台灣新生報  .....................................................................................................  5  . 1.3.2  . 自由中國雜誌  .................................................................................................  6  . 1.3.3  . 中央研究院漢語平衡語料庫  .........................................................................  7  . 立. 論文架構  ...........................................................................................................  9  . 學. ‧ 國. 1.4  . 政 治 大. 第二章  . 文獻探討與回顧  ................................................................................  11   數位人文研究之背景及發展  ...........................................................................  11  . 2.2  . 代名詞與人稱代詞  ..........................................................................................  14  . ‧. 2.1  . sit. y. Nat. 2.2.2  . 人稱代詞與人際距離之關係  .......................................................................  15  . 2.2.3  . 人稱代詞的人際心理功能與政治語言  .......................................................  16  . n. al. er. 人稱代詞  .......................................................................................................  15  . io. 2.2.1  . Ch. engchi. i n U. v. 2.3  . 情態動詞  .........................................................................................................  17  . 2.4  . 動詞  .................................................................................................................  18  . 2.5  . 詞彙共現關係  ..................................................................................................  18  . 2.6  . 小結  .................................................................................................................  20  . 第三章  . 研究流程、架構與實驗方法  .............................................................  21  . 3.1  . 研究流程與架構  ..............................................................................................  21  . 3.2  . 文本資料前處理  ..............................................................................................  23   iii.

(5) 3.2.1  . 文本異體字修正  ...........................................................................................  23  . 3.2.2  . 中文文本資料斷詞及詞性標記  ...................................................................  24  . 3.2.3  . 情態動詞“會”的修正  ...............................................................................  25  . 3.3  . 實驗  .................................................................................................................  28  . 3.3.1  . 擷取詞彙規則  ...............................................................................................  28  . 3.3.2  . 以人稱代詞、情態動詞及動詞交互搭配之指標設計  ...............................  30  . 3.4  . 實驗說明與實驗數據正規化  ...........................................................................  31  . 3.5  . 詞彙基準量的平均值與標準差   .......................................................................  35  . 3.5.1  . 平均值與標準差的計算修正  .......................................................................  36  . 學. ‧ 國. 3.5.2  . 治 政 大 ...............................  35   計算平均值與標準差之母體文本與採樣文本的選擇   立. 單詞指標  .........................................................................................................  37  . 3.7  . 雙詞指標  .........................................................................................................  37  . 3.8  . 三詞指標  .........................................................................................................  38  . ‧. 3.6  . sit. y. Nat. n. al. er. 實驗結果與分析  ................................................................................  39  . io. 第四章  . i n U. v. 4.1  . 實驗資料  .........................................................................................................  39  . 4.2  . 平衡語料庫全文與平衡語料庫依主題屬性分類後之文本比較  .......................  40  . Ch. engchi. 4.2.1  . 單詞指標結果探討  .......................................................................................  40  . 4.2.2  . 雙詞指標結果探討  .......................................................................................  47  . 4.2.3  . 三詞指標結果探討  .......................................................................................  53  . 4.3  . 自由中國雜誌與漢語平衡語料庫全文之文本比較  ..........................................  55  . 4.3.1  . 單詞指標結果探討  .......................................................................................  55  . 4.3.2  . 雙詞指標結果探討  .......................................................................................  65  . 4.3.3  . 三詞指標結果探討  .......................................................................................  78   iv.

(6) 4.4  . 自由中國雜誌與平衡語料庫屬性為一般雜誌之文本比較  ..............................  81  . 4.4.1  . 單詞指標結果探討  .......................................................................................  81  . 4.4.2  . 雙詞指標結果探討  .......................................................................................  91  . 4.4.3  . 三詞指標結果探討  .....................................................................................  101  . 4.5  . 台灣新生報與漢語平衡語料庫報紙屬性之文本的比較  ................................  106  . 4.5.1  . 單詞指標結果探討  .....................................................................................  106  . 4.5.2  . 雙詞指標結果探討  .....................................................................................  117  . 4.5.3  . 三詞指標結果探討  .....................................................................................  128  . 第五章  . 政 治 大 研究結論與未來研究方向  ...............................................................  132   立. 研究結論  .......................................................................................................  132  . 5.2  . 研究限制  .......................................................................................................  134  . 5.3  . 未來研究方向  ................................................................................................  135  . ‧. ‧ 國. 學. 5.1  . y. Nat. er. io. sit. REFERENCE  .........................................................................................................  136   附錄  ...................................................................................................................  140  . al. n. v i n C 平衡語料庫依「主題」分類的文本 :漢語平衡語料庫全文hv.s.  ..............  140   engchi U. 附錄 A  . 附錄 B:漢語平衡語料庫全文 v.s.自由中國雜誌  ......................................................  147   附錄 C:自由中國雜誌 v.s.漢語平衡語料庫「一般雜誌」屬性之文本  ....................  154   附錄 D:台灣新生報 v.s.漢語平衡語料庫「報紙」屬性之文本  ...............................  161  . v.

(7) 圖目錄 圖   1.4.1、論文架構  .............................................................................................................  10   圖   2.5.1、字詞共現網路建立流程  .....................................................................................  19   圖   3.1.1、研究流程架構  .....................................................................................................  22   圖   4.2.1、人稱代詞之單詞指標統計結果(次/百萬詞)  ................................................  42   圖   4.2.2、情態動詞之單詞指標統計結果(次/百萬詞)  ................................................  43   圖   4.2.3、、動詞之單詞指標統計結果 TOP  3(次/百萬詞)  .........................................  45  . 政 治 大. 圖   4.2.4、動詞之單詞指標統計結果 TOP  4~25(次/百萬詞)  .......................................  45  . 立. 圖   4.2.5、二字以上動詞之單詞指標統計結果(次/百萬詞)  ........................................  46  . ‧ 國. 學. 圖   4.2.6、人稱代詞與情態動詞組合的雙詞指標統計結果 TOP  25(次/百萬詞)  ........  48  . ‧. 圖   4.2.7、人稱代詞與動詞之組合的雙詞指標統計結果 TOP  25(次/百萬詞)  ...........  49  . sit. y. Nat. 圖   4.2.8、人稱代詞與二字以上動詞之組合的雙詞指標統計結果 TOP  1(次/百萬詞). io. al. er.  ...........................................................................................................................................  50  . n. 圖   4.2.9、人稱代詞與二字以上動詞之組合的雙詞指標統計結果 TOP  25(次/百萬詞). Ch. engchi. i n U. v.  ...........................................................................................................................................  50   圖   4.2.10、情態動詞與動詞之組合的雙詞指標統計結果 TOP  25(次/百萬詞)  .........  52   圖   4.2.11、情態動詞與二字以上動詞之組合的雙詞指標統計結果 TOP  25(次/百萬 詞)  ...................................................................................................................................  52   圖   4.2.12、人稱代詞、情態動詞與、動詞組合的三詞指標結果 TOP  25(次/百萬詞)  ...........................................................................................................................................  54   圖   4.2.13、人稱代詞、情態動詞、二字以上動詞組合的三詞指標結果 TOP  25(次/百 萬詞)  ...............................................................................................................................  54   vi.

(8) 圖   4.3.1、人稱代詞之單詞指標統計結果(次/百萬詞)  ................................................  57   圖   4.3.2、會(D)的平均值與標準差分佈及標準常態分佈圖  ............................................  58   圖   4.3.3、情態動詞之單詞指標統計結果(次/百萬詞)  ................................................  59   圖   4.3.4、動詞之單詞指標統計結果(次/百萬詞)  ........................................................  61   圖   4.3.5、二字以上動詞之單詞指標統計結果(次/百萬詞)  ........................................  61   圖   4.3.6、“自由(VH)”的平均值與標準差分佈及標準常態分佈圖  ................................  63   圖   4.3.7、動詞之單詞指標統計結果(次/百萬詞)  ........................................................  64   圖   4.3.8、二字以上動詞之單詞指標統計結果(次/百萬詞)  ........................................  64  . 治 政 大TOP 25(次/百萬詞)  ........  67   圖 4.3.9、人稱代詞與情態動詞組合的雙詞指標統計結果 立  .  . 圖   4.3.10、人稱代詞與情態動詞組合的雙詞指標統計結果 TOP  25(次/百萬詞)  ......  67  . ‧ 國. 學. 圖   4.3.11、人稱代詞與動詞組合的雙詞指標統計結果 TOP25(次/百萬詞)  ..............  71  . ‧. 圖   4.3.12、人稱代詞、二字以上動詞組合的雙詞指標統計結果 TOP25(次/百萬詞). sit. y. Nat.  ...........................................................................................................................................  71  . n. al. er. io. 圖   4.3.13、人稱代詞與動詞組合的雙詞指標統計結果 TOP25(次/百萬詞)  ..............  72  . i n U. v. 圖   4.3.14、人稱代詞、二字以上動詞組合的雙詞指標統計結果 TOP25(次/百萬詞). Ch. engchi.  ...........................................................................................................................................  72   圖   4.3.15、情態動詞、動詞組合的雙詞指標統計結果 TOP25(次/百萬詞)  ..............  76   圖   4.3.16、情態動詞、二字以上動詞組合的雙詞指標統計結果 TOP25(次/百萬詞)  ...........................................................................................................................................  76   圖   4.3.17、情態動詞、動詞組合的雙詞指標統計結果 TOP  25(次/百萬詞)  .............  77   圖   4.3.18、情態動詞、二字以上動詞組合的雙詞指標統計結果 TOP25(次/百萬詞)  ...........................................................................................................................................  77  . vii.

(9) 圖   4.3.19、人稱代詞、情態動詞、動詞組合的三詞指標統計結果 TOP25(次/百萬 詞)  ...................................................................................................................................  79   圖   4.3.20、人稱代詞、情態動詞、二字以上動詞組合的三詞指標統計結果 TOP25(次 /百萬詞)  ..........................................................................................................................  79   圖   4.3.21、人稱代詞、情態動詞、動詞組合的三詞指標統計結果 TOP25(次/百萬 詞)  ...................................................................................................................................  80   圖   4.3.22、人稱代詞、情態動詞、二字以上動詞組合的三詞指標統計結果 TOP25(次 /百萬詞)  ..........................................................................................................................  80  . 治 政 大 ..............................  83   圖 4.4.1、“我們(N )”的平均值與標準差分佈及標準常態分佈圖   立  . H. 圖   4.4.2、人稱代詞之單詞指標結果統計(次/百萬詞)  ................................................  83  . ‧ 國. 學. 圖   4.4.3、“應(D)”的平均數與標準差分佈及標準常態分佈圖  ....................................  84  . ‧. 圖   4.4.4、情態動詞之單詞指標統計結果(次/百萬詞)  ................................................  85  . sit. y. Nat. 圖   4.4.5、動詞之單詞指標統計結果 TOP25(次/百萬詞)  ............................................  87  . n. al. er. io. 圖   4.4.6、二字以上動詞之單詞指標統計結果 TOP25(次/百萬詞)  ............................  87  . i n U. v. 圖   4.4.7、提供(VD)的平均與標準差分佈及標準常態分佈圖  ..........................................  88  . Ch. engchi. 圖   4.4.8、動詞之單詞指標統計結果 TOP25(次/百萬詞)  ............................................  90   圖   4.4.9、二字以上動詞之單詞指標統計結果 TOP25(次/百萬詞)  ............................  90   圖   4.4.10、人稱代詞、情態動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ......  93   圖   4.4.11、人稱代詞、情態動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ......  93   圖   4.4.12、人稱代詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ..............  96   圖   4.4.13、人稱代詞、二字以上動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ...........................................................................................................................................  96   圖   4.4.14、人稱代詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ..............  97   viii.

(10) 圖   4.4.15、人稱代詞、二字以上動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ...........................................................................................................................................  97   圖   4.4.16、情態動詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ..............  99   圖   4.4.17、情態動詞、二字以上動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ...........................................................................................................................................  99   圖   4.4.18、情態動詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ............  100   圖   4.4.19、情態動詞、二字以上動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  .........................................................................................................................................  100  . 治 政 大 圖 4.4.20、“我們(N )可以(D)看到(VE)”的平均與標準差分佈及標準常態分佈圖   ...  102   立  . H. 圖   4.4.21、人稱代詞、情態動詞、動詞組合之三詞指標統計結果 TOP25(次/百萬. ‧ 國. 學. 詞)  .................................................................................................................................  104  . ‧. 圖   4.4.22、人稱代詞、情態動詞、二字以上動詞組合之三詞指標統計結果 TOP25(次. sit. y. Nat. /百萬詞)  ........................................................................................................................  104  . n. al. er. io. 圖   4.4.23、人稱代詞、情態動詞、動詞組合之三詞指標統計結果 TOP25(次/百萬. i n U. v. 詞)  .................................................................................................................................  105  . Ch. engchi. 圖   4.4.24、人稱代詞、情態動詞、二字以上動詞組合之三詞指標統計結果 TOP25(次 /百萬詞)  ........................................................................................................................  105   圖   4.5.1、“你們(NH)”的平均與標準差分佈及標準常態分佈圖  ...................................  108   圖   4.5.2、人稱代詞之單詞指標結果統計(次/百萬詞)  ..............................................  108   圖   4.5.3、“應當(D)”的平均數與標準差分佈及標準常態分佈圖  ..............................  110   圖   4.5.4、情態動詞之單詞指標結果統計(次/百萬詞)  ..............................................  111   圖   4.5.5、動詞之單詞指標結果統計 TOP25(次/百萬詞)  ..........................................  115   圖   4.5.6、過濾後的動詞之單詞指標結果統計 TOP25(次/百萬詞)  ..........................  115   ix.

(11) 圖   4.5.7、動詞之單詞指標結果統計 TOP25(次/百萬詞)  ..........................................  116   圖   4.5.8、過濾後的動詞之單詞指標結果統計 TOP25(次/百萬詞)  ..........................  116   圖   4.5.9、“我們(NH)要(D)”的平均與標準差分佈及標準常態區間分佈圖  ...............  119   圖   4.5.10、人稱代詞、情態動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ....  119   圖   4.5.11、人稱代詞、情態動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ....  120   圖   4.5.12、人稱代詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ............  122   圖   4.5.13、人稱代詞、過濾後的動詞組合之雙詞指標統計結果(次/百萬詞)  ........  122   圖   4.5.14、人稱代詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ............  124  . 治 政 大 ........  124   圖 4.5.15、人稱代詞、過濾後的動詞組合之雙詞指標統計結果(次/百萬詞)   立  . 圖   4.5.16、情態動詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ............  126  . ‧ 國. 學. 圖   4.5.17、情態動詞、過濾後的動詞組合之雙詞指標統計結果(次/百萬詞)  ........  126  . ‧. 圖   4.5.18、情態動詞、動詞組合之雙詞指標統計結果 TOP25(次/百萬詞)  ............  127  . sit. y. Nat. 圖   4.5.19、情態動詞、過濾後的動詞組合之雙詞指標統計結果(次/百萬詞)  ........  127  . er. io. 圖   4.5.20、人稱代詞、情態動詞、動詞組合之三詞指標統計結果 TOP25(次/百萬. n. al. i n U. v. 詞)  .................................................................................................................................  130  . Ch. engchi. 圖   4.5.21、人稱代詞、情態動詞、過濾後的動詞組合之三詞指標統計結果 TOP25(次 /百萬詞)  ........................................................................................................................  130   圖   4.5.22、人稱代詞、情態動詞、動詞組合之三詞指標統計結果 TOP25(次/百萬 詞)  .................................................................................................................................  131   圖   4.5.23、人稱代詞、情態動詞、過濾後的動詞組合之三詞指標統計結果 TOP25(次 /百萬詞)  ........................................................................................................................  131  .  .  . x.

(12) 表目錄 表   1.3.1、中央研究院漢語平衡語料庫文本  .......................................................................  8   表   1.3.2、台灣新生報與自由中國雜誌排除文藝篇文本  ...................................................  8   表   3.2.1、各實驗文本“會”的前綴詞統計,TOP15。  .......................................................  27   表   3.3.1、人稱代詞類型  .....................................................................................................  29   表   3.3.2、情態動詞列表   [欄位:詞彙/對應中研院 CKIP 詞性標記]  ..............................  29   表   3.4.1、未經過正規化之統計資料數據(單位:次)  .................................................  33  . 政 治 大. 表   3.4.2、經過正規化後之統計資料數據(單位:次/百萬)  ........................................  34  . 立. 表   3.5.1、刪除 0 值前後,“你(NH)”的平均值與標準差之變化  ..................................  37  . ‧ 國. 學. 表   4.3.1、“我(NH)”、“我們(NH)”、“他們(NH)”在自由中國雜誌與平衡語料庫全. ‧. 文比較中的次數(次/百萬詞)與標準差數(個)  ......................................................  57  . sit. y. Nat. 表   4.3.2、“自由(VH)”、“反共(VH)”、“革命(VA)”、“民主(VH)”、“和平. io. al. er. (VH)”、“獨立(VH)”在自由中國雜誌與平衡語料庫全文比較中的次數(次/百萬. n. 詞)與標準差數(個)  ....................................................................................................  62  . Ch. engchi. i n U. v. 表   4.3.3、(對應圖 4.3.9)人稱代詞與情態動詞   在自由中國雜誌與平衡語料庫全文 比較中的標準差數  ...........................................................................................................  66   表   4.3.4、(對應圖 4.3.12)人稱代詞與動詞在自由中國雜誌與平衡語料庫全文比較 中的次數(次(/百萬詞)與標準差數(個)  ..............................................................  70   表   4.3.5、(對應圖 4.3.16)雙詞在自由中國雜誌與平衡語料庫全文比較中的次數 (次/百萬詞)與標準差數(個)  ..................................................................................  75   表   4.4.1、(對應圖 4.4.1)人稱代詞在自由中國雜誌與平衡語料庫-­‐一般雜誌比較中的 次數(次/百萬詞)與標準差數(個)  ..........................................................................  82   xi.

(13) 表   4.4.2、動詞單詞在自由中國雜誌與平衡語料庫-­‐一般雜誌比較的次數(次/百萬 詞)與標準差數(個)  ....................................................................................................  86   表   4.4.3、(對應圖 4.4.6)動詞單詞在自由中國雜誌與平衡語料庫-­‐一般雜誌比較地標 準差數  ...............................................................................................................................  89   表   4.4.4、“我們(NH)要(D)”、“我們(NH)可以(D)”、“我們(NH)必須(D)”在自由中 國雜誌與平衡語料庫-­‐一般雜誌比較的次數(次/百萬詞)與標準差數(個)  ..........  92   表   4.4.5、“使(VL)我們(NH)”、“使(VL)他們(NH)”在自由中國雜誌與平衡語料庫-­‐一 般雜誌比較的次數(次/百萬詞)與標準差數(個)  ..................................................  94  . 治 政 大 表 4.4.6、“會(D)有(V_2)”、“要(D)有(V_2)”在自由中國雜誌與平衡語料庫-­‐一般雜 立  . 誌比較中的次數(次/百萬詞)與標準差數(個)  ......................................................  98  . ‧ 國. 學. 表   4.4.7、“我們(NH)可以(D)說(VE)”、“我們(NH)可以(D)看出(VE)”、“我們(NH)可以. ‧. (D)看到(VE)”在自由中國雜誌與平衡語料庫-­‐一般雜誌比較中的次數(次/百萬詞). sit. y. Nat. 與標準差數(個)  .........................................................................................................  102  . n. al. er. io. 表   4.5.1、人稱代詞在台灣新生報與平衡語料庫-­‐報紙比較中的次數(次/百萬詞)與. i n U. v. 標準差數(個)  .............................................................................................................  107  . Ch. engchi. 表   4.5.2、情態動詞在台灣新生報與平衡語料庫-­‐報紙比較中的次數(次/百萬詞)與 標準差數(個)  .............................................................................................................  109   表   4.5.3、(對應圖 4.5.5)動詞單詞在台灣新生報與平衡語料庫-­‐報紙比較中的次數 (次/百萬詞)與標準差數(個)  ................................................................................  113   表   4.5.4、“我們(NH)希望(VK)”、“我(NH)希望(VK)”在台灣新生報與平衡語料庫-­‐報 紙比較中的次數(次/百萬詞)與標準差數(個)  ....................................................  121   表   4.5.5、雙詞在台灣新生報與平衡語料庫-­‐報紙比較中的標準差數  ..........................  123  . xii.

(14) 表   4.5.6、(對應圖 4.5.21)三詞在台灣新生報與平衡語料庫-­‐報紙比較中的次數(次/ 百萬詞)與標準差數(個)  ..........................................................................................  129  .  . 公式目錄 公式   3.4.1、計算詞彙在不同文本間之相對頻率  .............................................................  32   公式   3.5.1、標準差公式  ...............................................................................................................  36  . 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. xiii. i n U. v.

(15) 第一章. 緒論. 1.1   研究背景. 早期人們習慣以紙張作為保存所有資訊的工具,以備日後需要重新檢視、查 詢、研究等等用途,然而隨著時間的堆疊,人們為了保存大量的資訊而使用的紙本. 治 政 大 所佔據的空間也隨著時間而不斷的增加,又因紙本的資料無法承受經年累月的風 立 ‧ 國. 學. 化,造成保存的難度更高。同時,若被保存下來的紙本資料因為不斷的積累而過於 龐大,也會造成研究者不易查詢或研究;數位化的概念是基於資訊技術的基礎將舊. ‧. 有的紙本資料有系統的建檔、歸類,建立一個有結構系統且易於查詢的電子資料. Nat. sit. y. 庫,於是,隨著數位化概念的漸趨成熟,形成大量的紙本資料被數位化的風氣,特. n. al. er. io. 別是在社會人文科學領域裡,更是希望能夠藉由數位化的動作來將過去的紙本資料. i n U. v. 完善的保存下來,另一方面也可避免紙本資料因為被過度地翻閱造成原始資料的毀. Ch. 損(項潔、凃豐恩,2011)。. engchi. 有了這些資料的保存方式,則興起了數位人文研究,數位人文是一個很廣的研 究領域,主要是著重在以資訊技術的方法達成以往人文學研究較難以完成的事,比 較常見到的是替大量的文本建立一個有系統的平台或者資料庫提供給研究文本的研 究者更便利的查詢文本內資訊。. 1.

(16) 而研究者開始著手於數位化文本的研究後,觀察語言特徵的研究對數位人文來 說也是一個很重要的方向,在舉凡士、農、工、商,各行各業所保存下來的文字記 錄之中,利用一些簡單的資訊檢索工具來檢視人類智慧的結晶(項潔、陳麗華, 2014);其中,語言牽繫著每一個文明的發展,從古自今語言經過不斷的淬煉,發 展出一套獨有的系統結構,讓人們能夠加速彼此的溝通及文化的交流,因此,利用 資訊技術提取的語言特徵更可以比較有系統性且較客觀的來分析文本主題特色的特. 政 治 大 強大到能夠辨識人類所能理解的語言文字的意義及精神,所以數位人文研究如何能 立 徵或者是作者寫作的風格特徵等等。然而,在現今科技的發展下,電腦卻還不足以. ‧ 國. 學. 妥善的利用資訊科技所帶來的力量,來使兩個領域的結合更上一層樓變成學術研究 上一個非常重要的課題。例如:紅樓夢一書中,前八十回與後四十回的作者是否同. ‧. 為曹雪芹先生,一直以來都是使用資訊技術於文本分析中較具知名度的議題(杜協. y. Nat. io. sit. 昌, 2012);又例如:筆名為 Robert Galbraith 所著小說《The Cuckoo's Calling》被. er. 電腦科學家使用資訊技術檢驗後發現,其實 Robert Galbraith 其實是英國著名小說. n. al. i n C h 的所虛構的作者。 《Harry Potter》作者 J.K. Rowling engchi U. v. 1.2   研究動機與目的. 在非結構化資料的使用以及分析上,一直與有條不紊的結構化資料差異極大, 近年來數位人文議題在資訊領域的研究不外乎是利用過去歷史上所記錄下來的文本 (通常是非結構化的資料)進行一連串的剖析研究,其研究的流程架構為將原始的 2.

(17) 歷史文本資料進行數位化,其次,較常為研究者所使用的方法是將經過數位化後的 文本資料進行語句的斷詞,依據斷詞後每個語詞的詞性進行詞頻統計接著篩選出所 謂的關鍵詞彙,基於詞頻統計、關鍵詞彙的結果,研究者再利用各種資訊技術的運 算進行下一步的分析。例如透過字詞共現關係的計算去判別特定詞彙與同一個句子 內其他詞彙之間的相關性。當研究者想要對中文做分析時,受限於中文不同於英文 在單字與單字之間有著明確的空白符號作間隔,並且單一中文字詞可能含有多種意. 政 治 大 文領域研究中已經是一項不可或缺的步驟。 立. 義的語言特性,對於大多數中文文本來說,斷詞技術即顯得非常重要,且在數位人. ‧ 國. 學. 在具有豐富表達方式的漢語中,代名詞是非常重要的詞彙集合之一,簡言之,. ‧. 代名詞的主要目的為代替在文章中之前後文可能出現過的人、事、物。代名詞種類. sit. y. Nat. 包含了人稱代名詞(人稱代詞)、指示代名詞(指示代詞)以及疑問代名詞(疑問. io. al. er. 代詞);其中人稱代詞為人們表達自我意見、情緒、指稱他人亦或者是涵蓋社會指. v. n. 示層面的重要語詞之一。在所有人際互動的的情境或言談中,人們利用人稱代詞製. Ch. engchi. i n U. 造對立或者認同,為了能夠更精準的了解人稱代詞在文句中的意義與其所代表的交 際結構,深入分析人稱代詞所代表的意義及其與文句中其餘詞彙之間的關聯是有必 要的。 漢語中亦有表達情緒之詞彙,本文研究的指標元素之一為情態動詞,情態動詞 裡的“情態”,一般而言指的是說話者對於語句的態度或想表達的觀點,情態的表. 3.

(18) 現往往會包含著不同的屬性,例如:可能性、或然性、能力、義務、認知……等。 而本文所討論的情態動詞即是指用來傳達具有情態意涵的詞語。 此外,動詞為漢語中表示動作、行為、變化、存在或意願的詞。在大多數的漢 語文句中,主謂句通常以主語加述語的型態出現為主,而述語的主軸又尤以動詞為 重,故若我們想要更深入的探究文本內涵,使用動詞作為分析文本的元素,相信對 文本的結構解析會有一定程度的進展。. 治 政 大 在不同的文本資料中,相同的主題都有可能會因為作者寫作的風格相異或是聚 立 ‧ 國. 學. 焦的人、事、物不同造成用字遣詞、語氣以及立場上的差別,更遑論討論不相同的 主題或焦點。然而是否能夠有一個較為通用性的方法能夠粗略地將文本與文本之間. ‧. 稍微區隔開以便接續下去的研究工作是本研究想要探討的議題。. n. al. er. io. sit. y. Nat. 1.3   研究資料. Ch. engchi. i n U. v. 在實驗資料的部分本研究採用中央研究院漢語平衡語料庫、自由中國雜誌、台 灣新生報為實驗資料,其中台灣新生報涵蓋日期為 1947 年 2 月 28 日至 1947 年 5 月 15 日,中間不包含 1947 年 3 月 10 日(以下研究實驗提及台灣新生報時同此, 不另贅述),中央研究院漢語平衡語料庫全數作為一個文本之外也可以依照屬性分 類過後的部分文本作為實驗用的資料,用這些文本來檢視本研究實驗之單詞指標、 雙詞指標、三詞指標是否可行。. 4.

(19) 1.3.1  . 台灣新生報. 本研究所使用的資料之一為來自國立政治大學新聞系林元輝教授率同從事新聞 研究之博士生共同籌劃、蒐集、整理事件發生前後官方及民營報紙的相關報導,彙 編成專書的《二二八事件臺灣本地新聞史料彙編》,其真實呈現台灣戰後政治、經 濟、社會、文化等背景與官民媒體對屠殺事件不同面向之報導與觀點。. 政 治 大 導,網羅《台灣新生報》、《和平日報》、《重建日報》、《民報》、《人民導 立. 在實驗資料的部分,彙集了 1947 年二二八事件發生後台灣本地的相關新聞報. ‧ 國. 學. 報》、《大明報》、《興臺日報》、《中外日報》、《中華日報》及《警備總部公 報或佈告》,收錄時間為事件引爆點翌日之 1947 年 2 月 28 日起,至 1947 年 5 月. ‧. 15 日統治者清鄉結束止,全篇約 88 萬字。. sit. y. Nat. io. al. er. 除了《警備總部公報或佈告》是屬於政府公告外其他都是新聞報刊,其中可以. v. n. 根據發報單位大致上將報刊分為官營報刊或者是民營報刊,像《中華日報》、《台. Ch. engchi. i n U. 灣新生報》、《和平日報》就是屬於官營報刊,其餘都為民營報刊,各個報刊每天 刊登的新聞少則一兩則,多則數十則,收錄時間範圍內全程出報者只有中國國民黨 臺灣省黨部機關報的《中華日報》,《警備總部公報或佈告》、《台灣新生報》則 是於 3 月 10 日停刊一日,至於民間各報都於 3 月 8、9 兩日遭毀,故所收錄的民報 均為三月八日前民營報紙之報導,總計收《台灣新生報》報導約 43 萬字、《中華 日報》約 24 萬字、《和平日報》三月間新聞報導約 10 萬 5,000 字、當時《警備總. 5.

(20) 部公報或佈告》為 42 則大約 12,207 字,而民營報紙合計不及十萬字,若嚴謹不計 國民黨的外圍刊物《重建日報》,則名符其實的民間報紙新聞僅有 82,113 字。 在二二八事件臺灣本地新聞史料彙編中,由於許多報刊並無完整紀錄整個事件 的始末,因此有資料量過少的因素,故本研究將使用從 1947 年 2 月 28 日至 1947 年 5 月 15 日有完整報導二二八事件的台灣新生報史料文本作為其中一個比較的研 究資料。台灣新生報在 1947 年 3 月 10 日停刊一日,而台灣新生報在停刊前後的報. 政 治 大. 導角度迥然不同,在停刊前較為真實的呈現事件發生當下,人民與政府所採取的行. 立. 動與反應,包含指責查緝私煙的人員攜帶槍械並開槍傷人;然而在停刊一日之後,. ‧ 國. 學. 台灣新生報在報導的態度轉而批判民眾滋事、指責人民的行為是無理的抗爭行為。. ‧. 1.3.2  . 自由中國雜誌. sit. y. Nat. io. al. er. 本研究所使用的資料之二為胡適、雷震等人於 1949 年 11 月創辦的自由中國雜. v. n. 誌,自由中國雜誌以新聞自由、言論自由的基本人權為基礎,經由政治的論述,宣. Ch. engchi. i n U. 揚民主憲政之相關理念,在當時國民黨戒嚴體制之下給予後起的台灣黨外民主運動 相當大的思想啟發,雜誌原本旨在希望藉由任用自由派人物以改善政府在人民心中 較為刻板的印象;此外在國民黨實施黨改造後,強人威權政治體制逐漸成形、鞏 固。黨內相較之下較為自由派的政治人物也對於蔣中正的政策有些微詞,逐漸離開 握有權力核心的國民黨。於此,自由中國雜誌的編輯風格也在無形中改變,以往對. 6.

(21) 於共產主義的批評愈來愈少,反之在檢討台灣內部政治民生問題之聲逐漸壯大,自 由中國雜誌同時也批評國民黨政府,因此和執政當局的關係逐漸惡化。 實驗資料的部分,自由中國雜誌由國立政治大學雷震研究中心提供,共彙集了 自由中國雜誌自 1949 年 11 月至 1960 年 9 月,共 23 卷又 5 期,共計 260 本,3628 篇。其中,自由中國雜誌除了主要為新聞自由、言論自由等較為政治性議題的論述 外,亦有一欄專為刊登文藝類文章的文藝欄,文藝類別之文章共有 478 篇,佔總文. 政 治 大. 章篇數的 13%,因本研究主要將重點放在政治性議題的文章,若不將文藝類別文章. 立. 排除可能會模糊政治性文章的焦點,故以下提及之自由中國雜誌皆為已排除文藝類. ‧ 國. 學. 之文本,實驗資料也是使用已排除文藝類之自由中國雜誌,不另行註解。. ‧. 1.3.3  . 中央研究院漢語平衡語料庫. sit. y. Nat. io. al. er. 本研究所使用的資料之三為中央研究院漢語平衡語料庫(簡稱為 Sinica. v. n. Corpus)為一包含一千多萬目詞的帶標記平衡語料庫。語料庫中每個文句都依詞為. Ch. engchi. i n U. 單位斷開,並標示每個詞彙的詞類標記。語料的蒐集也盡量做到平均分配在不同的 主題和語式上,是現代漢語無窮多的語句中一個代表性的樣本。所蒐集的文章為 1981 年到 2007 年之間的文章。語料庫共有 19,247 篇文章;1,396,133 句數; 11,245,330 個詞數 (word token) ;239,598 個詞形 (word type);17,554,089 個字數 (character token)。其中,平衡語料庫又依照六大不同的屬性階層將整個平衡語料庫. 7.

(22) 的文章做更細的分類,本實驗取其中“主題”、“媒體”,兩個屬性內的分類作為 比較的文本。如下表 1.3.1。. 文本. 詞數. 篇數. 比例. 19,247. N/A. 中央研究院 平衡語料庫 11,196,602. 20%. 生活. 政 治2,525大 2,253,090 5,461. 社會. 3,628,532. 7,466. 32%. 科學. 1,132,369. 1,482. 哲學. 1,129,539. 1,378. 10%. 藝術. 849,182. 935. 報紙. 4,452,290. 12,335. ‧. 全文. 一般雜誌. 2,542,289. 1,978. 20%. 學. 10% 8%. y. Nat. 40% 23%. io. 表 1.3.1、中央研究院漢語平衡語料庫文本. n. al. er. ‧ 國. 立. 2,244,552. sit. 文學. Ch. engchi. 文本. 詞數. 台灣新生報. 327,403. 自由中國雜誌 排除文藝篇. 8,246,147. i n U. v. 篇數. 3,150. 表 1.3.2、台灣新生報與自由中國雜誌排除文藝篇文本. 8.

(23) 1.4   論文架構. 本論文研究架構如下圖 1.4.1 所示,第一章首先針對研究背景做一個完整的闡 述,再分別針對數位人文研究的發展歷史及現況、資訊技術在早期的應用以及當數 位人文研究使用了資訊技術的方法後,兩者之間的緊密結合著實影響了數位人文研 究,使之有更快速的發展,接著說明研究動機、研究目的以及本研究使用的資料文. 政 治 大. 本;第二章一開始先提及與本研究相關的技術背景,主要分兩個重點部份,一為以. 立. 數位人文研究為主軸,介紹數位人文的發展概況,二為資訊技術的介入,造成數位. ‧ 國. 學. 人文研究發展的優缺點及影響;其次是從文史資料被提取意義的角度切入,當前大. ‧. 量數位資料的時代裡,文史學者的精神若能與資訊方法更細緻地融接,則可脫離以. sit. y. Nat. 往研究的束縛,進一步達到不同的研究層次。第三章為整個研究的實驗章節,詳細. io. al. er. 說明整體實驗的流程及步驟。第四章將延續第三章所產出的實驗結果,說明實驗結. v. n. 果所達到的效果及優點與缺點。第五章為本研究論文之結論以及未來可發展應用的. Ch. 願景,並對未來研究的建議。. engchi. 9. i n U.

(24) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. 圖 1.4.1、論文架構. 10. v.

(25) 第二章. 文獻探討與回顧. 本章節將會介紹與本研究相關的文獻資料。首先,從數位人文研究的歷史以及 發展開始介紹,並說明近年來資訊技術在數位人文研究的相關貢獻,以及本研究欲 將資訊技術加入語言學領域的相關回顧,接著介紹語言學中關於人稱代詞、情態動 詞、動詞的相關研究。本章節之目的在於透過相關領域背景及發展的探討,讓讀者. 政 治 大. 能容易理解本研究所涉及之相關技術,進而認同本研究之貢獻。. 學. ‧ 國. 立. 2.1   數位人文研究之背景及發展. ‧. 數位人文研究為借助數位資訊的科技技術所能進行的人文研究,在以往沒有資. y. Nat. io. sit. 訊技術的時代,研究者苦於無法處理的資料、議題,或是難以觀察得到的現象都在. er. 數位人文研究所要探討的範疇內;近年來,世界各地的研究者著手進行數位化後產. al. n. v i n Ch 生的大資料造成在針對文本分析的學術研究上迅速的發展成長,不論是史料、文學 engchi U 叢書、商業數據,各種各式的資源都將成為新穎研究的對象(Pressman & Swanstrom ,2013)。 過去對於人文研究的方式絕大多數是由研究者透過人力通讀文本資料後,基於 研究者本身的認知基礎對文本資料進行理解、分析,並歸納出結論,然而這樣的研 究結果通常會有兩個極明顯的討論空間,一者因為文本資料數量過大,而無法複. 11.

(26) 製,使得極少人有機會完整閱讀整份文本,二者因為閱讀文本的研究者對於文本的 分析詮釋多為依賴本身認知、學識觀點,兩者因素易造成研究無法被驗證的結果。 資訊與科技的進步不僅影響了科學研究,對人文學的研究也造成了很大的影響,數 位人文為利用電腦導向技術,為探索人文領域新研究主題及幫助解答人文領域的研 究問題而出現的新興學科(王汎森,2014)。資訊技術工具為人文學術研究者帶來 便利,同時也為科技技術與歷史文獻之間建立一個新的連接角度(Pressman & Swanstrom, 2013)。. 立. 政 治 大. 而資訊技術工具為學術研究帶來了很大的轉變,數位人文的出現,導致電腦工. ‧ 國. 學. 作及文學研究也都發生了很大的變化。像是 Google Books 也在致力使數位文本的數. ‧. 量以驚人的速度成長,龐大的資料量,研究者以既有的檢索技術、統計量化的方法. sit. y. Nat. 進行大量資料的文本、數據分析,此時使用的統計方法可藉由量化的觀察來得到某. io. al. er. 些散佈於資料中,隱含的資料訊息。無論是文獻分析或文學詮釋,藉由資訊的技術. v. n. 發展而來的工具、方法與產物都將使數位資料與資料庫成為文學相關研究的重要資. Ch. engchi. i n U. 源與途徑。此外,藉由社會網路分析的技術,可以有助於研究者有效快速地察覺個 體之間連結,像是藉由探討數位化後的文獻資料庫能夠快速瞭解領域中的代表文獻 以及研究之間的互相影響、趨向。 人文學是一門以人文為核心、記錄人類的各項日常、追求人文豐富性的學問, 過去人們直覺認為人文與數位是相對的,如今人們漸漸發現“數位”一詞所涵蓋的 力量可以幫助人類開啟人文世界的研究豐富性,所以在發掘人文的過程中,人類多 12.

(27) 了一位強而有力的夥伴,兩者互相合作,必定將在未來開啟更多的可能(鄭文惠, 2014)。 然而,回歸數位人文研究得以進行的要件,其中之一則是資料,資料為進行數 位人文研究的根基,但在現實環境中,資料的取得時常受限於版權、私人、機構、 政府等等不同的限制下,造成取得資料的困難度增加,此一環境也是數位人文研究 所要面臨的挑戰之一。(Christine, 2016). 治 政 大 本研究欲以語料庫、文本分析、詞彙討論等方法,研究不同文本中詞彙以及詞 立 ‧ 國. 學. 彙組合的使用模式。而學者 Paul Baker (2014)也曾以英國媒體的新聞語料為例,並. 以詞頻、詞彙共現、關鍵詞檢索等分析方法,對新聞媒體中的特定議題作出評論及. ‧. 論述分析。此外,學者羅盤針、鄭碩、江安淇、曾博揚 (2016),也以語料庫分析、. Nat. sit. y. 詞彙網路分析、詞頻統計分析、特定詞彙分析,最後導入了歷史研究的角度,以聯. n. al. er. io. 合知識庫內包含的六大報刊為語料庫,探討性別、跨性別及與之相關聯的詞彙在新 聞媒體報導中的面向。. Ch. engchi. i n U. v. 整體而言,數位人文研究發展至今,最豐碩的成果可以說是來自於文獻資料的 數位化,以及能夠相應處理文本的資訊檢索能力,因此,以語料庫為研究根基,各 式數位資訊技術為工具,探討各個社會人文領域中的議題之型態,已然是數位人文 研究最主要的研究模式之一。而在本研究所要探討的是以詞彙、詞性類型在數位化 後的文本資料中進行的分析討論。. 13.

(28) 2.2   代名詞與人稱代詞. 大多數的語言都有使用所謂的代名詞,代名詞顧名思義即是代替名詞的詞彙, 代名詞的使用時機並沒有一定的規範限制,通常是當前綴的名詞過長或是指涉的名 詞範圍過大,而會使用代名詞來作為一個替代前綴詞的詞彙。 其中又以代名詞分類中的人稱代詞子類一直以來便是許多語言學學者長期關注. 治 政 大 的議題,其使用的目的經常是可以給予人們在不同情境下說話的動機或創作的靈感 立 ‧ 國. 學. 一個巧妙的點綴,並且在各種情境及人們交際中扮演著舉足輕重的角色。在言談之 中,考慮到言談交際用語的結構,只有從第一人稱說話人的角度能夠完整的符合言. ‧. 語主體的一致,而其他第二、第三人稱則是由第一人稱說話人所決定的客體(鄭盈. io. sit. y. Nat. 盈,2014)。. er. 漢語代名詞除了最常在言談中使用到的單複數人稱代詞之外,對於指涉不同的. al. n. v i n Ch 人、事、物也會有不同的代名詞,例如:“這個”、“那個”、“後者”、“人家”…等。 engchi U. 因人稱代詞自身即在言談上已有劃分立場結構的意義所在,也有固定使用之字詞, 又代名詞詞彙類型過多致無法一一列舉並分析,例如:筆者、闔家、兩造、雙方、 諸生…等。故在本研究中選擇漢語代名詞中屬於單複數人稱代詞的部分,即複數人 稱代詞以及單數人稱代詞,作為指標的使用詞類。. 14.

(29) 2.2.1  . 人稱代詞. 人稱代詞分為第一人稱代詞、第二人稱代詞、第三人稱代詞,人們在言談之中 常常因人稱代詞的變換而改變自己在理解言談或是閱讀文章中的角度,之所以造成 角度的改變是因為人稱代詞的概念是相對存在的(鄭盈盈,2014),既然有說話的 人(第一人稱代詞),則會有受話的人(第二人稱代詞)以及可能被提及到的人、 事、物(第三人稱代詞),故此三種人稱代詞相互並存。. 政 治 大 人稱代詞在言談中的重要性一直都是語言學家所關注的重點之一,其中又以第 立. ‧ 國. 學. 一人稱代詞的研究為大宗,過去的研究者以第一人稱代詞的使用目的在於說話者可 以藉由使用人稱代詞的方式來增強聽話者對於交談內容的參與度以及聽話者與說話. ‧. 者的互動性。Goffman(1981)的「參與架構」研究也說明當一句話或一個訊息的. y. Nat. io. sit. 傳遞,說話者對其話語結構的“設計”會直接或間接的影響該訊息的內容或決定說. er. 話者所要傳達的訊息角度,進而聽話者在話語內容的解讀也會有所異同。例如當說. al. n. v i n Ch 話者以“我”來指自己、或是以“我們”來指自己,兩者的差異可以解讀成說話者 engchi U 希望單以自己角度來告知聽話者,或者是說話者想要將與聽話者之間的距離拉近, 增加彼此的認同感、情感。. 2.2.2  . 人稱代詞與人際距離之關係. 語言中,由於人們通常會需要將時間、空間與事件之間的相對關聯表示出來, 於是在言談表達中產生了表達遠近的概念,進而衍生出語言中近指和遠指的指稱 15.

(30) 詞。近指為表示指涉人事物之距離距說話者較近,遠指則為表示指涉人事物距說話 者較遠。一開始涉及到距離的概念指的是時間與空間此類維度的表現,然而若將之 衍生到人們心理的範疇上,遠近的概念便可以說是人際之間心理空間的距離(Kuo, 1999)。 因此,當人們在言談中提及到“我們”,此時的我們若是包含受話者 (inclusive),則受話者會略感自身與發話者之人際距離較近,而若受話者不包含. 政 治 大. 於言談中的“我們”(exclusive),則可解釋為受話者與發話者之人際距離相對較. 立. 遠。此外對於第二人稱“你們”的使用也同樣有著判別人際關係距離的意義存在。最. ‧ 國. 學. 後則是第三人稱“他們”,則因本身即為不在對話的雙方之中,故人際距離相較於我. io. al. y. er. 人稱代詞的人際心理功能與政治語言. sit. Nat. 2.2.3  . ‧. 們、你們又更遠了(Kamio, 2001)。. v. n. 政治語言為一種人際溝通的行為,主要具有傳遞訊息和影響選民與支持者(受. Ch. engchi. i n U. 眾)的功能,政治語言作為一種特殊語體,歷來受語言學家的關注。以語言使用的 角度來說,政治語言指的是政治人物本身以及其選民與支持者之間的互動交際現 象。在交際的過程中,政治人物選擇在適當的時機,適時地運用人稱代詞在與選民 的交談中,預期能增進本身與選民與支持者之間的共同參與感,並且凝聚集體意 識,將選民對於政治人物本身的支持,轉而加諸於政治人物所屬的政黨或組織。故 使用人稱代詞的成功與否將會直接影響選民與支持者所採取的政治行為。因此政治. 16.

(31) 語境中,人稱選擇的人際意義研究是極具實用價值和意義的。因為掌握受眾的心理 對於提高言語交際的成功扮演十分重要的角色。反之,將影響言語的交際效果(陳 力綺,2007)(鄭盈盈,2014)。. 2.3   情態動詞. 情態動詞是漢語中用來表達情緒的詞類,漢語中,情態動詞(或稱為助動詞). 治 政 大 是指說者對於說話命題的觀點或者是態度,通常情態動詞的使用時機為表達主詞情 立 ‧ 國. 學. 態(例如:意願、可能性、認知。)的語句中,在語言學中,大多數學者普遍認同 情態動詞是屬於語意層次的範疇,以往情態動詞的研究多著重於深究單一種情態動. ‧. 詞,而非情態動詞整體。而根據學者謝佳玲(2006):「領域的研究至今普遍依循. sit. y. Nat. 西方的理論架構,偏重情態助動詞 (modal auxiliary) 的探討,漢語的情態範圍則透. n. al. er. io. 過句法層面的形式特徵限定,或採用列舉例詞或例句的方式解說。這種傳統作法面. i n U. v. 臨兩個問題,一是西方語言的分類框架應用到漢語時顯得過於嚴謹或鬆散,導致情態. Ch. engchi. 詞與非情態詞的分野難以確認。」並提出主張:「理論分析應兼顧普遍語法 (universal grammar) 與個別語法(particular grammar)。」因此謝佳玲在研究中對於漢 語情態動詞與情態副詞所使用的語意分類雖具備西方語言的學理基礎,然而結論卻 不盡相同,但這樣的修正更能彰顯漢語的個別屬性。. 17.

(32) 2.4   動詞. 漢語動詞為描述某個人或某個事物所涉及到的動作,動詞常在語句中表達出使 聽者、受話者或讀者更容易能夠在大腦中建立起發話者(作者)想要表達的情境。 故動詞不論是在語言的表達或是文字的書寫上都佔有極重要的地位。動詞所具有的 功能為能夠給予整個語言結構一個關鍵的引導,使之能傳達給我們對於文章語句所. 政 治 大. 要呈現的情境、畫面,而這樣的功能性是我們使用一個其他詞類所無法達到的效. 立. 果。因此動詞所扮演的角色在語言中也特別具有價值。. ‧ 國. 學. 然而,雖然動詞集合內的功能、語法歧異程度極繁複,但對於研究漢語文法分. ‧. 析而言,仍舊以一個句子為單位來分析,而動詞便是一個句子中相當重要的角色,. Nat. sit. n. al. er. io 2.5   詞彙共現關係. y. 故動詞對於漢語文法的重要性可見一斑(張麗麗、陳克健、黃居仁,2000)。. Ch. engchi. i n U. v. 共現關係是出自語言學用語,通常隱含有某種共同關係或是巧合的意義,或也 可以是指某兩個一組的詞彙一前一後出現 (且高於正常) 的次數。在語言學中的解 讀中,字詞共現的關係越高往往意味著兩個字詞的相關性越強,或是其具有一致的 論述背景。需要特別注意的是,與在語言學中所謂的共列 (Collocation) 而言,共 現關係所著重的重點在於兩者之間的關係,而非兩者出現時所指涉的意義。. 18.

(33) 立. 政 治 大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. 圖 2.5.1、字詞共現網路建立流程. Ch. engchi. i n U. v. 字詞共現關係若不以語言學上的定義來解讀的話,通常研究者會以更廣泛的範 疇(例如:人、事、時、地、物)來呈現共現關係,而將這些物件彼此關聯的情況 兩兩疊合即可構成所謂的共現網路(Co-occurrence Network)。共現網路技術的應 用通常是使用在資料分析的領域裡,用資料裡產生的事件或是詞彙概念的出現次數 以及累計結果作為凸顯相對之重要性的指標。. 19.

(34) 建立一個文本共現網路的流程如上圖 2.5.1 所示,資料需先進行斷詞 (tokenize),將文本分解成一個個的字詞單元,此時也可以稱為共現單元,每個 分解後的字詞單元需要被指定一個索引值,接著依據研究設定的語境範圍 (context),加上研究設計的規則將這些字詞單元建立為子關聯,接著將以建立好 兩兩連結的子關聯進行疊合,將含有相同詞彙的子關聯合併得到一整體文本的關聯 網路,此時的關聯網路即為一整體文本的字詞共現網路的雛形,然後我們會依據特. 政 治 大. 定的門檻來篩選過濾掉相對較為不重要的資訊,最終得到正式的字詞共現網路. 立. (Co-occurrence Network)。. ‧. ‧ 國. 學. 2.6   小結. Nat. sit. y. 鑑於過去數位人文結合語言學領域的研究較少有使用資訊技術作為輔助工具的. n. al. er. io. 例子,多為在各自的專業領域加以統計方法後,將所得出的結果以主觀的角度來試. i n U. v. 著合理解釋實驗資料。然而本研究希望藉由資訊技術的方式,先不預設任何可能得. Ch. engchi. 到的結果,直接以萃取文本資料作為靈感的來源,期望讓資料本體作為引導整個研 究前進的方向,一方面可以使得研究不受研究者主觀意識的加成,另一方面也是將 資訊的技術從輔助數位人文研究的角色轉換成為主導研究走向的關鍵。. 20.

(35) 第三章. 研究流程、架構與實驗方法. 本研究從漢語語言使用的結構中,選擇三類我們認為可以作為分開文本的可能 性較高的詞類,研究資料使用中央研究院漢語平衡語料庫作為量測人稱代詞與情態 動詞與動詞所搭配之組合結構指標的文本,同時也使用自由中國雜誌、台灣新生報 作為對比中央研究院漢語平衡語料庫的對照組;以下各小節將分別介紹本研究整體. 政 治 大. 的分析流程架構、文本資料前處理以及本研究有使用到的相關資訊技術介紹。. 立. ‧ 國. 學. 3.1   研究流程與架構. ‧. 本研究整體的實驗研究流程架構為圖 3.1.1 所示,首先將中央研究院漢語平衡. y. Nat. io. sit. 語料庫、自由中國雜誌、台灣新生報文本進行資料的前處理,本研究利用現有工具. er. 進行異體字的轉換與校正、斷詞以及詞性標記等步驟,同時也將斷詞並標記詞性後. al. n. v i n Ch 的資料匯入資料庫系統以方便整理;文本前處理完成後,本研究根據人稱代詞詞彙 engchi U 之使用方式為出發點,設定本研究有效實驗語境之擷取範圍,接著依照本研究定義 之語境範圍擷取出文本中所有經過斷詞並標記詞性之詞彙,之後將所擷取語境內之 人稱代詞與情態動詞與動詞篩選出來並作組合,先觀察具有代表性之中央研究院漢 語平衡語料庫所產生的組合結構,並將中央研究院漢語平衡語料庫的實驗結果作為 比較特殊文本組合結構之詞彙基準量的採樣母體,用以比較其餘文本。. 21.

(36) 文本 中央研究院漢語平衡語料庫. 自由中國雜誌. 台灣新生報. 資料前處理 簡體字轉繁體字. 異體字轉換、校正. 政 治 大. 立. ‧ 國. 研究實驗. 修正. 指標設計. 學. 提取詞彙之規 則. 斷詞、詞性標記. 數據正規化. ‧ 實驗結果討論. n. er. io. 實驗限制. al. y. sit. Nat. 實驗結果觀察、分析. Ch. i n U. v. 圖 3.1.1、研究流程架構. engchi. 22. 詞彙基準量.

(37) 3.2   文本資料前處理. 在文本資料前處理的部分,本章節主要說明本研究在實際開始實驗之前針對文 本做了哪些資料上的校正與整理,以及文本在經過前處理後的結果呈現。. 3.2.1  . 文本異體字修正. 政 治 大. 首先是異體字的轉換與校正,本研究所使用的文本之一為 1947 年台灣發生二. 立. 二八事件後,台灣許多家報社在各地的相關報導,文本收錄起迄時間為事件爆發後. ‧ 國. 學. 隔日,即 1947 年 2 月 28 日起,至 1947 年 5 月 15 日國民政府實施清鄉為止,而由. ‧. 於受到日本殖民統治的影響,許多在漢文字在進行文本數位化時,若有出現日文漢. sit. y. Nat. 字的形式,例如「幷」、「够」、「隣」、「烟」,都在數位化後的文本中特別標. io. al. er. 記在正確漢字後方,而這些異體字都必須轉換成正體中文如「並」、「夠」、. v. n. 「鄰」、「煙」諸如此類,另外在漢語的慣用字詞使用上,當時年代所使用的字詞. Ch. engchi. i n U. 與今日人們普遍習慣使用的字詞也有些許差異,例如:當時年代慣用字詞「開 鎗」、「至于」、「舍本逐末」,對照於今日則應該為「開槍」、「至於」、「捨 本逐末」。然而慣用字詞於本研究所設定之語境下,並無影響實驗結果,故無將之 排除,若之後有學者也研究此領域文本可作為參考。. 23.

(38) 3.2.2  . 中文文本資料斷詞及詞性標記. 其次,對於習得某一種語言到一特定程度的人類大腦而言,尤其是中文,文字 的排序不同亦或者是連續不間斷的呈現,人類大腦依舊能辨識整個句子所要表達的 意思,然而同樣的文字給電腦讀取到的卻只是一連串的數字編碼,無法正確地像人 類大腦一般的判讀文字,故文本前處理的第二部分即加入斷詞的技術來使電腦能夠 基於具有意義之最小單位「詞」的概念來做文字的處理。最常使用的斷詞技術主要. 治 政 大 為兩個方法,其一是以字典為基礎的方法,主要採用事先定義好的字典和手動產生 立 ‧ 國. 學. 的規則進行斷詞動作,規則分為 scanning direction 和 prior matching length 二種。. 此種依字典為基礎的斷詞方法,其優點明顯在於可供使用者自己定義許多較為特殊. ‧. 之詞彙,然而此方法之隱憂則為字典的更新及擴充問題將直接影響到斷詞結果的品. io. sit. y. Nat. 質。. er. 其二則是以統計方法斷詞,使用線性 mutual information (MI)和 t 檢定進行斷詞. al. n. v i n Ch 的工作,運用上下文(contextual)和位置的概念進行斷詞,並發現這兩個因素對 engchi U. Bigram 擷取方式是很重要的。然而此類方法往往牽涉到較複雜的參數設定,也較容 易產生過度學習(over-fitting)或是學習不足(under-fitting)的情況。 本研究所使用的文本《中央研究院漢語平衡語料庫》全部約 1755 萬字,約為 1124 萬詞;又中文詞彙是屬於一個開放的集合,我們並無法找到一種方法或一個詞. 24.

(39) 典集可以囊括所有中文詞彙,加上每個領域都有其各自的特殊詞彙或專有名詞更使 得斷詞系統可能因為已有的詞彙集合參考量不足,出現錯誤的斷詞。 故本研究使用中央研究院中文詞知識庫小組具有新詞辨識能力並附加詞類標記 的選擇性功能之斷詞系統“中文斷詞系統”來當作斷詞的技術工具;此一系統包含 一個約 10 萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分 詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞 歧義問題。. 立. 情態動詞“會”的修正. ‧ 國. 學. 3.2.3  . 政 治 大. ‧. 漢語中,許多詞彙都具有一字多義的情況,均須從前後文來判別該詞彙所表達. sit. y. Nat. 的正確意涵。其中,在情態動詞的類別上,本研究除了從字形的角度來篩選之外,. io. al. er. 也加上了中央研究院中文斷詞系統針對每個詞彙所判斷出的詞性來增加詞彙意義的. v. n. 精準度的過濾,本研究中所使用的情態動詞依照中研院中文斷詞系統的詞性分類為. Ch. engchi. i n U. 歸類於“(D)”,然而即使文本中詞性標記為“(D)”的詞彙“會”卻不見得是本研究所要 表達情態的詞彙,例如:「長官等致敬,“該會”現已圓滿閉幕。」經斷詞後為“該 (D)會(D)”、「中外共瞻,“本會”仍秉宏謀」經斷詞後為“本(D)會(D)”,此二個“會” 為表達「組織」的概念而非情態。故在實驗之前,須將此情況排除。 排除的規則為以“會”的前綴及後綴詞彙作為判別是否為錯誤之情態動詞的依 據,表 3.2.1 為各文本“會”的前綴詞統計,藉由人工解讀前綴詞來判別其後之“會” 25.

(40) 是否為錯誤之情態動詞。最後發現,若前綴詞彙為“該、本、到、委員”,以及後綴 詞彙若為標點符號,即“會”本身為該子句的結尾,以此兩項規則篩選出來的“會(D)” 為錯誤判斷的情況較多,故以此兩項規則進行清除。 經過統計,在中央研究院平衡語料庫中,出現“會”又詞性標記為“(D)”的情況有 25996 次,其中依照規則篩選出來為錯誤的情況有 222 次,錯誤率為 0.9%;在自由 中國雜誌中,出現“會”又詞性標記為“(D)”的情況有 7595 次,其中依照規則篩選出. 政 治 大. 來為錯誤的情況有 538 次,錯誤率為 7%;而在台灣新生報中出現出現“會”又詞性. 立. 標記為“(D)”的情況有 302 次,其中依照規則篩選出來為錯誤的情況有 161 次,錯. ‧ 國. 學. 誤率為 53%。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. 26. i n U. v.

(41) 自由中國雜誌. 漢語平衡語料庫. 台灣新生報. 就. 534. 就. 2217. 該. 64. ,. 323. ,. 1703. 本. 51. 決不. 287. 也. 1610. 〕. 13. 也. 284. 都. 1548. 到. 12. 都. 273. ,. 12. 將. 272. 就. 10. 一定. 224. 可能. 728. 也. 7. 是. 175. 一定. 671. 協助. 7. 159. 還. 632. 處理. 7. 156. 我. 598. 自然. 152. 他. 416. ‧. 6. 。. 5. 146. 你. 383. 絕不. 5. 119. 人. 371. 107. 只. 360. n. 怎麼. 306. 自然. io. 本. al. 104. y. 一定. 4. 決不. 4. 維持. 3. sit. 人. Nat. 還. er. 該. ‧ 國. 絕不. 學. 才. 立. 政才將 治 960 853大. i n U. v. Ch 表 3.2.1、各實驗文本“會”的前綴詞統計,TOP15。 engchi. 27.

(42) 3.3   實驗. 3.3.1  . 擷取詞彙規則. 傳統對於語境之定義即為語言環境,它包括許多語言因素(例如:上下文、對 象。)或非語言因素(例如:時間、空間。),又可以解釋為人們交際過程中使用. 政 治 大 種制約的作用,因此,交際語言中所表達的語義、語言的結構形式、語言風格等方 立 來理解或應用所依賴的各種言詞表現;從另一個角度來看,語境對於語言會產生一. ‧ 國. 學. 面,都將限定在一個語境的範圍之內。有別於傳統文本研究所觀察的文本語境,本 研究的實驗指標定位在一個概括性的研究角度,不局限於某一特定範圍內的文句,. ‧. 而是針對整體文本的掃描。. sit. y. Nat. io. al. er. 本實驗首先針對詞彙截取的規則為只要文本內詞彙符合兩個原則即擷取,一者. v. n. 為詞彙字形的部分,其二為詞彙經過中研院中文斷詞系統斷詞後的詞性標記符合者 擷取規則者。. Ch. engchi. i n U. 人稱代詞的部分,字形須符合單數或複數,並且為第一人稱、第二人稱、第三 人稱之人稱代名詞,並且詞性標記為“(Nh)”之詞彙,即:我們、你們、他們、她 們、我、你、他、她,作為指標使用之人稱代詞,即表 3.3.1 所示。 情態動詞的部分,字形為根據學者 Li(2006)發表對於情態動詞的分類框架下所 整理的漢語常用情態動詞,而詞性標記須為“(D)”之詞彙,即表 3.3.2 所示。 28.

參考文獻

相關文件

My friend doesn’t likes movies.. He don’t

捲土重來(一蹶不振) (成語) 比喻失敗後重新恢復勢力 寫作四 接種 動詞 把疫苗注射到人或動物體內,以預防疾病 閱讀一 排斥(吸引) 動詞 使別的人或事物離開自己這方面

教學流程 配合範疇 單元舉例 備註 第一步:你講我講大家講 讀、寫 水果圖片 字詞卡 字詞類別. 第二步:文章大電視 聽、讀

關鍵詞:1.paratantralakṣaṇa 2.the simile of phantom 3.the three natures of treatment 4.the mental eject and the consciousness 相見二分 5.the thory of self realization

注意 注意 注意,紫色 注意 紫色 紫色 紫色 字表專有名詞 字表專有名詞 字表專有名詞 字表專有名詞, 可以不用翻成 可以不用翻成 可以不用翻成

 文字 文字 文字 文字:橋樑書的文字淺白 文字淺白 文字淺白 文字淺白,配合兒童的語言習慣,以 兒童常用的2000個單字為基礎, 逐步豐富 逐步豐富兒童的詞匯 逐步豐富 逐步豐富 詞匯

 be 動詞的疑問句當中,在描述主詞的名詞或形容詞前面加上 not,. 即形成 be

斷詞:在文件資料經過前處理後,文件中只剩下文字資料,對於英文 而言,空白以及標點符號