• 沒有找到結果。

第三章 研究方法

3.2 語料前處理

立 政 治 大 學

Na tiona

l Ch engchi University

權威性且影響力的十大報紙之一。該報的政治立場主要為共產主義、中國特色社 會主義。而我們只擷取了在 1946~2012 年中有提到「人權」的相關新聞報導作為 我們的實驗語料,但在此處夾雜了少量的其他報社(如:新華社、塔斯社)可是包 含「人權」的相關新聞報導,共計 6960 篇新聞報導,總字數包含標點符號為 12,515,628 字。

《新青年》[8]則是中國一份具有影響力的革命雜誌,在創刊初期主要是用 以宣傳倡導科學「賽先生(Science)」、民主「德先生(Democracy)」、「新文學」,後 來則改為宣傳共產主義的刊物之一。《新青年》雜誌是新文化運動興起的標誌,

用以宣傳民主與科學,提倡新聞學反對舊文學,提倡白話文反對文言文,但後期 開始宣傳「馬克思主義」、「馬克思主義哲學」。我們運用「中國近現代思想及文 學史專業數據庫」[2]所提供的 1915~1922 年間共計 11 卷中,包含了 1524 篇文 章,其總字數包含標點符號為 5,139,886 字。

3.2 語料前處理

此步驟是先將中文語料作前處理,整理成後續分析所需要的語料格式。如果使用 者並沒有提供關鍵詞彙的同時,我們可以自動去產生使用者需求量可能的關鍵詞 彙。

3.2.1 語句擷取

語句擷取共用了兩種方法,方法一為將語料文章做斷句,斷句的部分是以標點符 號(逗號、句號、問號、驚嘆號)當成句與句之間的分割點,再利用斷句好的句子 做後續的處理。方法二則是利用關鍵詞彙當成中心點,前後固定的視窗大小所擷 取出的重要句子。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.2.2 斷詞

運用 Stanford Word Segmenter [29]工具對中文語料做中文斷詞。

表 3.2 斷詞

原始句子 由于殖民制度的压迫,阿尔及利亚人民被剥夺了一切人权,过着极 端贫困的生活。

斷詞結果 由于 殖民 制度 的 压迫 , 阿尔及利亚 人民 被 剥夺 了 一切 人权 , 过 着 极端 贫困 的 生活 。

3.2.3 詞性標記

運用 Stanford Part-Of-Speech Tagger (POS Tagger)[27]對已斷詞過的語料進行詞性 標記,詞性標記基本上可以分成以下列幾種,動詞、名詞、形容詞、副詞、代名 詞、介係詞等。而這邊我們只選出被標記為名詞、動詞、形容詞的詞彙,作為後 續的詞彙分析的關鍵詞彙。

表 3.3 詞性標記

原始句子 由于殖民制度的压迫,阿尔及利亚人民被剥夺了一切人权,过着极 端贫困的生活。

詞性標記

由于#P 殖民#NN 制度#NN 的#DEG 压迫#NN 阿尔及利亚#NR 人民#NN 被#SB 剥夺#VV 了#AS 一切#PN 人权#NN 过#VV 着

#AS 极端#JJ 贫困#JJ 的#DEG 生活#NN

3.2.4 詞頻與關鍵詞彙選取

此處有兩個統計關鍵詞彙詞頻的方法,第一為利用 POS Tagger 標記後,所選取 出名詞、動詞、形容詞的詞彙,依照使用者訂定的時間區段作詞頻統計,並且讓 使用者選出詞頻較高的前幾名詞彙作為重要的專業詞彙;第二為運用 PAT Tree(Patricia tree)的技術[12][24]對語料進行抽詞,其主要的應用是對語料做 n-gram 詞彙的詞頻統計,當詞頻較高的詞彙則可能是我們覺得正確且關鍵的詞 彙,並且給予使用者做自行做篩選。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

3.2.5 計算共現詞彙的詞頻

運用挑選出的關鍵詞彙與斷句的方式計算其詞彙共現的頻率[22],並以找出包含 兩兩共現詞彙的句子。如圖 3.3 所示,以「人權」為中心詞彙的前後視窗大小各 20 字,出現包含共現詞彙為「人民」的句子。

在理想狀況中,一個句子中的關鍵詞彙是不會重複出現,但是在現實情況中 並不盡然,如圖 3.3[3]紅色方框中在同一句子中「人民」出現了兩次,但我們在 計算共現詞頻時只記錄一次。

圖 3.3 co-occurrence 與擷取的句子

相關文件