• 沒有找到結果。

第三章   研究流程、架構與實驗方法

3.2   文本資料前處理

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

3.2   文本資料前處理

在文本資料前處理的部分,本章節主要說明本研究在實際開始實驗之前針對文 本做了哪些資料上的校正與整理,以及文本在經過前處理後的結果呈現。

3.2.1   文本異體字修正

首先是異體字的轉換與校正,本研究所使用的文本之一為1947 年台灣發生二 二八事件後,台灣許多家報社在各地的相關報導,文本收錄起迄時間為事件爆發後 隔日,即1947 年 2 月 28 日起,至 1947 年 5 月 15 日國民政府實施清鄉為止,而由 於受到日本殖民統治的影響,許多在漢文字在進行文本數位化時,若有出現日文漢 字的形式,例如「幷」、「够」、「隣」、「烟」,都在數位化後的文本中特別標 記在正確漢字後方,而這些異體字都必須轉換成正體中文如「並」、「夠」、

「鄰」、「煙」諸如此類,另外在漢語的慣用字詞使用上,當時年代所使用的字詞 與今日人們普遍習慣使用的字詞也有些許差異,例如:當時年代慣用字詞「開 鎗」、「至于」、「舍本逐末」,對照於今日則應該為「開槍」、「至於」、「捨 本逐末」。然而慣用字詞於本研究所設定之語境下,並無影響實驗結果,故無將之 排除,若之後有學者也研究此領域文本可作為參考。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

24

3.2.2   中文文本資料斷詞及詞性標記

其次,對於習得某一種語言到一特定程度的人類大腦而言,尤其是中文,文字 的排序不同亦或者是連續不間斷的呈現,人類大腦依舊能辨識整個句子所要表達的 意思,然而同樣的文字給電腦讀取到的卻只是一連串的數字編碼,無法正確地像人 類大腦一般的判讀文字,故文本前處理的第二部分即加入斷詞的技術來使電腦能夠 基於具有意義之最小單位「詞」的概念來做文字的處理。最常使用的斷詞技術主要 為兩個方法,其一是以字典為基礎的方法,主要採用事先定義好的字典和手動產生 的規則進行斷詞動作,規則分為scanning direction 和 prior matching length 二種。

此種依字典為基礎的斷詞方法,其優點明顯在於可供使用者自己定義許多較為特殊 之詞彙,然而此方法之隱憂則為字典的更新及擴充問題將直接影響到斷詞結果的品 質。

其二則是以統計方法斷詞,使用線性mutual information (MI)和 t 檢定進行斷詞 的工作,運用上下文(contextual)和位置的概念進行斷詞,並發現這兩個因素對 Bigram 擷取方式是很重要的。然而此類方法往往牽涉到較複雜的參數設定,也較容 易產生過度學習(over-fitting)或是學習不足(under-fitting)的情況。

本研究所使用的文本《中央研究院漢語平衡語料庫》全部約1755 萬字,約為 1124 萬詞;又中文詞彙是屬於一個開放的集合,我們並無法找到一種方法或一個詞

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

典集可以囊括所有中文詞彙,加上每個領域都有其各自的特殊詞彙或專有名詞更使 得斷詞系統可能因為已有的詞彙集合參考量不足,出現錯誤的斷詞。

故本研究使用中央研究院中文詞知識庫小組具有新詞辨識能力並附加詞類標記 的選擇性功能之斷詞系統“中文斷詞系統”來當作斷詞的技術工具;此一系統包含 一個約10 萬詞的詞彙庫及附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料。分 詞依據為此一詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新詞,並解決分詞 歧義問題。

3.2.3   情態動詞“會”的修正

漢語中,許多詞彙都具有一字多義的情況,均須從前後文來判別該詞彙所表達 的正確意涵。其中,在情態動詞的類別上,本研究除了從字形的角度來篩選之外,

也加上了中央研究院中文斷詞系統針對每個詞彙所判斷出的詞性來增加詞彙意義的 精準度的過濾,本研究中所使用的情態動詞依照中研院中文斷詞系統的詞性分類為 歸類於“(D)”,然而即使文本中詞性標記為“(D)”的詞彙“會”卻不見得是本研究所要 表達情態的詞彙,例如:「長官等致敬,“該會”現已圓滿閉幕。」經斷詞後為“該 (D)會(D)”、「中外共瞻,“本會”仍秉宏謀」經斷詞後為“本(D)會(D)”,此二個“會”

為表達「組織」的概念而非情態。故在實驗之前,須將此情況排除。

排除的規則為以“會”的前綴及後綴詞彙作為判別是否為錯誤之情態動詞的依 據,表3.2.1 為各文本“會”的前綴詞統計,藉由人工解讀前綴詞來判別其後之“會”

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

26

是否為錯誤之情態動詞。最後發現,若前綴詞彙為“該、本、到、委員”,以及後綴 詞彙若為標點符號,即“會”本身為該子句的結尾,以此兩項規則篩選出來的“會(D)”

為錯誤判斷的情況較多,故以此兩項規則進行清除。

經過統計,在中央研究院平衡語料庫中,出現“會”又詞性標記為“(D)”的情況有 25996 次,其中依照規則篩選出來為錯誤的情況有 222 次,錯誤率為 0.9%;在自由 中國雜誌中,出現“會”又詞性標記為“(D)”的情況有 7595 次,其中依照規則篩選出 來為錯誤的情況有538 次,錯誤率為 7%;而在台灣新生報中出現出現“會”又詞性 標記為“(D)”的情況有 302 次,其中依照規則篩選出來為錯誤的情況有 161 次,錯 誤率為53%。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

自由中國雜誌 漢語平衡語料庫 台灣新生報

就 534 就 2217 該 64

, 323 , 1703 本 51 決不 287 也 1610 〕 13 也 284 都 1548 到 12

都 273 才 960 , 12

將 272 將 853 就 10

一定 224 可能 728 也 7 是 175 一定 671 協助 7

才 159 還 632 處理 7

絕不 156 我 598 自然 6

該 152 他 416 。 5

還 146 你 383 絕不 5

人 119 人 371 一定 4

本 107 只 360 決不 4

自然 104 怎麼 306 維持 3 表 3.2.1、各實驗文本“會”的前綴詞統計,TOP15。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

28