• 沒有找到結果。

中文字詞斷詞方法以及共列關係、字詞共現

四、 文獻探討

4.3 中文字詞斷詞方法以及共列關係、字詞共現

斷詞是自然語言處理中不可或缺的步驟之一,對於已習得一個語言的人類而言,就算文字連續 中間毫無中斷,仍可辨識得出整個句子的意義,但是對於電腦而言,每一句話、每一段文字、每一 篇文章,終究都只是一連串的十六進位碼所構成,然而為了應付大量的資訊及其檢索用途,我們必 須將這些語言的特徵先能夠被記錄下來,也就是我們需要對要處理的文本進行單元化 (tokenize),

以便能夠取得屬於該文本的特徵值,才能依其建立索引 (indexing),並在接受檢索查詢時,能夠藉 由預先產製的反索引 (inverted-index) 來快速提供符合檢索需求的文章內容,而初步程序中這個文 本單元化的過程即稱為斷詞。對於英文而言可依據其既有的分隔符號(空白符號)進行斷詞,但對於 中文而言,因為字與字之間並無空白,想要取得文本的特徵值就需要額外處理方式,通常可用幾種 方式來進行斷詞方法:

I. 字典為基礎的方法:主要採用事先定義好的字典和手動產生的規則進行斷詞動作,規則約分 為 scanning direction 和 prior matching length 二種。然而字典的更新及擴充問題則直接影響到

斷詞結果的品質[33]。

II. 統計方法斷詞:使用線性 mutual information (MI)和 t 檢定進行斷詞的工作[33],[34]運用上下 文(contextual)和位置的概念進行斷詞,並發現這兩個因素對 Bigram 擷取方式是很重要的,

Yu 等人提出 cascaded hidden Markov Model(HMM) 來針對地名級單位機構名稱進行斷詞處理 [35]。然而此類方法往往牽涉到較複雜的參數設定,也較容易產生過度學習(over-fitting)或是 學習不足(under-fitting)的情況。

III. 混和方法斷詞:例如像是台灣中研院研發的 CKIP、大陸的 Jieba、及史丹佛的斷詞系統,皆 是以混和了以字典為基礎以及配合自然語言文法規則,並在統計資訊的輔助決策下進行斷詞。

此類型的斷詞方法各方面表現較為均衡,為目前斷詞應用的主流。

IV. N-gram 法,N-gram 在計算語言學裡是指從一連串的文字(句子)以指定數量的字為一個斷詞的 單位,每次往後移一格直到最後無其他字時才停止,n-gram 的 n 指的是每次都以 n 個字元 為單位,n 指定 1 時一般稱為 Unigram 而 n 為 2 時則稱為 Bigram[36]。 而通常在中文字裡 由兩個字組成的中文字是較常見的,因此也有許多研究都將焦點放在兩個字的中文(Bigram) 。 使用 N-gram 最大的好處就在於它並不需要相關語言知識的輔助,就可以從文本所提供的資 訊中直接建立出資訊檢索所需的索引以及反索引,惟此類型索引所需求的儲存空間往往都較 龐大。

然而,對於數位人文範疇中所要探討的議題而言,人們所感興趣的議題應是出現在各語境中的 人、事、時、地、物等概念詞彙以及其相互之間的關係,但斷詞程序產生結果往往會將原本語境中 較具有意義的詞彙分解打散成為最基本的詞彙單元(token),以便一方面能夠進行詞性標註(POS tagging),另一方面則可提供資訊檢索必須之索引及反索引資訊需要,然而,這樣子的基本詞彙單 元倘若再由資訊工具進一步產製出量化資訊的話,則往往會使得其所呈現的意義太具有普世性 (generic),而無法充分反映該文本於論述中試圖描繪的情境(context),以數位人文的精神反觀這樣 子的產出結果,反而是缺乏意義的。 因此,倘若我們能試著考量脫離既有資訊檢索框架的束縛,

回歸以語意單元(詞性標記)為基礎,建立出能還原語意之詞彙重整併機制,將已被分解成為單元的 詞彙經由自然語言的規則性,再次整併為一較完整且指涉較為精確的詞彙,相信不論是提供做為量 化資訊的產出,或是供作後續網路結構的分析、視覺化網路呈現、或是較上層質化意義的解釋用途,

應當都會有更理想的呈現樣貌。

4.3.2 字詞詞性共列關係 (Part-Of-Speech Collocation)

在近年關鍵論述語句分析 (Discource Analysis) 的相關文獻中,我們可看到有各式各樣的詞彙 意義以及於自然語言發生的形式(collocation patterns)、規則被整理出來,學者們藉由從大量語句的

分析中,從特定字詞以及詞性的共列關係中,找出了各種語句形式所隱含的上層語意。這些語意關 係以較大的分類來看,可區分為是屬於 Inference (推論)、Positioning (立場)、Representation (陳述) 這 三種較上層的關聯意義形式,而若考量較細節,兩兩詞彙之間的關聯類型時,我們可整理得到大致 有以下數種概念層級的關聯類型:相關(relation):類似(similarity)、對應(correspondence)、相同 (equivalence)、認為(subjective correspondence);包括(inclusion):成員(member)、組成(composition);

對立(opposition)、相異(difference)、前因(origin)、後果(product) 等類型[37][38]。

然而在中文中,這類型的語意分析仍是現代語言學和計算語言學領域最具挑戰性的研究之一,

因此近年來中文學術領域在此方面的研究也相當多樣,而其中又以分析漢語之詞性序列結構、短語 結構以及其語意關係者為大宗,例如從詞性的特徵結構中,我們可以看到有許多利用詞性序列結構 以及對應語意的分析成果,像是 N+V+N (表主詞、動詞、受詞之三元結構)、N+V (狀態表達結構)、

N+N (雙名詞結構)、N* (複合名詞結構)、VC (動作、狀態)、V+A+N (述結式歧義格式)、V1+V2 (述 結式)[2010]。類似於關鍵論述分析的成果,漢語研究的成果中亦可看到逐漸被歸納出來之各種短語 結構與語意之間的關聯:主謂短語結構(動作或狀態)、聯合/並列結構(相同)、兼語短語結構(執行行 為動作)、同位短語結構(指同一人、事、物)、比況短語結構(類同、相似、一樣)、述賓短語結構(進 行動作之腳色)、量詞短語結構(數量關係)、方位短語結構(相對位置關係)、的字短語結構(屬於)、

所字短語結構(歸屬)、連謂短語結構(動作發生之先後順序關係)、補述短語結構(結果獲狀態)、狀中 /定中短語結構(包含)等等眾多短語語式[2011]。同時亦有藉由字詞共列以及詞性共列關係的分析中,

重新定義一個”事件” (event)應有的六元素結構[2008]:

在 [什麼時間] [什麼地點] [誰] [如何] 對 [誰] 做了 [什麼]

When Where Who How Who What

雖然此類型的研究議題大多是屬於語言學範疇的案例式研究,運用資訊系統大量應用此方法的 圖 1. 關鍵詞彙於特定文本中呈現的詞性組合發生頻率網路

研究成果尚罕見。然而在我們過去的研究中,依據這樣的概念對文本進行觀察,先以人工方式藉由 專家知識及利用資訊平台的互動式查詢功能,於文本中提取出較為符合的關聯案例,並逐筆將案例 及對應的文本情境於平台中記錄下來,接著再以資訊工具及統計方法,分別以量化考量的出現頻率 以及質化考量的具體意義這兩種角度同時審視句型範例以及可能歸納出來的模式。錯誤! 找不到參 照來源。所示的詞性組合發生頻率網路圖,各標示詞性的節點代表了該文本中各種符合該詞性的詞 彙,並與其他的詞彙共同發生的次數 (collocation),連結所標示的數字即為基於整體發生次數正規 化後的發生頻率值。 藉由這種半自動化的方式,同時考量人事物之具體意涵,以及統計量上的顯

N->SHI->N N->SHI->V 行為動作、情感

圖 3. 二二八事件台灣本地新聞史料彙編:

中華日報 (本省人相關論述局部)

共現關係是出自語言學用語,通常隱含有某種共同關係或是巧合的意義,或也可以是指某兩個一組 的詞彙一前一後出現 (且高於正常) 的次數。在語言學中的解讀中,字詞共現的關係越高往往意味著兩 個字詞的相關性越強,或是其具有一致的論述背景 (例如較高度的共變異一致性關係)。這裡要留意的是,

與在語言學中所謂的共列 (Collocation) 而言,共現關係關注的重點在於個別兩者之間的關係,而非兩者 出現時所指涉的意義。

字詞共現關係若以關聯式網路來進行視覺化的呈現,或是取其較廣泛的定義 (例如人、事、時、地、

物交互的共現關係,而非語言學定義範疇),我們可將這些實體所關聯的情況兩兩疊合構成一所謂的共 現網路 (Co-occurrence Network),共現網路技術最早出現亦是應用在史料典籍上的資料分析,用事件或

圖 2. 共現網路建立流程範例

詞彙概念意義的出現次數以及累計結果,突顯其相對之重要性 (Smadja and Mckeown, 1990; Pattel et al., 1997; Doyle, 1962; Maron and Kuhns, 1967)。一個通用的共現網路建立流程如圖 2 所展示:首先為輸入 端的資料,需要先切割為一個個的共現單元 o (字詞),依據共現的語境範圍 (context) 建立共現索引 g,

接著我們依循指定的原則將這些字詞建立關聯子網路 g’ (可依單純的全連結方式,或是依循特定的權重 原則、連結規則),接著我們再將這些已建立好兩兩連結的字詞進行疊合,將相同的字詞合併得到聚合 後的整體關聯網路 D,其中權重可累加或是轉換為比值,最後再依據一定的門檻來過濾相對較不重要的 資訊,篩選得到最終的字詞共現網路,其範例如圖 3 所示。