目標議題導引之關聯式網路建立模型：Anchor-n-Gram

五、研究方法

5.1 史料文本資訊探勘實驗平台

5.1.3 目標議題導引之關聯式網路建立模型：Anchor-n-Gram

根據文獻顯示，過去應用資訊技術於史料文本資訊探索上通常較傾向於資料整合以及利用統計量化分析方法從數量多寡、比例或是浮現顯著程度的角度來呈現應用的成果，然而本研究認為，量化方法來審視關聯性於數量上的比較(tie-based model)，往往需要先取得大量且與探索目標有相關的文本資料，且以數量多寡來浮現意義也往往容易造成弱關聯性被忽略的問題(weak-tie)，因此本研究亦採納過去較屬於社會、心理研究領域之質化方法，即應看重每一個人、事、物的相對存在意義，進一步考量匯集了多種關聯性的角色屬性(actor-based model)議題，將角色的各種關聯的關係視為是一種社會位置(social position) 的呈現，再進而比較角色與角色之間、社會位置與社會位置之間異同之處所形成的社會角色(social role)。

對應到史料文本的環境中，此概念的實行即應以較具意義的關鍵人、事、物等概念詞彙作為起點進行資訊擷取及關聯探索，再逐步將結果呈現出來。

本研究基於此概念，開發了一以目標議題導引之關聯式網路建立模型(Anchor-n-Gram )，以人、事、

物等概念詞彙作為起點進行資訊擷取及關聯探索，其中並考量斷詞的結果往往會將原本較具有意義的詞彙分解打散成為最基本的詞彙單元(part-of-speech)，以便能夠進行詞性標註(tagging)，然而這種基本的詞彙單元其實若建構出關聯式網路的話，則會顯得呈現的意義太具有普世性(generic)，而無法充分反映該文本於論述中試圖描繪的情境(context)，有鑑於此，Anchor-n-Gram 考量以詞性標記為基礎，建立了詞彙重整併機制，將已被分解成為單元的詞彙經由自然語言的規則性，再次整併為一較完整且指涉較為精確的詞彙。圖 6 呈現的為本研究提出 Anchor-n-Gram 的標準處理流程，輸入的資料為已經經過斷詞處理後的文本，輸出的資料為詞彙關聯式網路，並可供作後續網路結構的量化分析、視覺化網路呈現、或是較上層質化意義的解釋用途。

Anchor-n-Gram 的標準處理流程除了可向前介接來自前端處理好的斷詞後電子文本，已可向後提供

資料進行後續的質化分析、量化分析及視覺化呈現等成果輸出，模組化的設計以及多項可調整參數，亦可視為是一個應用程式介面(Application Programming Interface, API)，具有介接前後端不同來源及用途的使用彈性。在本 Anchor-n-Gram 的處理程序中，首先我們必須先指定一個欲觀察的關鍵角色，此角色可以是任何有興趣的議題詞彙、人名、事件名稱、或時間、地點、物件等等以中文詞彙方式呈現的概念(Step 1) ；再依據此詞彙則可於文本中提取相關的論述片段(discourse snippet)，視為與該腳色相關之情境 (context)(Step 2~3) ；而因為前置斷詞程序的結果，會將詞彙拆解至詞彙意義的最小單元，我們需要再進一步將有意義的單元加以整併，以便能更具體呈現屬於指定概念於該情境下的樣貌。

此部分將會牽涉到與自然語言及文本相依的行文模式，通常這可於領域專家學者後分類資訊彙整階段(5.1.1)建立論述語句模式相關資訊，再於初步統計階段中利用資訊工具統計彙整得到合適的詞性模組 (5.1.2)，而遵循此語句模式以迭代方式整併至收斂為止，即可獲得較具有意義之詞彙整併結果(Step 4~5) ；接著我們可藉由量化曲線函式(spline function)，針對已給予的權重進行數值的重新量化或是平滑，在各論述片段及片段自身所產生的詞彙節點及關連依據相同的節點加以疊合之後(合併、累加)(Step 7~8)，對於接下來要進行門檻篩選會有平滑的作用，可避免在調整參數的過程中一次篩選掉太多資訊(Step 6、9)。

在此 Anchor-n-Gram 的處理程序中尚會牽涉到數項內部可調控的參數及常數，此部分的操作依程序類

型分別說明如以下各項：

5.1.3.1 Anchor-n-Gram 後設詞性標記及具特定意義之詞性規則模式

於本章節 5.1.2 關於中文字斷詞及初步統計篩選程序的運作說明裡，提到此部分主要工作是為經過中文字斷詞的程序後，利用統計方法依依據量化數值進行排序，以篩選出較為關鍵的詞彙，並藉以輔助決策刪減掉文本中屬於冗贅的資訊（例如前贅或後贅的聲明、宣告、版權文字、或是廣告、符號、亂碼或不相關字元），並進行必需的編碼轉換作業，以利後續關聯式網路的生成效率以及避免網路結構量化計算中可能的雜訊。

然而以斷詞(word segmentation)以及斷詞的工具而言，不論方法或是結果的品質如何，我們首要的需求即是它能夠將一段自然語言的文字加以分解到以單一詞性為單位的字詞，再者即為詞性標記代號命名的精細度以及精確程度，因此基於此兩點考量，再外加工具本身的易取得及易使用特色，本研究以中研院提供的中文斷詞系統 CKIP 作為提供此兩種資訊的工具。然而，斷詞程序往往傾向將詞彙拆解至詞彙意義的最小單元，以單一詞性的方式呈現，因此倘若用種基本的詞彙單元其實若建構出關聯式網路的話，

則會顯得呈現的意義太具有普世性(generic)，而無法充分反映該文本於論述中試圖描繪的情境(context)，

因此我們需要再進一步找出有意義的字詞單元加以整併，還原成為原本較具有意義的字詞形式(例如複合名詞、動名詞詞組)，以便能更具體呈現原屬於文本情境中要表達的意義。因此，於圖 4 的範例中我們可看到文本史料經過關鍵詞彙 “外省人” 進行篩選及節錄之後的情境論述，接著依據事先整理好的具意義詞性規則加以標記並整併，最後成為較具有意義的詞彙單元。其中所謂 ”具意義詞性規則” 往往是與領域知識、自然語言的結構、以及與時代背景相關的影響所構成的，我們通常可利用專家的知識以人工方式整理出這樣子的規則，而逐步整併的過程亦可利用資訊科學中迭帶演算法方式 (recursive dynamic programming) 實行，依據規則表的查詢將詞彙整併至無法再整併，即視為達到收斂的狀態。而由整併的過程我們需要用到的詞性標記是來自斷詞及進行詞性標記後的命名而來，因此為了整併過程的迭代以及結果的儲存，我們必須另外設計並給予合適的命名，用以涵蓋此一系的設計概念，本研究所設計的詞性標記命名方式與以中研院 CKIP 斷詞系統標記對應的狀況如表 2 所示，其中 Anchor-n-Gram 詞性標記亦已應用於圖 7 中最後二個文字區塊的詞性標記中，其餘欄位分別標示了 CKIP 斷詞系統使用之詞性標註，

以及分類之詞彙意義。

我們所採用的 Anchor-n-Gram 詞性標記是架構於 CKIP 詳細標記以及精簡標記之上的後設詞性

二二八事件(Nb) 不單(Da) 是() 本省(Nc) 不幸(VH) ，(COMMACATEGORY) 是(SHI) 整個(Neqa) 中國 (Nc) 的(DE) 不幸(VH)，(COMMACATEGORY) 臺胞(Na) 須要(D) 知道(VK) 不論(Cbb) 內(Ncd) 外省人

(Na)

，(COMMACATEGORY) 都(D)是(SHI) 中國人(Na) ，(COMMACATEGORY) 我(Nh) 極度(Dfa) 的 (DE) 忍耐(VJ) ，(COMMACATEGORY) 發表(VC) 不(D)追究(VE) 肇事(VA) 責任(Na) 者(Na) 外(Ncd) ， (COMMACATEGORY) 亦(D) 要(D) 釋放(VC) 犯人(Na)，(COMMACATEGORY) 由(P) 此(Nep) 就(D) 可 (D) 知(VK) 我(Nh) 愛護(VC) 臺胞(Na) 的(DE) 心志(Na)

二二八事件(Nb) 不單(Da) 是(SHI) 本省(Nc) 不幸(VH) ，(COMMACATEGORY) 是(SHI) 整個(Neqa) 中國(Nc) 的(DE) 不幸(VH) ，(COMMACATEGORY) 臺胞(Na) 須要(D) 知道(VK) 不論(Cbb) 內(Ncd) 外省 人(Na) ，(COMMACATEGORY)都(D) 是(SHI) 中國人(Na) ，(COMMACATEGORY) 我(Nh) 極度(Dfa) 的 (DE) 忍耐(VJ) ，(COMMACATEGORY) 發表(VC) 不(D)追究(VE) 肇事(VA) 責任(Na) 者(Na) 外(Ncd) ，

表 2. Anchor-n-Gram 及中研院 CKIP 詞性標記 (已篩選)

Anchor-n-Gram

詞性標記

進一步拓展這樣子的觀察方式，則像是”法制”(Na)”委員會”(Nc)”委員”(Na)這類兩個以上比鄰

重的關聯式網路連結建立原則，這部分的操作我們將於 “詞性模組規則的建立及選擇” 此小節生的形式、規則被整理出來，大致上不論何種共現及關係的型態，我們可區分為是屬於 Inference (推論)、Positioning (立場)、Representation (陳述) 這三種較上層的關聯意義形式，而若考量較底層，

兩兩詞彙之間的關聯類型時，我們可整理得到大致有以下數種概念層級的關聯類型：相關(relation)：

類似(similarity)、對應(correspondence)、相同(equivalence)、認為(subjective correspondence)；包括 (inclusion)：成員(member)、組成(composition)；對立(opposition)、相異(difference)、前因(origin)、

後果(product)等等類型。

表 4. 論述語句概念及關聯規則

N->SHI->N、

N->SHI->V 行為動作、

本研究依據這樣的概念進行觀察，先以人工方式藉由專家知識及利用資訊平台的互動式查詢功能，於文本中提取出較為符合的關聯案例，並逐筆將案例及對應的文本情境於平台中記錄下來，接著再以資訊工具及統計方法，分別以量化考量的出現頻率以及質化考量的具體意義這兩種角度同時審視句型範例以及可能歸納出來的模式。藉由這種半自動化的方式，同時考量人事物之具體意涵，

以及統計量上的顯著性，可反覆施行相同的處理原則於同一個史料文本中，藉由每一次已建立出的模式規則，再進而從文本中探索搜尋出更多相關的模式規則，亦同步彙整出與模式對應之情境、語句片段。其中以案例方式來呈現這樣子的資訊，大致上我們可分為條列命令式語句、行為動作或情感抒發、立場主張要求陳述三項語意概念，如附表 4 所示，其中的句型範例及來自於所欲探索的史料文本中所呈現符合的語句，且已經過自動化意義詞彙整併的程序，因此句型中的單元詞彙會以較具有意義的詞彙呈現，而非通常斷詞後呈現意義較為破碎且片面的詞彙。根據本研究後設之詞性標記，我們可以歸納出數種相對於不同語句形式以及句型範例的詞性模式，可做為進行進一步觀察的利基。

在掌握了從文本中觀察歸納得到的數種語句形式及模式後，我們即可以程式自動化的方式，於任意指定的文本中進行模式的比對作業，並可依符合的程度來篩選或修正成為最後合適的模式。圖 8 所示的詞性組合發生頻率網路圖，各標示詞性的節點代表了該文本中各種符合該詞性的詞彙，並與其他的詞彙共同發生的次數(collocation)，連結所標示的數字即為基於整體發生次數正規化後的發生頻率值。當我們指定了關鍵詞彙(ANCHOR)以及詞性模式之後，我們就可以從文本中依據符合的次數，建立出與該文本相依之詞性關聯發生頻率圖，唯一般情況下比對的模式以及符合的狀況 (instance)會更繁複且多樣，因此我們必須要設定一定的門檻來篩選，以挑選出較具有意義且發生頻率亦較高的詞性模式，保留下來供後續採用。

圖 8. 關鍵詞彙於特定文本中呈現的詞性組合發生頻率網路圖(已篩選)

在文檔中文本史料數位實驗室之打造與創新人文研究之探索---總計畫及子計畫三 (頁 28-38)