資料分析工具模組

五、研究方法

5.1 史料文本資訊探勘實驗平台

5.1.8 資料分析工具模組

表 5. Gephi - Layout Algorithm 參數設定

Layout Algorithm

參數

Yifan Hu Proportional

Quadtree Max Level .10 Convergence Threshold .1.0E-4

ForceAtlas 2

Thread number 2 Dissuade Hubs yes LinLog mode yes Prevent Overlap yes Edge Weight Influence 0.6

Scaling 15.0

Stronger Gravity yes

Gravity 0.02

Yifan Hu Proportional Force Atlas 2 Contraction Rotation

圖 13. Gephi - 視覺化版面規劃處理流程

在圖 14 所展示的史料文本資訊探勘實驗平台 – Partex 系統介面及運作概況圖中，可以見到此線上實驗平台主要可分為三個運作區塊，分別說明如下。

(A) 主要參數控制模組：此部分除了可指定欲加探索分析的電子文本來源以外，亦須指定一個必須的

A

B

C

D

圖 14. 史料文本資訊探勘實驗平台 – Partex 系統介面及運作展示

“標的語句” 作為初步篩選文本用的關鍵詞彙，另外我們亦可設定標的文本顯示的範圍，一般而言此顯示範圍越小，則可觀察到的與關鍵詞彙相關的情境範圍越侷限，但若有較高共伴隨出現的其他詞彙的話，

此侷限性亦能顯示出較強的相關性；反之此情境範圍若越大，使用者可觀察到的情境範圍越廣泛，則可能的雜訊亦會較多，需要較大幅度的人工過濾審閱才可明辨出其中包含的相關資訊，然而，對於初探性質的觀察角度而言，倘若觀察的目標尚未明確的話，建議可使用較大的標的文本顯示範圍，確認欲觀察的主題之後，再逐步縮小顯示範圍，搜索教具強相關性的人、事、物、事件。

(B) 檢索結果顯示模組：對應於(A)所指定的參數，呈現文本中符合的資料片段，並依據標的文本顯示範圍的設定，顯示一定文字量的論述片段(discourse snippet)，在論述片段的逐條顯示中，指定的標的語句亦會以高亮度的鮮黃底色標示於論述的中央位置。而(B)區的右邊部分則為依循該論述片段所屬的後設分類資訊，顯示該文字所屬的資料來源名稱、文章標題、文章日期、資料索引區間等資訊。為了能交互確認文本實際的前後銜接狀況，以及便利後續具意義詞彙合併的參考，亦提供了該文本全文的原始文件、以及詞性標註的結果子視窗(POS)。

(C) 史料文本資訊探勘實驗平台 – Partex 亦包含了以關鍵論述分析為基礎的人、事、物、事件概念關聯註記功能，此部分亦可基於專家的建議，基於特定文本情境，建立主要概念詞彙與關連概念詞彙與文本相依之別名關聯地圖(alias map)、相關性(類似、相同)、包括性(成員、組成)、對立性、或是前因及後果等關聯性，此後設的關聯資訊除了共同體現專家知識於史料文本之詞彙關聯中提供具有相當實質意涵以及價值的寶貴意見外，亦可用於後續資訊檢索時的查詢擴展(query expansion)以改善召回率(recall)。

(D) 此部分則繼承來自(C)功能模組所建立的知識，依據不同的關聯分類即時顯示於此意義關聯模組中，

可供即時的分類篩選、連結性觀察、詞彙及關連審閱、並可進行資料刪改作業。此部分的模組亦考量資訊逐漸累積後對於使用者的閱讀便利性，因此可另外展開為一獨立的子視窗，提供更清楚的後設標記結果資訊，如圖 15 所示。

5.1.8.2 Anchor-n-Gram 意義詞彙合併子模組介面

為了克服中文字的斷詞程序往往傾向將詞彙拆解至詞彙意義的最小單元，以單一詞性的方式呈現，因此倘若用種基本的詞彙單元其實若建構出關聯式網路的話，則會顯得呈現的意義太具有普世性(generic)，而缺乏較精確的解釋可能性，亦無法充分反映原始文本於論述中試圖描繪的情境 (context)，因此我們需要再進一步找出有意義的字詞單元加以整併，還原成為原本較具有意義的字詞形式(例如複合名詞、動名詞詞組)，以便能更具體呈現原屬於文本情境中要表達的意義。在此部分的介面，本研究所開發的 Anchor-n-Gram 亦包含了一個意義詞彙合併子模組，向前可承接來自史料文本資訊探勘實驗平台 – Partex 所彙整出來的關鍵詞彙以及具意義詞彙組合的資訊，向後亦可銜接詞彙關聯式網路所需的各種節點、連結、距離及權重等網路結構相關的資訊，以及銜接視覺化輸出的功能。

此部分的介面所包含的參數設定如表 6 所示，而圖 16 則依序顯示根據關鍵詞彙 “本省人” 於史料文本範例 “台灣新生報” 中檢索出來的論述片段，以及初步詞性標記的過程；圖 17、圖 18 分別為針對名詞類詞彙以及動助詞類詞彙的迭代詞彙整併過程，只要一偵測到收斂，即已無可整併的詞彙了，則該迭代程序就會終止並傳回詞彙結果；在最後的收斂後期連結建立及權重給予階段中，

我們計算每兩兩關聯詞彙之間的距離，並依據預先設定的數值重新取樣方式，換算為權重賦予該連圖 15. 基於關鍵論述分析之後設意義關聯資訊檢視器

結，然後這些資訊都將以節點及具備方向性及權重的連結資訊被儲存起來，提供後續的網路視覺呈現或分析模組採用。

表 6. Anchor-n-Gram 意義詞彙合併參數設定 (以”台灣新生報”為例)

參數 數值 說明

Source 台灣新生報(02) 史料文本資料來源 Anchor 本省人(Na) 關鍵詞彙

Tb Link Islanders_02_links 網路資料輸出目標 Qfunc LOGE 數值重新取樣方式 Linkage MIX 詞彙關聯規則模式(綜合)

Candidate Slots 20 關鍵詞彙關聯情境範圍 (前後各 20 字) N-Range 6 名詞系節點關連範圍 (6 個節點內視為

相關)

V-Range 3 動助詞系節點關連範圍 (3 個節點內視為相關)

Max-Iteration 10 迭代／收斂門檻值

圖 16. Anchor-n-Gram 意義詞彙合併子模組 – 初步篩選及詞性標記

圖 17. Anchor-n-Gram 意義詞彙合併子模組 – 名詞整併階段

圖 18. Anchor-n-Gram 意義詞彙合併子模組 – 動助詞整併階段

在文檔中文本史料數位實驗室之打造與創新人文研究之探索---總計畫及子計畫三 (頁 42-48)

五、 研究方法