以概念場域相似度為基礎之文本觀點與情感異同分析

五、研究方法

5.2 以概念場域相似度為基礎之文本觀點與情感異同分析

5.2.1 以人事物所構成的概念框架為索引

人、事、物的存在皆是有意義的，從肉眼閱讀人類所記載的文字訊息中，我們通常可基於對語言的熟稔度很快速地從一句文字或一個片段中提取出當中所描繪的人、事、物等概念關係，而這樣子建立出來的的關係會在逐字逐段的閱讀中，逐步被修正、增強或弱化，而這先概念關係之間有可能因為堆疊凝聚成一個更具體的概念，亦有可能被逐漸削弱分化，分裂形成不同的概念或是消散離析無法具體，而概念與概念之間通常亦皆有關係存在。在我們的大腦中這樣子的概念網路即為一份從閱讀文字訊息所取得的資訊，亦可視為是一份來自文本的知識地圖，我們對此地圖的認知可以是單就此知識地圖本身去理解，亦可融匯於我們個人自身成長學習所生成的知識地圖中，提供我們更開闊的視野與解讀的可能性。依循這樣子的知識生成軌跡，我們即可以利用資訊技術從文本中各個文字訊息片段中，擷取出可能的概念單元(字詞)並建立起個概念單元之間的關聯，並於文本的掃描過程中逐步建立起一個完整的概念網路。文史領域專家的知識可以提供我們概念網路中所應具有的概念框架以及所對應到概念單元及概念網路實際的樣貌，也就是字詞本身以及字詞之間的關聯。例如當我們定義概念框架為以下結構：總概念概念議題構面，則藉由文本解讀後，我們即可逐層建立起以下資料結構：總概念{二二八事件}(二二八事件)概念{事件爆發、武力壓制}(事件爆

圖 19. Anchor-n-Gram 意義詞彙合併子模組 – 收斂後期連結建立及權重給予

發)議題{查緝、私菸、毆打}(查緝)構面{私菸、查緝員、依法嚴辦、傷亡}，再經由相同的運作原理施作，即可取得屬於該文本之概念場域。

然而在利用資訊技術來進行此階段工作時仍有幾個重點是需要思考的。

1. 背景知識：人腦已具有對該文本語言解讀的知識，因此可以有效地找出重要的詞彙作為概念單元(例如人物稱、事物名稱、地名)；

2. 共現關係(Co-occurrence)：自然語言的語句結構中，通常某字詞出現的頻率越高，往往意味著該詞彙是為一重要或是使用上較普及的詞語。而行文論述中使用到的字詞之間距離越相近者其意義通常也會較為相近，相關程度較高，反之則越低(例如位於不同段落的不同字詞往往講述的就是不同的事情)；

3. 複合詞結構(Compound Structure)：中文字詞的意義呈現及理解必須要考慮詞彙的複合結構關係，複合詞應被視為一個概念單元，而非以複合組成中各個詞彙單元各自來看，方能正確反映語境欲呈現的概念。例如 ”天馬茶房”(名為天馬的茶房，為二二八事件爆發之地)，

其中 ”天馬” 為傳說中的生物，而 ”茶房” 泛指提供茶水及休憩之店家，此兩詞彙意義上的交集和 ”天馬茶房” 該地並無關係。

5.2.2 具意義敏感度之詞彙產生方法 Meaning-Sensitive Compound Term Aggregation

基於 5.2.1 的概念框架，我們基於之前提出的目標議題導引關聯式網路模型(Anchor-n-Gram, ANG)，其以人、事、物等指定概念詞彙為核心作為資訊擷取及建立詞彙關聯網路的起點，提出一基於中文複合詞規則之詞彙合併動態規劃演算法，解決斷詞的結果往往會將原本較具有意義的詞彙依據其所包含的詞性(Part-Of-Speech, POS)分解打散成基本的詞彙單元，而使得最後詞彙呈現的意義太廣泛而失去原始語境所反映概念的問題。若使用已失去原始語境資訊的詞彙單元來建構詞彙關聯網路，或是使用其他量化方法浮現資訊，則意義也會趨於鬆散而難以解釋其中的意涵。ANG 的詞彙合併原理是以斷詞後的詞性標記為基礎，依據中文語法規則及經驗法則建立詞彙重整併機制，

將已被分解成為詞性單元的詞彙重新整併為一較完整且指涉較為精確的詞彙，合併對象包括 N* (複合名詞結構)、V* (動作、狀態、情感或情緒)、N+V (狀態表達結構)、N+V+N (主詞、動詞及受詞三元結構)、V+A+N (動詞及形容詞修飾名詞結構)等。

本研究提出改良的觀點在於，倘若以自然語言及經驗法則所歸納出的複合詞結構原則進行詞彙合併，將有可能發生合併後詞彙過於冗長，造成儘管是一合理之複合詞，但該詞於文本自身出現頻率往往變得過低，若再以 TF-IDF 計算全文本權重則亦無法突顯重要性，進而導致該詞彙最終在篩選中被捨棄，亦無法加入概念網路中，例如 “三民主義”(N)+”青年團”(N)+”台中”(N)+”分團”(N)，

為一相當常見且典型 V*並列結構，最後將被合併為 “三民主義青年團台中分團”，但此合併後的詞彙僅出現於該段文字中一次而已，雖然完全符合該段文字欲表達的概念，但實際上若以符號學 (Semiotics)角度來看，文字符號的表達形式(能指)與意圖表達的概念(所指)之間常常是會有資訊落差

的，但當我們意圖將 “所指” 完全地綁定在一個 “能指” 的符號案例上時，此 “所指” 的存在意義將會與其綁定的 “能指” 相同，其中一者將失去存在意義，亦喪失語言應蘊含的概念意義包容性。

此現象以資訊原理(Information Theory)觀點來看，亦可視為是用詞彙表達意義這件事的一種過度擬合(over-fitting)，反之，當我們試圖用一個較簡略且意義不足的詞彙溝通表達一個較完整豐富的概念時，亦會容易發生擬合不足的現象(under-fitting)。

據此觀點本研究提出 ANG 法的改良版，將原基於中文複合詞結構規則之詞彙合併動態規劃演算法定名為 Compound Term Aggregation (CTA)，並提出可依據全文本(collection)樣貌估算詞彙意義含量且配合出現頻率以決定的最佳複合詞彙合併結果之綜合評估法：Meaning-Sensitive Compound Term Aggregation (MS-CTA)。MS-CTA 演算法基本運作架構為：

(1) CTA 階段：依據指定複合詞結構規則將詞彙進行合併直至收斂。

(2) CTA-based N-gram 階段：依據 CTA 階段建立出的詞彙詞性資料結構，進行 POS-based N-gram, N=1~K，其中 K 為該詞彙所包含的詞性總數。

(3) CTA-TF-IDF 階段：依據 CTA-based N-gram 所產生的候選詞彙集合中，逐詞彙計算其於該文本的出現次數 (Term Frequency) ，以及總文本的出現次數 (Inverse Document Frequency)，並以詞頻 double normalization (k=0.5) 及文本頻 Inverse Frequency Smooth (Log e) 平滑處理計算 TF-IDF 數值，以避免文本大小不一的比重偏移情況。

(4) CTA-Rank 階段：最後依據綜合規則之門檻挑選出優先且合適的詞彙(例如：TF-IDF 較高者、文本出現次數大於 1 者、不為單一助詞結構者、不為單一副詞結構者、以複合詞長者優先等規則)，完成 MS-CTA 計算程序。

5.2.3 關聯詞彙共現網路與概念場域相似度計算

共現網路技術最早出現是應用在史料典籍上的資料分析，用事件或詞彙概念意義的出現次數以及累計結果，突顯其相對之重要性。而對於文本及語境中所展現的人、事、時、地、物詞彙的共現關係，我們可藉由紀錄這些詞彙以及這些詞彙之間的關聯強度，並依據相同的詞彙及關聯兩兩疊合構成一關聯詞彙共現網路 (lexical co-occurrence network)，而此藉由詞彙及其關連所構成的網路，

亦可被視為是屬於該文本或語境之概念網路。在本研究中，我們使用所提出的 MS-CTA 方法，可以有效地幫助我們從文本中提取出合適於概念意義之傳達、易為人所理解、以及對該文本具有顯著意義之詞彙集合，而文本中行文論述使用的字詞其之間的距離即可視為是字詞之間的共現關聯強度。

在實際方法應用中，若 MS-CTA 偵測出兩字詞 a、b 且之間語句中包含其他字詞的距離為 dab，則我們可定義其共現關聯強度計算為 Wab = Log(dab)，如此所構成的一個基本結構關係，亦為關聯網路中的雙邊結構(dyad)，亦有可能在藉由 MS-CTA 以及共現關聯強度於文本中連續計算中發展為三邊結構(triad)，群聚結構(clique)，並可進一步利用多種不同的社會網路結構分析指標進行各種不同結構指標的計算。而在本研究中，此階段我們可使用自我中心網路(Ego Network, Degree=1)，以特定議題為核心，於整個概念網路中檢索出與核心相關聯的子議題集合(意即概念框架中的構面集合)。

從一個給定的概念及所屬議題出發，我們藉由 MS-CTA 方法、詞彙共現網路方法、以及社會網路分析中的自我中心網路方法，可建立出屬於各個議題的構面詞彙關聯網路，且為無向性具權重之網路。對於某一個議題的構面詞彙關聯網路，議題與構面詞彙的關聯強度以及構面之間的關聯強度，皆可進一步再利用權重中心性指標(weighted degree)的計算，得到該議題之構面集合中的關聯強度指標，此指標的數值越高，則意味著該議題詞彙出現的次數越多、與其他構面伴隨出現的次數亦越多、或是共現關係中的意義或關聯性越相近(字詞距離越短)。而此構面詞彙關聯網路亦應基於相同的議題、構面關係，合併累計呈現於關聯的強度數值中。最後，我們應用餘弦相似度 (Cosine Similarity) 的向量及維度數值概念，將之代換為不同議題(向量)所屬構面(維度)及其關聯強度(維度數值)之間的相似度計算工作，並可將這樣子的概念施作於不同的概念框架中：例如除了比較議題的相似度外，亦可應用於概念的相似度計算中，並再進一步堆疊計算結果呈現出總概念之相似度計算成果。

此外，議題所屬之構面詞彙關聯網路中，亦可篩選出特定的詞彙節點進行不同的資訊應用：例如藉由不同功用類型的辭典來進行字典法資訊檢索，並亦可逐步將計算成果經由概念框架的堆疊累計，產生更整體的資訊意義產出。綜合言之，本研究所提出各方法其重要運作程序整理如下：

1. 由文史領域專家藉由欲探討的主題逐層定義出其總概念、概念及議題，構成一整體概念框架。

2. 使用 MS-CTA 方法逐各文本中計算擷取出較具有意義的詞彙。

3. 依據這些詞彙以及文本中的詞彙距離建立起詞彙關聯網路。

4. 藉由自我中心網路方法以給定之議題為中心點，計算權重中心性指標得到屬於該議題下之

在文檔中文本史料數位實驗室之打造與創新人文研究之探索---總計畫及子計畫三 (頁 48-52)

五、 研究方法

5.2 以概念場域相似度為基礎之文本觀點與情感異同分析

5.2.1 以人事物所構成的概念框架為索引

5.2.2 具意義敏感度之詞彙產生方法 Meaning-Sensitive Compound Term Aggregation

5.2.3 關聯詞彙共現網路與概念場域相似度計算

五、研究方法