資料探勘的步驟與執行過程

參、研究方法一、個案挑選

二、資料探勘的步驟與執行過程

1. 步驟

資料的收集可以區分為兩部份，第一部份是屬於正式性公告的資料，如立法院公報、行政院議案關係文書等，第二部份則是屬於網路上的相關新聞，透過系統自動擷取的方式，收集與該法案相關的公報及新聞資料，並將公報的 MS Word 格式及新聞的 HTML 格式，轉換為純文字格式。之後，再經由政治領域的專案，將重覆性的新聞或與該法案相關性過低的文章剔除，完成資料清除的動作。在第三步驟則是擷取文件屬性，

將用來描述該文件的屬性，如新聞的標題、記者、報別、版別、時間等資訊，從文章中擷取出存放於資料庫中，建立起資料的Metadata。

在完成前三步驟後，使用學者簡立峰（1999）提出植基於 PAT-tree 的中文資訊擷取方式，擷取出與該法案相關的資訊，並用以提供政治領域的專家，建構與本法案相關知識本體（Ontology）的依據。透過此一流程，將可以描繪出本法案的主幹（backbone），

使後續資訊處理的過程能有所依據，並有助於提升資訊擷取的成效。

在資料轉換的過程，是要將上述擷取出未結構化的資料，轉換為系統可以處理的格式，在本步驟可以區分為三個子步驟，分別為詞語分析、重要詞彙篩選及資料正規化的動作。首先，純文字的資料會經由詞語分析系統 ICTCLAS（Institute of Computing Technology, Chinese Lexical Analysis System）轉換為單詞，並標註詞性。ICTCLAS（Zhang, Yu, Xiong, Liu, 2003）是由中國大陸中國科學院計算技術研究所，利用隱藏式馬可夫模型（HHMM）針對中文字的詞語分析系統，其可以將一段中文字，分隔成最小的單詞，

並標註其詞性，再透過詞性組合規則，則可將單詞連接成片語。因此透過詞語分析系統，

可將一段文字轉換為個別的詞語，並捨棄其他詞性，僅留下名詞和動詞，做為代表文章的詞語向量（term vector）。除了區分出名詞和動詞外，亦針對名詞進行 named entities parser 的動作，擷取出人名、地名及組織機構名稱三種不同的特徵值。學者 Hatzivassilogou, Gravano 和 Maganti（2000）提出，透過不同特徵值有助於後續分群的準確度。根據其不同詞性標註擷取出的詞語，如名詞（noun）、動詞（verb）、人名（nh）、地名（ns）、

組織機構名稱（ni），再透過 XML 格式存儲存。

第二子步驟是重要詞彙的篩選，其主要目的是精減每份文章的詞語向量，選出更能代表該篇文章的詞語。透過TF（Term Frequency）和 IDF（Inverse Document Frequency）

的權重方式（Salton, G., Buckley C., 1988），挑選出重要詞彙。而第三子步驟則是詞語的正規化，透過事先建立好的Ontology 架構，可以對於詞語進行正規化的動作，例如：

陳總統與陳水扁其所代表的人是相同的，因此系統會統一將陳總統轉換為陳水扁，讓相同意義的詞語都能用相同的詞彙表達。除此之外，系統亦會將包含於Ontology 中的詞語之詞性，轉換為重要詞彙（nx），透過此一轉換動作，可以標示出法案主幹中被提及的重要詞性，有助於後續議題界定的成效。

表一系統流程匯總表

步驟任務描述

步驟一資料收集（Data collection）透過系統收集與法案相關的資料

步驟任務描述

步驟二資料清除（Data cleaning）將與法案不相關資料或重覆性資料移除

步驟三文件屬性擷取

（Metadata collection）

取得描述文件之相關資料，例如日

詞語分析（Lexical analysis）將資料轉換成帶有詞性的單詞片語，並轉存成XML 格式

重要詞彙（Significant term）透過 TF*IDF 的方式將重要詞彙保存下來，移除相關性不高的詞彙資料正規化（Normalization）將相同意義的詞語，利用相同的詞

彙來表示

步驟六子議題界定（Issue identify）界定出該法案審查時，有哪些相關的議題被討論

權重值學習（Weight learning）透過數理的方式，決定每種詞性值所使用的權重為何在於找出分群時所需的權重值。在此，本研究透過log-linear regression model 的數理化方式（Hatzivassilogou et al., 2000），找出最佳權重值。其透過人工的方式，將資料進行分組後，再透過logistical 線性回歸的方式，求得每個權重，其公式如下： Hierarchical Clustering Method 中的 Group Average Link 的做法，對文件進行分群的動作

（Frakes, Baeza-Yates, 1992）。其相似度的算法是採用 Cosine Coefficient，文章 D_i與文 章 D_j的相似值如下所示：

∑

透過文章與文章間的相似值計算、Group Average Link 方法及相似值臨界值的給予，便可以完成議題的分群。

第七步驟則是界定出議題中的參與者行為，藉由找出某一議題中的參與者和其表達過的意見，可以了解參與者在該議題中所扮演的角色，即who says what, when, how。最後一步驟，資訊的呈現則是採用圖形化使用者介面（GUI）的方式，讓使用者可以透過

資料來源

資料前置處理資料收集

資料清除

文件屬性擷取

Ontology 資料轉換建立知識本體

ICTCLAS

子議題界定

參與者行為

資訊呈現

法案形成過程記錄資料分析

圖一系統架構圖 3. 執行過程

本研究經回溯評估立法院第四及第五屆所有已通過的法案，考量到要比較立法院兩屆資訊蒐求及資訊網絡，因此選出【台灣地區與大陸地區人民關係條例】為系統實驗研究對象。經透過聯合知識庫、中時新聞網資料庫及立法院國會圖書館之立法院公報查詢系統，從聯合知識庫共蒐集到新聞2,134 則、中時新聞網 1,200 則及立法院公報 429 篇，

時間為1999 年 2 月 1 日（第四屆立法委員任期開始）至 2003 年 11 月 30 日（最後一次修定兩岸人民關係條例後二個月）。將收集到的資料經政治領域專案審查後，移除重覆及不相關者，保留聯合知識庫1,945 則、中時新聞網 994 則、立法院公報 45 篇。

若將在上述文集中的社會新聞移除，例如因違反兩岸人民關係條例而被報導的走私、偷渡、賣淫等新聞，僅留下政治議題，可以獲得另一政治議題的文集（Corpus），

19內有聯合知識庫 1,194 則，中時新聞網 826 則。而移除的社會事件，再歸類為社會事

____________________________________

19 政治議題文集以（政）表示。

件議題，²⁰內有聯合知識庫751 則，中時新聞網 168 則。至於立法院公報部分，因為資料量少（45 篇），故未能再細分出政治及社會議題兩類。在取得正確的文集後，擷取出文件屬性，並藉此建立「兩岸人民關係條例」的Ontology。

在資料轉換的步驟，透過詞語分析系統ICTCLAS 共擷取 53,739 詞語，經由 TF*IDF 的方式做重要詞彙的過濾，留下權重值較高的30,000 個詞語，並將詞語做正規化表達，

達到相同意義的詞語會利用相同詞語表達。在子議題界定的階段，先透過人工的方式，

將1999 年至 2000 年 6 月的資料（364 篇），利用人工手動分群的方式，找出正確分群結果，再將其結果，透過SPSS 的 log-linear regression model 學習出正確的權重值，其權重值如表二所示。

表二各詞性權重表

詞性說明權重

noun 名詞 16.9

verb 動詞 1.0

nh 人名 62.4

ns 地名 45.4

ni 組織機構名稱 20.1 nx 重要詞彙 79.3

分群前，我們透過兩種方式決定時間區段，一為法案修定時間，二為立委屆數。前者以法案第六修（2000.12.05）、第四屆結束、第七修（2002.04.02）的時間點，將整個時間區段分為四個時期，而時間切割點會向後延伸一天（Swan R., Allan J., 2000），因為通常新聞報導會比實際日期延遲一天。後者僅比較第四屆與第五屆的差異，因此以第四屆結束（2002.01.31）為時間切割點，詳細時間區段及各區段的議題數，見附錄三。

分群時，先建立起文件與文件間的Similarity Matrix，再透過 Group Average Link 的方式，在臨界值為0.29 的情況下，進行分群，再把結果存入資料庫中，待使用者查詢結果。在分析參與者行為的階段，則匯整出一個議題中有什麼人參與，其在該議題中表達過什麼意見。除了可以從議題中找出參與者，亦可以從參與者的角度來觀察其參與過哪些議題，做到更彈性的關連。除此，本研究依前面理論將參與者角色區分為十類，舉例說明如表三所示。

議題的標註上，系統會選出某一議題中，最常被提及的三個關鍵詞彙來代表該議題，例如某議題的標註為「直航媽祖宗教直航」，其代表該議題應該是討論宗教直航的議題。

____________________________________

20 社會事件議題文集以（社）表示。

表三參與者角色說明

角色說明舉例

官政府官員政府機構人員，如官員、縣市長等立立法委員第四屆與第五屆立法委員

政政治人物政黨主席、發言人及縣市議員等產產業人士業界總經理、發言人等

陸大陸人士大陸官員及相關人士

學學界人士學校教職員及相關研究機構記報社記者各報社記者

警警察檢調警察、檢查官、法官等組組織機構非營利事業機構人員其其他人士其他不在上述分類人員

最後，系統呈現的結果，則如圖二所示，先透過左邊視窗選擇時間區段後，會列出該時間區段內的議題，點選議題後，則會顯示該議題內討論的新聞和參與者，並在右方視窗會列出此議題中的重要詞彙、參與者及相關統計資料。當點選新聞後，則會顯示新聞的原文，方便使用者了解事件的報導，如圖三所示。若點選參與者，會顯示其發言與被提及的情況，若該參與者有參與其他議題，亦可以在視窗中顯示，如圖四所示。下方的時間軸圖，則會顯示相關新聞出現的時間點當天的新聞數和利用顏色來區分新聞出現頻率，例如，若新聞數為2 時，顯示藍色，大於 3 時，會顯示紅色，讓使用者可以快速了解哪天被報導情況最高。除此之外，亦標註出法案修定重要事件時間，方便使用者了解事情發展的始末。而右方中間的文字方塊，可以做為使用者回饋的機制，自行記錄與該事件相關的資料，以做為日後研究所用。

4. 文本分析

除了量化的分析外，系統亦提供質性的文本分析（如圖五所示），可以讓不同的研

在文檔中立法院立法表現之研究---第四屆與第五屆審議法案的資訊蒐求及資訊網絡之比較(I)The Legislative Performance of Legislative Yuan: A Comparison of Its Information Gatherings and Information Networks for Examining Bills between Its Fourth and Fifth Terms (I) (頁 52-60)

參、 研究方法 一、 個案挑選

二、 資料探勘的步驟與執行過程

∑

參、研究方法一、個案挑選

二、資料探勘的步驟與執行過程