• 沒有找到結果。

第三章 研究方法

第一節 系統流程與架構

圖 15 系統流程圖

本系統的設計分為「資料處理」與「資料視覺化」兩個部份, 圖 15 為本 系統從資料處理至視覺化的整體運作流程圖。系統背後有一個經過斷詞(Term Segmentation)與索引建置的索引庫(Index DB);當關鍵字輸入後,將符合關鍵 字所有文章取出(Document Match);接著在從文章中取出相關的關鍵字(Term Extraction)並做過濾(Term Filtering);再來將所有關鍵字進行文章數量探勘(Term Sequences Analysis )與共現分析(Co-occurrence Analysis)主要取出關鍵字出現 於新聞的文章數與兩關鍵字共同出現於新聞的文章數;緊接著將資料格式化

(Data Formatting)並將其調整成視覺化能夠使用的數值(Data Scaling);最後進 入網絡視覺化(Network Visualization)。此外,本系統的視覺化設計,著重在互 動功能的表現,在介面中使用者能夠隨意的輸入關鍵字或是點擊相關關鍵字,而 當此事件觸發後,系統會將被點擊的相關關鍵字視作輸入關鍵字,重複執行上述 相關文章萃取、關鍵擷取、過濾、共現分析、資料格式化等步驟並重繪網絡視覺 化介面。

37 圖 16 系統架構圖

圖 16 為本系統之系統架構圖,分別以資料庫層級(Database Layer)、功能 層級(Functional Layer)、平台層級(Platform Layer)與應用層級(Application Layer)

等四個部分作說明。

 資料庫層級:本系統的資料存取主要來自於兩個資料庫,其一為存放新聞原 文的資料庫,資料庫欄位包含不重複之新聞編號、新聞標題、新聞內容、新 聞來源網站、新聞分類(例如,財經、政治、生活天氣等等)與新聞發稿時 間等;其二為新聞文章經斷詞過後的索引庫,資料欄位包含詞彙與其出現的 新聞文章編號,這是為了快速取得符合輸入關鍵字之新聞文章。

 功能層級:而功能層級主要對應即時資料處理與使用者互動事件監控的特色 進行功能設計,其中 Keywords Extractor 為取得相關關鍵字之功能模組;

Dimensions Extractor 事實上包含流程圖中之數量探勘(Term Sequences Analysis )與共現分析(Co-occurrence Analysis)兩個步驟,主要是取出視 覺化中的資料維度;Articles Searcher 是為了能夠快速取得新聞原文,因為 本系統除了以網絡圖進行相關關鍵字推薦外,希望提供使用者能夠追朔新聞 原文;而 Interaction Monitor 則是為了監控使用者之互動事件的發生與否,

38

而於視覺化介面中進行相對應的反應。

 平台層級:本系統透過網際網路作為提供系統服務的平台,以整體的系統服 務來說,所有視覺化呈現與資訊處理的存取皆利用網際網路進行資料傳輸,

主要是為了能夠達成使用上的方便性,因為新聞瀏覽並不屬於專業性的分析 活動,使用者只須開啟瀏覽器,即可使用本系統所提供的新聞導覽服務。

 應用層級:本系統於應用層級中主要提供的是資訊視覺化與視覺化互動,而 視覺化的部分主要提供關鍵字網絡(Network Visualizer)幫助使用者瀏覽新 聞,另外提供關鍵字於各時間點之新聞量的趨勢圖(Trend Visualizer)供使 用者作參考,同時使用者能夠利用 Dates Controller,設定新聞資料的時間區 間 ; 網 絡 圖 中 使 用 者 能 夠 利 用 滑 鼠 與 節 點 進 行 互 動 ( Visualization Interactions),例如點擊節點、拖曳節點與縮放視角等;使用者能夠利用 Browsing Path Controller 來控制自我的瀏覽路徑,例如使用者能夠清除已點 擊過的節點;為了讓使用者能夠以不同的角度觀察關鍵字網絡,使用者能夠 利用 Layout Controller 即時的切換網絡圖的繪圖規則,本系統應用環狀、

Force-Directed 與 Chameleon 三種不同的網絡繪圖供使用者作切換,將於本 章第二節針對此三種繪圖演算法與特色詳細介紹之。

一、 資料處理

本系統為了提高提取兩個主要維度(關鍵字的新聞文章數量與倆倆共同出現 的新聞文章數)與符合關鍵字的所有新聞文章的效率,預先將新聞資料庫中的每 篇文章以「詞」為單位建置索引庫,而詞的長度設定為一至十個中文字元,索引 庫中儲存各獨立不重複的詞、出現的新聞編號與出現次數,並且於建置詞索引的 過程中將內容完全相同的新聞文章作過濾。這樣的作法是為了在資料處理的模組 中迅速的取得一個或是多個關鍵字出現的文章原文與文章數量,同時也能夠依據 關鍵字出現於文章中的次數將新聞作排序。

39

當系統的前端接收到使用者輸入的關鍵字 Q1 後,依照以下步驟進行:

1) 進入索引庫找出符合關鍵字的新聞文章編號,由於考慮到即時運作的效 率,僅取符合關鍵字且字頻(Term Frequencies)最高的前一百篇文章編 號,取得編號後則進入新聞原文資料庫中取出編號所對應的新聞原文;

2) 進行相關關鍵字萃取(Term Extraction),從第一個步驟中所取得的新聞 文章中取出相關的關鍵字{R1, R2…Rn},在這個步驟中同時利用中研院 平衡語料庫15對於詞性的分類標準來濾掉不要的詞性(例如,動詞、副 詞、介係詞等等),實際的過濾方法,主要是將所有從文章中取得的關鍵 字逐一輸入平衡語料庫中進行詞性比對,符合過濾詞性之辭彙即捨棄;

3) 第三步驟是將所有關鍵字{Q1, R1, R2…Rn}逐一的進入新聞資料的索 引庫中,取出各關鍵字出現在整個新聞資料庫中的文章數量,主要目的 是取得「新聞量」的維度,於網絡圖中以節點的大小表示,而實際的作 法與第一步驟類似,不同的地方在於此步驟中取出的是所有符合關鍵字 的新聞文章數量,而非前一百篇的新聞編號;最後的步驟是將這些關鍵 字倆倆進行共現分析(Co-occurrence Analysis),取出倆倆關鍵字共同出 現的新聞文章數,目的是取得「共現量」,於網絡圖中以兩關鍵字連線的 線條粗細表示,實際的作法是將兩關鍵字以「&(and)」邏輯運算聯結,

接著進入索引庫中進行查詢,取得共現的文章數量,若文章數量為「0」

則表示此二關鍵字於新聞資料庫中並無相關。表 3 為一篇以「流感」作 為輸入的關鍵字 Q1 取出的新聞文章,並利用此文章取出相關關鍵字(R1、

R2)的範例。

15 http://db1x.sinica.edu.tw/kiwi/mkiwi/

40 表 3 關鍵字萃取範例

新聞原文 相關關鍵字

新北市衛生局指出,國際間流感疫情升溫,民眾出國前應先打流感疫苗,

目前新北市剩餘成人劑型(3 歲以上)流感疫苗僅有 1 萬 5000 劑,3 歲 以下幼兒劑型流感疫苗仍有 2 萬劑。為避免出國染病敗了遊興且有礙健 康,民眾出國前最好能先接種流感疫苗,若到各區衛生所接種,不收費,

若到合約醫療院所接種,會酌收掛號費及診察費。

流感:5(Q1)

流感疫苗:4(R1)

劑型:2(R2)

說明:以「流感」作為輸入的關鍵字 Q1 取出的新聞文章,並利用此文章取出相關關鍵字(R1、

R2)的關鍵字萃取範例

二、 視覺化介面設計

介面設計主要為相關關鍵字網絡的視覺化,其次為能夠幫助使用者進行新聞 瀏覽之導覽功能,本研究參考過去相關的網絡佈局演算法,實作三種不同繪圖規 則的新聞網絡,以及數個關鍵字與新聞過濾互動功能,依序介紹如下。

(一) 關鍵字網絡視覺化

過去以視覺化為輔的互動式搜尋系統,通常利用星狀圖來呈現主要關鍵字與 相關關鍵字的關係,另以關係線條的粗細來表示關係強度,而本系統除了呈現關 係強度,利用網絡圖來呈現關鍵字。如圖 17 所示,以星狀圖僅能看見主要關鍵 字與哪些關鍵字相關,如同本研究第二章第一節所作的討論,這樣的呈現方式與 文字標籤相似,某些情況使用者可能會需要知道究竟這些相關的關鍵字是否相關,

且相關的強度為何。

41 圖 17 以星狀圖與網路圖呈現關鍵字的差異

(二) 不同的網絡繪圖方法

為了提供使用者能夠以更多的角度來瀏覽資料,本系統提供多個網絡圖佈局

(Layouts)予以使用者即時的切換使用。主要採用三種繪圖演算法:環狀(Ring)、 Force-Directed 與 Chameleon。環狀的呈現方式是以主要關鍵字為中心點而相關的 關鍵字以圓圈的方式散開,這是為了給予使用者一個節點不重疊的關鍵字網絡圖,

使 用 者 能 夠 藉 由 環 狀 的 關 鍵 字 呈 現 完 整 的 環 視 所 有 相 關 關 鍵 字 ; 而 Force-Directed 則採用 Fruchterman 與 Reingold(1991)提出的繪製無向圖演算法,

其能夠繪製符合視覺平衡的網絡圖,以節點之間的關係強弱計算位置,使用者能 夠藉由觀察各節點之間的距離瞭解整體關鍵字的強弱關係;本系統同時採用 Karypis、Han 與 Kumary 在 1999 提出的 Chameleon 群集分析演算法,與上述二 繪圖演算法不同的地方在於其主要目的在於呈現關鍵字的分群,節點與節點之間 的距離並不代表任何意義。使用者除了能夠藉由環狀的關鍵字呈現,清楚的一覽 所有關鍵字;亦或利用 Force-Directed 觀察所有關鍵字的關係強弱分配;若想要 將關鍵字進行分類,則利用 Chameleon 以子群的角度觀察關鍵字。提供繪圖規則 的切換最大的幫助便是滿足使用者能夠即時的、彈性的轉換視野,而不會因為觀 察角度過於固定而造成相關資訊的遺漏。

42

(三) 過濾與互動功能

互動功能的加入能夠有效的幫助使用者過濾資訊、切換視角。為了幫助使用 者在瀏覽資料時能夠降低呈現的複雜度、記錄瀏覽歷程與放大縮小瀏覽視野,本 介面包含下列幾種互動功能:

1. 即時搜尋:當使用者點擊任一關鍵字,系統會將其相關的關鍵字做及時 的關鍵字萃取運算,並延展於當前的網絡圖中,同以聯集的方式將使用 者之前輸入的或是點擊過的關鍵字一併搜尋其相關新聞文章。

2. 導航瀏覽歷程:使用者有的時候可能會需要記錄前幾次搜尋,也就是在 介面中點擊了哪些關鍵字。於本研究第二章第一節所提到,使用者在搜

2. 導航瀏覽歷程:使用者有的時候可能會需要記錄前幾次搜尋,也就是在 介面中點擊了哪些關鍵字。於本研究第二章第一節所提到,使用者在搜