• 沒有找到結果。

第四章 系統展示與使用者評估結果

第一節 系統建構與元件

統一塑模語言(Unified Modeling Language, UML)是一種用來描述系統中包 含哪些元件的共通表示法,適合用於軟體開發與系統分析。本小節針對本系統內 所包含的各元件,以 UML 的部署圖(Deployment Diagram)逐一解說本系統的 功能模組與建構方式。如圖 20 所示,主要分為七個部份詞彙擷取單元(Term Extractor)、詞彙篩檢單元(Term Filter)、詞彙共現分析單元(Co-occurrence Miner)、

計量單元(Quantity Miner)、繪圖控制單元(Layout Conductor)、網絡視覺化單 元(Network Visualization)、互動監控單元(Interaction Monitor)與新聞資料呈 現單元(News Reader)。

圖 20 系統部屬圖

56

一、 詞彙擷取單元

將輸入的關鍵字作文件比對,並取出符合關鍵字次數最高的前一百篇文 章,接著將文章內容字串做合併,最後由字串取出相關關鍵字。此元件最主 要會產生一個一維字典(dictionary)其儲存所有初步萃取的詞彙,並依據每 個詞彙於該一百篇文章的字頻,產生個詞彙對應的字典值,主要提供詞彙篩 檢單元作為篩選的依據。

二、 詞彙篩檢單元

本單元主要是藉由詞彙擷取單元所擷取出的字典值進行篩檢,並使用詞 性過濾詞彙,以控制相關關鍵字輸出的品質。此單元首先將能夠合併的兩詞 彙作合併,接著過濾掉一些字典值不高的詞彙。另外除了依據字頻把可能不 重要的詞彙做過濾外,詞性也是一個參考的標準,此元件同時使用中研院平 衡語料庫16對於詞性的分類標準來進行詞性的匹配,主要將連接詞、介詞、

副詞等詞彙作過濾。

三、 詞彙共現分析單元

經由過濾詞彙的元件處理後的相關關鍵字,加上輸入的關鍵字,倆倆的 作共現探勘,共現探勘的主要目的是把所有關鍵字,共同出現於所有新聞資 料的數量取出,依此數量的高低決定網絡圖中兩節點的連線線條粗細。

四、 計量單元

本單元主要將經由過濾詞彙的元件處理後的相關關鍵字,加上輸入的關 鍵字,分別就整體新聞資料庫中的相關新聞文章進行計量,計量值為與該關 鍵字相關的新聞文章數量。此數量的高低則決定在網絡視覺化單元中網絡中 的節點大小。

16 http://db1x.sinica.edu.tw/kiwi/mkiwi/

57

五、 繪圖控制單元

在本系統的視覺化介面中,提供使用者能夠以不同的視角瀏覽關鍵字的 網絡圖,此元件所處理的便是即時的建構網絡圖佈局的切換、重置與執行各 佈局的功能。

六、 網絡視覺化單元

前述所有元件所產生的參數將彙整於此元件,包含過濾後的相關關鍵字、

倆倆關鍵字共現值與各關鍵字之新聞計量,此元件將關鍵字的共現值與新聞 計量依據最高與最低值作調整,主要是為了將數值調整成符合繪圖比率的數 值。

七、 互動監控單元

視覺化介面所提供的互動功能,所有互動事件(events)包含滑鼠的游 移、點擊與滾輪滾動都由此元件作監控,依據互動事件發生的對象,執行相 對應的互動反應,其中包含:滑鼠在節點上方游移時,節點會放大,關係線 條變粗;點擊相關關鍵字的節點後,取出其相關的關鍵字,並視覺化;滾動 門檻值方格(Threshold)即時將為超過門檻值的關係節點於介面中移除;開 啟瀏覽歷程濾器後,展開相關關鍵字的關鍵字若被點擊則會清除此關鍵字的 相關關鍵字;開啟瀏覽路徑濾器後,介面僅視覺化目前點擊關鍵字與前一步 驟點擊關鍵字二者的相關關鍵字。

八、 新聞資料呈現單元

除了關鍵字網絡視覺化與互動功能相關模組外,本系統同時包含新聞閱 讀模組,考慮到使用者能夠利用關鍵字網絡推薦、歷程控制或是視覺化互動 等方式進行瀏覽,另外可能還需要追朔新聞原文,透過此功能瞭解更多新聞 相關細節。而新聞閱讀器主要調閱文章的運作方式,是將該篇新聞編號輸入

58

至新聞原文資料庫中,找出該編號之新聞文章,而此單元,即提新聞原聞的 輸出,予以詞彙擷取單元與系統前端的介面使用。