• 沒有找到結果。

第四章 關鍵詞彙分析工具功能與介面

4.8 分群與擷取相關句介面說明

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4.20 新青年第 6 卷詞彙間 LSA 結果

4.8 分群與擷取相關句介面說明

使用者可將先前透過 mean、typed dependencies distance、frequency、Person’s chi-squares test、pointwise mutual information、latent semantic analysis 所計算出詞 彙間的關聯強度檔案(csv 檔案),藉由此功能找出關鍵詞彙間各個時間、空間中 的分群結果與符合分群結果的相關句子或段落。此處擷取相關段落必須建立在文 本中本身具有段落的情況下才可擷取出相關段落,否則只能擷取相關句。此介面 共有八個必選選項,此功能才能執行出結果,否則會如圖 4.4 顯示錯誤訊息視 窗。

選項一為數據位置,使用者選擇詞彙關聯度數據結果位置的資料夾。選項二 為儲存位置,使用者自行決定要將結果檔案放置在何處。選項三為選擇數據為何 種功能所產生的數據,在六個選項中選擇數據位置為哪一種計算關鍵詞彙間關聯 強度所得的值,在此選項中我們稍微將這些分數分隔開,主要是希望讓使用者感 受不同種詞彙關聯強度的計算方式上的差異性。選項四為期望分群數量,使用者 須透過「期望分群數量」右邊的拉霸選擇想要將專業詞彙分成的幾個群體。選項 五為文本位置,使用者需選擇待處理的中文語料資料夾。選項六為使用者需要選 擇斷句的方法,如:句號、逗號、分號、或自行輸入需要的符號等。假如文本原 先已經斷句,使用者可以選擇「不需將文本斷句」選項。選項七為相關句包含關 鍵詞彙,使用者透過「相關句包含關鍵詞彙」右邊的拉霸選擇關聯句子中,需包

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

含幾個關鍵詞彙才將該句子輸出在結果檔案中。選項八為選擇輸出包含關鍵詞彙 為相關句或是相關句與相關段落形式,當使用者只希望看到相關句的結果則選擇

「輸出相關句」;但是當使用者希望看到的是一個段落的形式時,則選擇「輸出 段落:段落中需包含多少相關句才輸出段落(請在後方輸入百分比)」此一選項並 在後方的方框輸入數值,如:表 4.3 為一個段落,以句號、逗號為句與句的切分 點,此段落共被切分為八句,而藍色句子為分析工具會推薦的相關句,共計五句,

當使用者選擇輸出結果包含段落時,當方框中輸入為 50%時,則會輸出如表 4.3 的段落,原因為工具要推薦的相關句佔此段落中總句子 62%大於使用者期許的比 例。

此功能會產生三個結果檔案,第一個結果檔(csv 檔)為關鍵詞彙分群結果,

如圖 4.22 顯示每一個群體所包含的詞彙。第二個結果檔(csv 檔)為符合各個分群 結果與使用者選擇包含幾個關鍵詞彙的相關句子,如圖 4.23,會顯示該句子出 處、該句包含的關鍵詞彙、句子。第三個結果檔(html 檔)為符合各個分群群體與 使用者選擇包含幾個關鍵詞彙的相關句子或段落,會顯示該分群的群體、句子出 處、該句包含的關鍵詞彙、句子,在句子中標示為紅色的字為關鍵詞彙,標示為 藍色的則是段落中推薦的相關句,以利使用者觀察使用,如圖 4.24、圖 4.25。

表 4.3 擷取段落例子

共產國際是全世界真正的革命組織,聯合全世界工人在鬥爭裡頭,指出世界勞 動軍某幾支隊的錯誤,並以各國革命的經驗來改正之。不管譭謗,不管自己是 仇憤的對象,共產國際永遠活著而是發展去,共產國際預備無產階級之勝利的 暴動。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4.21 cluster and find sentences 介面說明

圖 4.22 新青年第 6 卷關鍵詞彙分群結果

圖 4.23 新青年第 6 卷相關句中包含兩個關鍵詞彙的 csv 檔

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

圖 4.24 新青年第 6 卷相關句中包含兩個關鍵詞彙的 html 檔

圖 4.25 輸出推薦段落與相關句 html 檔

相關文件