• 沒有找到結果。

立 政 治 大 學

Na tiona

l Ch engchi University

第五章

結論與未來研究

在上節中透過六個實驗組驗證本研究所提出的演算法後,在無任何詞庫與字典的支援下 所產生的結果與 CKIP 和史丹佛中文斷詞器的結果相比下並不遜色,雖然 Bigram 斷出來 的字詞都是兩個字,但最後本研究卻能取出多於二個字的主題關鍵字,如:「大花紫薇」、

「大葉山欖」、「擬背斑琵琶鮫」、「坪林秋海棠」、「多媒體中心」等,由標準答案 可發現標準答案多以名詞居多也符合[23]所提到的特徵,本研究的貢獻有以下幾點:

1. 提供了一個對單篇中文文章擷取關鍵字之演算法,此演算法能在不使用任何詞庫的 情況下擷取出主題關鍵字並也符合此研究的目的,同時也做了大規模的實驗以驗證 其演算法的可行性。

2. 在實驗過程中得知在斷詞部分各別採用 Bigram、CKIP 或史丹佛中文斷詞器再搭配 卡方值計算的效果,由實驗結果得知搭配卡方值的方式找出主題關鍵字未必需要使 用詞庫的方式斷詞,採用 Bigram 方式也能得到與使用詞庫的效果一樣,在相同的 結果下少掉需要人工建置詞庫的步驟也是此研究一大貢獻。

3. 在實驗比較組一、實驗比較組二中可以看到有使用與不使用分群時所擷取出的主題 關鍵字的品質相差甚多,在使用分群後不僅能有效過濾雜訊也能提高取得主題關鍵 字的數量,在此研究中也可以得知在搭配卡方值計算時是否分群的重要性。

在實務意涵上,本研究提供了一個自動化找尋主題關鍵字的演算法,只需給予一篇 文章經過此演算法運算後就能為此篇文章挑選出主題關鍵字,透過擷取出的主題關鍵字 除了能直接在數位典藏資源網直接查詢外,也可將這些主題關鍵字與數位典藏資源網文 章的主題關鍵字做相似度計算以便找出相關的文章,透過這樣的方式可以借由熱門文章 推薦數位典藏資源網的文章給使用者。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

實驗結果已證明本論文提出的演算法的可行性,然而,仍有下列幾點可進行深入研 究以便達到更好的效果:

第一、 詞性標註(part of speech tagging)是根據字詞在句法結構或語言形態上所扮演的 角色,經由詞性分類給予語句中各字詞適當之詞性符號或標記的過程,基本上 可分為動詞(verb)、名詞(noun)、形容詞(adjective)、副詞(adverb)或 其他類別,是否能加入詞性標註的方式,對已找出的主題關鍵字判斷是否為名 詞詞性,此方式有機會過濾掉如附錄表 2 中實驗 2 的文章 1 結果中的”可以帶”、”

它的”等字眼,或者可在進行 Bigram 斷詞後再對每一個字詞進行詞性標註,並 去除非名詞、形容詞等字詞。

第二、 加強合併字詞規則,字詞合併部分目前尚未完善,如的實驗 2 中,文章 6 的「泰 雅族」和「珠衣」;文章 8 的「西螺」和「大橋」;文章 9 的「高慈美」和「日 記」;文章 53 的「台灣」和「堡圖」,在這些文章的結果中被準確的找出,

但受限於字詞合併部分不夠完善導致諸如此類的字詞未被合併,因此,未來將 找尋更合適的合併字詞方法以解決定問題,未來考慮是否只二字詞合併後只要 在文章出現次數超過一定門檻時就將其合併,另外,文章 6 的「泰雅族」和「珠 衣」是一特殊情形,在標準答案此兩字詞屬於標準答案之一但還有另一標準答 案為「泰雅族珠衣」,如果將其合併後雖然能得到標準答案,但同時也少了「泰 雅族」和「珠衣」兩字詞,針對此部分是否能參考 Zhang 等人[41]的研究中第 4 章裡提到利用計算共同資訊量的方式過濾或保留字詞,此一方式有機會能解 決文章 6 所遇到的問題。

第三、 加入位置概念,本研究只針對內容做處理,未對標題做進一步處理,根據黃[42]

研究表示,文件之重要資訊包含「文件關鍵字」、「文件標題」及「文件結構」

三項資訊,「文件標題」大多具有表達文件主旨之特性,由於文件標題與文件

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

內容有相關性,因此擷取主題關鍵字的過程中如果關鍵字出現在標題時權重是 否該加權,而比例又是多少也是值得研究的課題。

第四、 去除停用字(Stop Words Removal),實驗 2 中文章 3 的「蘭嶼芒果的」、文章 24 的「紅楠的」、文章 34 的「的山茶」和「茶花的」、文章 35 的「的喬氏海 蝠魚」、文章 46 的「水黃皮的」、文章 50 的「的蘇鐵」等主題關鍵字都帶有”

的”字,未來也將研究借由去除停用字的方式是否能在不影響整體的結果下去 除這些字停用字以優化其結果,以上三點是未來研究之方向。

‧ 國

立 政 治 大 學

Na tiona

l Ch engchi University

相關文件