一個對單篇中文文章擷取關鍵字之演算法 - 政大學術集成

全文

(1)國立政治大學資訊科學系 Department of Computer Science National Chengchi University 碩士論文 Master’s Thesis. 立. 政治大. ‧ 國. 學 ‧. 一個對單篇中文文章擷取關鍵字之演算法 sit. y. Nat. A Keyword Extraction Algorithm for n. al. er. io. Single Chinese Document Ch. engchi. i n U. v. 研究生：吳泰勳指導教授：徐國偉中華民國一○二年十一月 November, 2013.

(2) 一個對單篇中文文章擷取關鍵字之演算法 A Keyword Extraction Algorithm for Single Chinese Document. 研究生：吳泰勳指導教授：徐國偉. 立. Student：Tai-Hsun Wu. Advisor：Kuo-Wei Hsu 治政大. 碩士論文. Nat. er. io. A Thesis. sit. y. ‧. ‧ 國. 資訊科學系. 學. 國立政治大學. n. submitteda to Department of Computer v Science. i l C n National U h eChengchi n g c h i University. in partial fulfillment of the Requirements for the degree of Master in Computer Science 中華民國一○二年十一月 November 2013.

(3) 一個對單篇中文文章擷取關鍵字之演算法. 摘要. 數位典藏與數位學習國家型科技計畫 14 年來透過數位化方式典藏國家文物，例如：生物、考古、地質等 15 項主題，為了能讓數位典藏資料與時事互動. 政治大故使用關鍵字作為數位典藏資料與時事的橋樑，由於時事資料會出現新字立. ‧ 國. 學. 詞，因此，本研究將提出一個演算法在不使用詞庫或字典的情況下對單一. ‧. 篇中文文章擷取主題關鍵字，此演算法是以 Bigram 的方式斷詞因此字詞最. sit. y. Nat. 小單位為二個字，例如：「中文」，隨後挑選出頻率詞並採用分群的方式. er. io. 將頻率詞進行分群最後計算每個字詞的卡方值並產生主題關鍵字，在文章. n. a. v. l C 中字詞共現的分佈是很重要的，假設一字詞與所有頻率詞的機率分佈中， ni. hengchi U. 此字詞與幾個頻率詞的機率分佈偏差較大，則此字詞極有可能為一關鍵字。在字詞的呈現方面，中文句子裡不像英文句子裡有明顯的分隔符號隔開每一個字詞，造成中文在斷詞處理上產生了極大的問題，與英文比較起來中文斷詞明顯比英文來的複雜許多，在本研究將會比較以 Bigram、CKIP 和史丹佛中文斷詞器為斷詞的工具，分別進行過濾或不過濾字詞與對頻率詞分群或不分群之步驟，再搭配計算卡方值或詞頻後所得到的主題關鍵字之差. I.

(4) 異，實驗之資料將採用中央研究院數位典藏資源網的文章，文章的標準答案則來自於中央研究院資訊科學研究所電腦系統與通訊實驗室所開發的撈智網。從實驗結果得知使用 Bigram 斷詞所得到的主題關鍵字部分和使用 CKIP 或史丹佛中文斷詞器所得到的主題關鍵字相同，且部分關鍵字與文章主題的關聯性更強，而使用 Bigram 斷詞的主要優點在於不用詞庫。最後，本研究所提出之演算法是基於能將數位典藏資料推廣出去的前提下所發展，. 政治大希望未來透過此演算法能從當下熱門話題的文章擷取出主題關鍵字，並透立 ‧. ‧ 國. 學. 過主題關鍵字連結到相關的數位典藏資料，進而帶動新一波「數典潮」。. n. er. io. sit. y. Nat. al. Ch. engchi. II. i n U. v.

(5) A Keyword Extraction Algorithm for Single Chinese Document. Abstract. In the past 14 years, Taiwan e-Learning and Digital Archives Program has developed digital archives of organism, archaeology, geology, etc. There are 15. 政治大 automatically extract keyword 立 s in documents in digital archives, and the. topics in the digital archives. The goal of the work presented in this thesis is to. ‧ 國. 學. techniques developed along with the work can be used to build a connection between digital archives and news articles. Because there are always new words. ‧. or new uses of words in news articles, in this thesis we propose an algorithm that. sit. y. Nat. can automatically extract keywords from a single Chinese document without. er. io. using a corpus or dictionary. Given a document in Chinese, initially the. n. a algorithm uses a bigram-based approach to divide it into v bigrams of Chinese. i l C n characters. Next, the algorithm hcalculates frequencies of bigrams and filters e n g c term hi U out those with low term frequencies. Finally, the algorithm calculates chi-square values to produce keywords that are most related to the topic of the given document. The co-occurrence of words can be used as an indicator for the degree of importance of words. If a term and some frequent terms have similar distributions of co-occurrence, it would probably be a keyword. Unlike English word segmentation which can be done by using word delimiters, Chinese word segmentation has been a challenging task because there are no spaces between characters in Chinese. The proposed algorithm performs Chinese word III.

(6) segmentation by using a bigram-based approach, and we compare the segmented words with those given by CKIP and Stanford Chinese Segmenter. In this thesis, we present comparisons for different settings: One considers whether or not infrequent terms are filtered out, and the other considers whether or not frequent terms are clustered by a clustering algorithm. The dataset used in experiments is downloaded from the Academia Sinica Digital Resources and the ground truth is provided by Gainwisdom, which is developed by Computer Systems and. 政治大 some of the segmented words given by the bigram-based approach adopted in 立. Communication Lab in Academia Sinica. According to the experimental results,. the proposed algorithm are the same as those given by CKIP or Stanford. ‧ 國. 學. Chinese Segmenter, while some of the segmented words given by the. ‧. bigram-based approach have stronger connections to topics of documents. The. y. sit. io. n. al. er. or dictionary.. Nat. main advantage of the bigram-based approach is that it does not require a corpus. Ch. engchi. IV. i n U. v.

(7) 致謝. 在此要感謝政治大學徐國偉老師在研究上給了我很大的空間，無論我做什麼決定都給予我許多支持與協助，讓我能盡情的發揮一步一步的往前邁進，每次當我研究出現瓶頸時老師總是能給我明確的目標，使我不迷失在茫茫大海裡。. 政治大也感謝國立政治大學資訊科學系的老師們授與我珍貴的知識，讓我這次回立. ‧ 國. 學. 學校學習了許多事，特別是陳恭老師，您迫不及待的想把您的知識教導給. ‧. 我們的態度讓我印象深刻，在您的課程中讓我比以前懂了更多的技術，能. sit. y. Nat. 修您的課是我的福氣。. er. io. 更要感謝中央研究院何建明老師，在這兩年裡給予我指導，從何老師身上. n. a. v. l C 學習到研究的小技巧，讓我從一個不懂研究的小伙子到成為一個對研究略 ni. hengchi U. 懂的研究生，在這段過程中總是給予我足夠的資源讓我無後顧之憂，感謝何建明老師能讓我在您的實驗室下度過充實的兩年研究生活。最後非常感謝資訊所的同事們，從考研究所到讀研究所過程中遇到了許多不懂的事物，同事們總是不厭其煩的為我解答，在此獻上最高的謝意，感謝你們成就我，在此謝謝幫助過我的人。. V.

(8) 目錄第一章. 緒論 ............................................................. 1. 第 1.1 節. 背景 ......................................................... 1. 第 1.2 節. 研究動機 ..................................................... 2. 第 1.3 節. 研究目的 ..................................................... 2. 第 1.4 節. 論文架構 ..................................................... 2. 文獻探討 ......................................................... 4. 第 2.1 節第 2.1.1 節第 2.1.2 節. 第 2.2 節. 學. 第 2.1.3 節. 治政 n-gram ..................................................... 5 大立史丹佛中文斷詞器 ........................................... 6. 中文斷詞 ..................................................... 4. ‧ 國. 第二章. CKIP ....................................................... 7. 關鍵字擷取 ................................................... 7. ‧. 第 2.2.1 小節英文關鍵字擷取 ............................................. 8. y. Nat. sit. 第 2.2.2 小節中文關鍵字擷取 ............................................. 9. 第三章. al. n. 第 2.3 節. er. io. 第 2.2.3 小節小結 ...................................................... 10. i n U. v. 字詞共現 .................................................... 10. Ch. engchi. 演算法 .......................................................... 12. 第 3.1 節. 斷詞 ........................................................ 12. 第 3.2 節. 分群 ........................................................ 12. 第 3.3 節. 卡方值計算 .................................................. 13. 第 3.4 節. 演算法 ...................................................... 15. 第四章. 實驗方法與設計 .................................................. 19. 第 4.1 節. 實驗工具 .................................................... 23. 第 4.2 節. 資料集 ...................................................... 23. 第 4.3 節. 實驗流程 .................................................... 23. 第 4.4 節. 實驗結果 .................................................... 24 VI.

(9) 第 4.4.1 節. 實驗比較組一 .............................................. 25. 第 4.4.2 節. 實驗比較組二 .............................................. 26. 第 4.4.3 節. 實驗比較組三 .............................................. 27. 第 4.4.4 節. 實驗比較組四 .............................................. 27. 第 4.4.5 節. 實驗比較組五 .............................................. 28. 第 4.4.6 節. 實驗比較組六 .............................................. 29. 第 4.5 節第五章. 實驗評量 .................................................... 30. 結論與未來研究 .................................................. 32. 政治大. 參考文獻 ................................................................ 35. 立. 附錄 ..................................................................... I. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i n U. v.

(10) 第一章緒論第1.1節背景數位典藏與數位學習國家型科技計畫(簡稱:數典計畫) 經過 14 年(1998~2012)[1]來的努力典藏品所涉及的層面已包括文化、學術、經濟、教育、外交、社會及民生等，並涵蘊學術研究、產業發展、及種種應用等層次，所建立的數位化影音有 48,515 筆，數位化影. 政治大. 像有 4,010,811 筆，而後設資料(metadata)更高達 5,151,176 筆[2]。中央研究院(簡稱:中研. 立. 院)是全國學術的研究機構，長年來致力於學術資源的保存、發展與交流，因應數位化. ‧ 國. 學. 時代的來臨中央研究院[3]以先進的電腦技術將各所珍藏的文物和資料數位化，內容包括：台灣地區魚類、貝類、植物、原住民文物等資料，中研院數位典藏成果豐富多元，典藏. ‧. 文物和學術資料超過 100 萬筆並設置數位典藏資源網以提供使用者查詢。. Nat. sit. y. 後設資料是指關於資料的資料，主要是描述資料屬性的資訊，用來支援如指示儲存. n. al. er. io. 位置、歷史資料、資源尋找、檔案紀錄等功能，例如在圖書館當中的一本書籍是一筆資. i n U. v. 料，而一本書的作者、出版日期、出版者等相關資料，就是這本書的後設資料。數位典. Ch. engchi. 藏與數位學習所包含的內容縱貫古今、橫跨十餘種不同內容學科領域(如：生物、地質、檔案、書畫、器物、人類學、新聞等)以及各層面與類型的數位學習教材，各個機構在建置自身的資料時，亦分別採用不同的後設資料標準與不同的資料庫系統，為了統合不同學科領域與不同形式內容的資料庫，在統合時採用都柏林核心集的方式將數位典藏中各資料庫的資料與柏林核心集欄位定義比對，從對應中汲取其中的摘要資訊匯入聯合目錄中並保留原始資料庫的特性。. 1.

(11) 第1.2節研究動機中央研究院數位典藏資源網[4]為數位典藏推廣與服務，提供的內容包括：多樣性的科普內容與服務、便利的跨資料庫檢索服務、整理各資料庫最新資訊、網路位置並提供便民服務，也配合相關科普專題，創新服務應用等突顯典藏特色吸引社會大眾造訪和使用。為了將數典資料推廣出去讓一般使用者也能接觸到數典資料，除了開放讓使用者能上來查詢外更要主動推廣數典資料，讓數典資料不只是被動的等待使用者查詢，更讓數典資料也能隨著熱門話題主動推薦相關文章，藉此希望能帶動新一波「數典潮」。. 第1.3節研究目的. 立. 政治大. ‧ 國. 學. 熱門文章是指近日來常被人點閱或分享的文章，大多數人對這些文章非常有興趣，它可能描述著人、事或物品等，這些文章不會一直都很熱門它們會不斷的被更新、不斷的變. ‧. 化，例如：今天可能是某種新科技被發表，明天可能是某國家發現新物種，因此熱門文. sit. y. Nat. 章除了擁有高人氣外還具有時效性，本研究希望將熱門文章與數典資料連結因此建立一. io. er. 演法算能不受領域(例如：新聞、學術資料..等)限制從單一篇中文文章擷取主題關鍵字，. al. 借由此演算法對熱門文章擷取出主題關鍵字之後可利用主題關鍵字找出相對應的數位. n. v i n Ch 典藏資料，由於中文詞集是一個開放集合再加上文章數量日以劇增許多新字詞也如雨後 engchi U 春荀般冒出，因此目前尚未存在一個詞典或方法可以盡列所有的中文字詞，當處理不同領域的文件時，領域相關的特殊詞彙或專有名詞常常造成斷詞系統因為參考詞彙的不足而產生錯誤的斷詞結果。如果採用詞庫或字典的方式將會面臨到無法辨識新字詞的問題，. 因此在建立演算法時本研究會採用 n-gram 的方式做為斷詞之依據。. 第1.4節論文架構本研究後續部分的架構如下：第 2 章會介紹本研究中所使用到的相關技術，第 3 章會針對本研究提出的演算法中各步驟做詳細說明，而 3.4 節會介紹完整的演算法架構。第 4 章則是實驗設計，為了能驗證演算法所產出的結果，因此設計 8 個實驗，8 個實驗的不 2.

(12) 同之處在於斷詞部分各別使用 Bigram、CKIP 和史丹佛中文斷詞器，之後加入過濾與不過濾和分群與不分群的條件並對各實驗之結果進行探討，第五節為結論及未來研究方向，說明可能改進主題關鍵字擷取之做法以及未來研究方向。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 3. i n U. v.

(13) 第二章文獻探討關鍵字擷取(keyword extraction)是資訊檢索(information retrieval)的基礎與核心，關鍵字 (keyword)可以視為是一篇文章重要且有意義文字，由 SCI-E (Science Citation Index Expanded)資料庫顯示，近十年來關鍵字擷取的研究著重於幾個應用：部落格是分享資訊的平台裡面包含文章和讀者所回覆的訊息，Liu[5]等人提出一方法對部落格文章進行. 政治大等人[7]的研究指出科學教科書領域關鍵字(domain keywords of scientific text)對科學教科立. 關鍵字擷取。Liu 等人[6]研究一套監督式關鍵字擷取框架對會議記錄擷取關鍵字。Luo. ‧ 國. 學. 書(scientific text)進行分類、分群和個人化服務扮演重要的角色，此研究提出 TDDF 方法擷取領域關鍵字。David [8]在無文件集(document collection)和訓練資料(training data)的. ‧. 情況下，對網路新聞(Internet News Articles)擷取關鍵字，此研究使用名詞片語(noun. sit. y. Nat. phrase)作為關鍵字，並以統計方式計算其關鍵字權重。. n. al. er. io. 第2.1節中文斷詞. i n U. v. 斷詞是自然語言處理中不可或缺的步驟之一，對英文而言可依據分隔符號(空白符號)斷. Ch. engchi. 詞但對於中文而言就需要額外處理方式，以下介紹二種斷詞方法。第一種以字典為基礎的方法斷詞，主要採用事先定義好的字典和手動產生的規則進行斷詞動作，規則約分為 scanning direction 和 prior matching length 二種。scanning direction 有三種掃描方式分別為 Forward Matching Method(FMM)是從字串前面往後掃描、 Reverse Matching Method(RMM)是從字串後面往前掃描和 Bidirectional Matching Method(BMM)則是從字串的前後進行掃描，prior matching length 採用最大配對 (maximum matching)或最小配對(minimum matching)的方式，由於新字詞會不斷的增加因此對於新字詞部分將無法準確的斷出新字詞。. 4.

(14) 第二種以統計的方法斷詞，在 2004 年 Sun[9]使用 liner function of mutual information(MI)和 difference of t-test 進行斷詞的工作，在中文字裡由兩個字組成的中文字是最常見的，因此有許多研究都將焦點放在兩個字的中文(Bigram)，Dai 等人(1999)[10] 運用上下文(contextual)和位置的概念進行斷詞，並發現這兩個因素對 Bigram 擷取方式是很重要的，Yu 等人(2006)[11]提出 cascaded hidden Markov model(HMM)是針對 location and organization identification 處理。. 第2.1.1節 n-gram. 政治大. n-gram[12]在計算語言學和機率裡是指從一連串的文字(如：句子)以指定數量的字為一個. 立. 斷詞的單位，每次往後移一格直到最後無其他字時才停止，n-gram 的 n 指的是每次都以. ‧ 國. 學. n 個字元為單位，n 指定 1 時一般稱為 Unigram 而 n 為 2 時則稱為 Bigram，表 1 為 n-gram 的範例，以表 1「台灣老街聚落」為例。. ‧. 表 1、N-gram 範例，以「台灣老街聚落」為例. Nat. Bigram. 台灣、灣老、老街、街聚、聚落. Four-gram. sit. er. al. n Trigram. y. 台、灣、老、街、聚、落. io. Unigram. i n U. v. 台灣老、灣老街、老街聚、街聚落. Ch. engchi. 台灣老街、灣老街聚、老街聚落. Five-gram. 台灣老街聚、灣老街聚落. Six-gram. 台灣老街聚落. 蘇[13]在研究中利用 n-gram 翻譯、Add Source Query term、Long term translation 及 Google 全文翻譯技巧以提升檢索的準確度，而 n-gram 翻譯是以單字(term)為單位作為 n-gram 合併之後再進行翻譯。洪[14]開發一套中文作文自動偵錯流程及系統針對同形字、同音字及成語三種錯誤類型進行偵錯與建議，此研究主要是基於 n-gram 語言模型搭配正反面語料知識庫的方法並以資訊檢索的技術改善效能。. 5.

(15) 第2.1.2節史丹佛中文斷詞器史丹佛中文斷詞器是由史丹佛大學自然語言處理實驗室(The Stanford Natural Language Processing Group)發展的一套斷詞系統，此系統採用條件隨機域(conditional random field， CRF)建置而成並提供一框架使用大量語言學特徵，2008 年 5 月 21 號之後的版本能在訓練斷詞模型時加入外部辭典以增加 lexicon-based features 至條件隨機域模型裡。莊[15] 使用英漢平行語料庫試圖從中找尋中、英文之間的翻譯情形，英文的語料使用史丹佛剖析器進行詞幹還原而中文則使用史丹佛中文斷詞器。王[16]則建立一中英平行語料的中. 治政文斷詞系統，提供此系統不同領域的中英平行語料後可以自動化產出訓練資料，此系統大立利用 LingPipe 和史丹佛中文斷詞器訓練斷詞模組。蘇[17]為能保留員工的知識與經驗以 ‧ 國. 學. 建構知識管理系統來解決此問題，研究以案例推理（Case-Based Reasoning）建構一個案. ‧. 例知識的推理模組，在中文資料斷字處理上則採用史丹佛中文斷詞器。同樣地，在第四章實驗過程中將使用史丹佛中文斷詞器進行斷詞以作為比較之對象。. y. Nat. io. sit. 中文斷詞至今有二個問題尚未完全被解決，第一是岐義字(ambiguous word)，中文. n. al. er. 不像英文一樣在同一個句子裡每個字是以空白隔開而是緊緊相連，一個中文字在不同的. Ch. i n U. v. 位置又有不同的詞性，舉例來說，”產”字出現在其他字的不同位置代表的意思就不同，如表 2 所示：. engchi. 表 2、”產”出現的位置 Position. Example. Left. 產生(to come up with). Word by itself. 產小麥(to grow wheat). Middle. 生產線(assembly line). Right. 生產(to produce). 6.

(16) 由表 2 得知”產”可位於第一個位置、最後一個位置或在字與字之間，甚至出現在第一個位置時詞性也不同，因此並無任何規則能明確的斷出適當的字。另一個問題則是未知詞(unknown word)或新字詞(new word)不斷的出現，新字詞的產生有以下幾種情形：由二個已存在的字詞組合而成 (咖啡牛奶)、或是縮寫而成(火烤兩吃，火烤是指火鍋和燒烤)、結合字元產生的字詞(iPad)、用音譯的方式進行翻譯的字詞 (Mary，瑪莉)等。. 政治大 CKIP[18]由中央研究院資訊科學所詞庫小組發展的系統，它包含一個約十萬詞彙的詞彙立第2.1.3節 CKIP. ‧ 國. 學. 庫，除了基本詞彙還附加詞類、詞頻、詞類頻率、雙連詞類頻率等資料，也可以依需求附加領域專屬詞庫。斷詞則是根據詞彙庫及定量詞、重疊詞等構詞規律及線上辨識的新. ‧. 詞並解決斷詞歧義問題，另外還有一選擇性功能詞類標記，詞類標記可解決詞類歧義並. sit. y. Nat. 猜測新詞之詞類，詞典方面則是具有可擴充性使用者可依不同領域補充此領域詞典。廖. io. er. [19]利用 CKIP 來進行中文文件之斷詞及詞性標註。馮[20]採用 CKIP 對文件集進行斷詞，. al. 將文件斷詞後把所有詞都取為關鍵詞。蘇[21]從 PTT 的憂鬱症板收集該板使用者的文章. n. v i n C hCKIP 斷詞系統做文章斷詞處理。李[22]以用以觀察、訓練與實驗，並且利用 99 年度國 engchi U 小中年級翰林版社會教科書為研究文本，探討社會教科書的易讀性及國小中年級社會教科書出現的詞彙是否能連結國語教科書的詞彙作為學習基礎，此研究也利用 CKIP 進行詞彙切分，並運用「現代漢語平衡語料庫」及「現在漢語常用詞表(草案)」裡的斷詞原則為第二階段檢查。CKIP 在本國學術領域中已是重要斷詞工具，因此，在下一章實驗過程中將使用 CKIP 進行斷詞以作為比較之對象。. 第2.2節關鍵字擷取關鍵字擷取是將研究範圍縮小集中於如何對關鍵字進行擷取的技術，關鍵字並不限於一個單字，可以是一個字詞(兩個以上的字組成)或一個片語(由二個以上的字詞組成)，而 7.

(17) 關鍵字有與特定字彙共同出現的比率較高、名詞居多[23]、以同義詞或上位詞(指範圍較廣且專指性較主題詞小的一組詞，例如：鳥類為麻雀之上位詞)或部分詞[24]等形式出現且代表同一個意義等特性，擷取關鍵字的方法可分為以下四類[25]： . 統計：利用詞頻(Term Frequency)、逆向文件頻率(Inverse Document Frequency)和關鍵字位置找出文件中所含的關鍵字，Cohen[26]使用 n-gram statistical information 自動為文章建立索引。. . 機器學習：主要是設計和分析一些讓計算機可以自動「學習」的演算法，機器學習. 政治大. 的步驟如下，首先要先提供一份經由人處理過的測試資料(training data)，然後根據. 立. 測試資料提供的資訊對新文件進行關鍵字的擷取，The Keyphrase Extraction. ‧ 國. 學. Algorithm[27]就是運用機器學習的技術和 naive Bayes formula 擷取關鍵詞(technical keyphrases)。. ‧. . 語言學：以語言學的角度切入使用字、句子或文章的特徵，例如詞性標註. y. Nat. sit. (part-of-speech)，將句子中每個字進行詞性標籤的加註，Hulth[28]從摘要裡擷取關. n. al. er. io. 鍵字，將原有的監督式機器學習演算法加入語言學，基於詞頻、逆向文件頻率、第. i n U. v. 一次出現的相對位置與詞性四個特徵決定何為關鍵字。 . Ch. engchi. 混合式：還有其它研究則是結合上述提到的方式或是使用經驗法則進行關鍵字擷取，比如 HTML 標籤、長度、位置等[29]。. 除了上述的方法外還可搭配詞庫的方式擷取關鍵字，接下來的兩小節會介紹有哪些研究各別對中、英文文章進行關鍵字擷取。. 第2.2.1小節. 英文關鍵字擷取. 使用詞庫或外部資源的方法，如下所述：Xu[30]提出一些新字詞(novel word)的特徵，他使用 Wikipedia 作為查詢一篇文章背景知識的工具，從 Wikipedia 查詢到的結果中擷取每一個結果的 inlink、outlink、category 和 infobox 資訊並從這些資訊中取得新字詞的特. 8.

(18) 徵集，而這些特徵對於計算每個字詞的權重是有用的。Li[31]從 Facebook 的資料中擷取關鍵字，Facebook 的資料和一般文章不同，它大多是以一小段文字呈現而每一段文字並不一定有用，此研究透過一模組根據 TFIDF、POS、position、文字的長度、document frequency 等特徵為每一後選詞計算分數並取得分數較高的後選詞出來作為可能是關鍵字的條件。eBay 在網路上透過不同的方式宣傳例如第三方網站放至 eBay 相關商品的廣告，關鍵字則扮演著重要的角色，Wu[32]提出一使用機器學習的關鍵字擷取方法為 eBay 和第三方網站建立相關商品的連結。. 政治大. 無使用詞庫和外部資源的方法，如下所述：Matsuo[33]在不使用詞庫的情況下利用. 立. 統計的方式對單一篇英文文章擷取關鍵字，此演算先取頻率詞後再對頻率詞進行分群，. ‧ 國. 學. 最後用計算卡方值的方式取出單篇英文文章的關鍵字。Palshikar[34]利用結構化和統計的方式從單一篇英文文章擷取關鍵字，首先將一文章轉換成一個無向圖而文章中的每一. ‧. 個字視為一個頂點，邊則是字與字之間的相異性其計算方式為字與字在文章中共同出現. Nat. sit. n. al. er. 中文關鍵字擷取. io. 第2.2.2小節. Ch. y. 的次數，圖中較中央的頂點則視為是關鍵字。. i n U. v. 使用詞庫或外部資源的方法，如下所述：Yang[35]利用 TFIDF 與字詞共現的概念對中文. engchi. 網路新聞進行關鍵字擷取，此研究除了採用傳統的 TFIDF 外還加入頻道等資訊改善 IDF 準確性及 TFIDF 的效率。由於網際網路盛行網路資訊或文件越來越多，詹[36]為了節省大量資訊過滤與篩選時間以及提供文件中關鍵詞彙為文件索引，此研究先分析文件內容並擷取各詞彙之出現頻率與位置並自動建立詞彙關聯庫，基於此詞彙關聯庫進行關鍵字擷取。無使用詞庫和外部資源的方法，如下所述：Hui[37]在無使用任何詞庫下對單篇編碼過的中文文章擷取關鍵字，此研究建立一種新的文章格式來處理斷詞的問題，每個中文字都會事先編碼成 4-byte 字串(4-byte code string)並利用計算卡方值以取得關鍵字。Li[38]. 9.

(19) 提出一方法是根據詞語在文件中語義聯繫將文件表示成詞滙鏈(lexical chain)在此基礎上抽取關鍵字，此方法結合詞顏、位置和集聚等特徵對中文新聞網頁和學術期刊文獻進行實驗。. 第2.2.3小節. 小結. 英文字的關鍵字擷取目前為止已經有許多方法和研究能夠達到不錯的效果，然而要對中文字進行關鍵字擷取而言仍需要更多的努力，中文在呈現文字的方面是字字相連，對於中文文章而言斷詞方面就已經是一大問題，再加上岐義字與新字詞的出現更是為擷取中. 治政文關鍵字增加不少難度，在前一節的介紹中與本研究較相近的兩個研究分別為 Matsuo 大立和 Hui 的研究，而 Matsuo 雖然是針對單一篇文章擷取關鍵字但處理的對象是英文文章 ‧ 國. 學. 並且是一篇內容較長的文章，與本研究要處理的中文且內容較短的文章有些差異，因此. ‧. 並不一定適用於內容較短的中文文章，而 Hui 雖然是對中文文章擷取關鍵字，但此研究的文章是事先經過編碼並非是原始的內容文字，借由一種新的文章格式處理斷詞的問題，. y. Nat. io. sit. 而在實驗中也並未公開測試的資料為何並且未做大規模的實驗以驗證其可行性，因此要. n. al. er. 使用其演算法除了需要先將原始文章內容轉換成特定格式外也無法確定其演算法的可. Ch. i n U. v. 行性為何，本研究將不使用任何特定的文章格式對原始文章重新編碼，而是以原始的文. engchi. 章內容進行斷詞以及關鍵字擷取，最後還會進行大規模的實驗以騇證其可行性，測試資料雖然未公開但是經過授權後也能取得並在學術研究上使用。. 第2.3節字詞共現文章是由許多長短不一的句子所組成，在本研究中句子與句子間都以標點符號 (“，”, ”。”, ”！” , ”？”)隔開，處理對象只限於內容本身並未對標題進行處理。兩個字詞出現在同一句子裡則視為共同出現一次，因此，假設字詞 A 和字詞 B 共同出現 10 次則表示有 10 個句子同時包含字詞 A 和字詞 B。. 10.

(20) Matsuo 的研究表示相對於一般高頻詞的字詞(如文中提到的 make、kind 等)可能與許多字詞在文中公平地共同出現，可能是關鍵詞的高頻詞(如文中提到的 digital computer、 imitation 等)只會與較少特定的字詞共同出現，因此，關鍵詞的高頻詞與一般的高頻詞在計算共同出現比例時就會有所偏差，此研究採用卡方值的統計方法計算偏差值，先對頻率詞進行分群後再進行卡方值的計算以提高方法的可靠度，並能凸顯關鍵詞的高頻詞與其它一般高頻詞的差別。本研究參考 Matsuo 提出的演算法中所定義的計算卡方值公式：. (). 立. 政 ( 治( ) 大 ∑. ). )的無條件機率(the unconditional probability)。. ‧. ‧ 國. 學. ：期望機率，一個頻率詞(. ：字詞(t)與所有頻率詞(G)共同出現的總次數。. Nat. al. n. ). er. io. ：期望共現頻率。 (. y. )：字詞(t)與一個頻率詞(g)共同出現的次數。. sit. (. i n U. v. ：期望共現頻率與觀察頻率之中的差異。. Ch. engchi. 透過上述公式計算後，假設某字詞(t)擁有較高的卡方值則表示它為關鍵字的機率較顯著，反之則否，本研究將使用卡方值作為字詞的權重。. 11.

(21) 第三章演算法根據前幾節的介紹後本章節中將會完整介紹演算法的設計與細節，首先第 3.1 節會介紹本研究在實驗中使用的斷詞方法，第 3.2 節說明分群的必要性與否，0 介紹如何透過計算卡方值來評量是否為主題關鍵字，第 3.4 節會呈現出完整的演算法結構。. 第3.1節斷詞. 政治大. 分辨文本中的詞是任何處理語言系統都必須做的事，因此，中文自動斷詞成了處理語言. 立. 不可或缺的技術，在中文文章中辨識字詞是一項因難的任務，根據統計，一般的文章中. ‧ 國. 學. 約有百分之三到百分之五的未知詞，再加上岐義字的關係即便使用字典的方式也未必能做的盡善盡美，在此並非要探討如何解決斷詞的問題而是描述現有的情況，本演算法是. ‧. 針對熱門文章擷取關鍵字，因此將會面臨到未知詞的問題，再者根據 Yu 等人(2006)的. Nat. sit. y. 研究指出在中文字裡中文字詞最常見的是由兩個字組成，有許多研究都將焦點放在兩個. n. al. er. io. 字詞(Bigram)，基於以上兩個因素本研究將使用 Bigram 的方式進行斷詞。. 第3.2節分群. Ch. engchi. i n U. v. 在文章中會時常看到某些字詞與某些字詞時常一起出現，假設字詞 g1 和字詞 g2 時常一起出現而字詞 t 又和字詞 g1 一起出現，這可能表示字詞 t 和字詞 g2 也共同出現，此時在計算卡方值時字詞 t 將會得到較高的卡方值，在這樣的情境中所得到的卡方值是有問題的，為了提高計算卡方值的可靠度對頻率詞分群是重要的步驟之一。本研究將對頻率詞進行分群並採用兩種常見的分群方式： . Similarity-based clustering：假設字詞跟字詞各別和其它的字有相似的共同出現分佈(similar distribution of co-occurrence)，那麼字詞和字詞就被視為是同一群。. 12.

(22) . Pairwise clustering：假設字詞和字詞常常一起出現，字詞和字詞將會被視為是同一群。以表 3 為例，可以看到丙與戊兩個頻率詞各別與甲、乙、丁等頻率詞共同出現的次. 數(以黑體字標示)相似，以 Similarity-based clustering 為分群方式時丙與戊將會被視為同一群，而採用 Pairwise clustering 為分群方式時則會將斜體字的數字分成一群。就 Similarity-based clustering 而言，主要目的是將具有相同功用的字詞分為同一群，例如：”build”、”establish”和”found”等字詞將會被分在同一群，Pairwise clustering 則將相. 政治大. 關的字詞分在一群，例如：”doctor”、”nurse”、”hospital”等字詞會被分成一群。本研究. 立. 將採用 Jensen-Shannon divergence 作為 Similarity-based clustering 的實作方法，Pairwise. ‧ 國. 學. clustering 的實作方法是採用共同資訊量(Mutual Information)。. 丁. 戊. 丙. 32. 8. -. 6. 12. 戊. 29. 10. 12. 5. -. n. al. 第3.3節卡方值計算. Ch. engchi. sit. 丙. er. io. 乙. ‧. Nat. 甲. y. 表 3、共生矩陣範例. i n U. v. 卡方檢定是參照卡方分佈來求取機率和臨界值的統計檢定，其中最著名的檢定為皮爾森卡方檢定，皮爾森卡方檢定有兩種用途分別為「適配度檢定」(Goodness of Fit test)和「獨立性檢定」，其中「獨立性檢定」是用來驗證從兩個變數抽出的配對觀察值是否互相獨立，舉例來說，在一個個體(如：同一個人)裡會有兩個元素(X,Y)，例如：X(男/女)、Y(右撇子/左撇子)，如果要觀察兩個變數的相關性則零假設(null hyphothesis)為兩個變數呈統計獨立性，本研究將使用卡方值計算字詞的權重，並不會進行零假設檢定。. 13.

(23) 卡方值的計算本研究參考 Matsuo 提出的方式，Matsuo 提到兩個計算卡方值需要思考的面向「句子長度」與「卡方值的健全性(robustness of the. value) 」，首先是句子. 的長度，文章是由許多長短不一的句子組成，假如某個字詞在一段較長的句子中，這表示此字詞和較多的字詞一同出現在長句子中，相反地，某個字詞在一段較短的句子中，也表示此字詞和較少的字詞一同出現在短句子中，考慮到句子長短不一的情形，因此修改以下的定義：：有包含字詞(g)句子的總字數除以文章的總字數。. 政治大. ：有包含字詞(t)句子的總字數。. 立. ：表示期望共生頻率。. ‧ 國. 學. 接下來討論卡方值的健全性，在某些情況下某個字詞只與一個頻率詞共同出現且擁有較高卡方值的字詞有時並非是真的重要的字詞，這些字詞有可能只是某字詞的修飾語，. ‧. 舉例來說，表 4 裡可看見”future”和” internal”兩個字，這兩個字各別和”state”這個頻率詞. Nat. sit. y. 出現因此擁有較高卡方值，但這兩個字本身並不重要，假設”state”並不是頻率詞的話，. n. al. er. io. 那麼這兩個字的卡方值將會大幅的變小，因此，避免因為這樣的情形發生本研究將使用以下的公式來計算卡方值：. Ch (). i n U. engchi (. (. ). v. ). 上述的公式在計算卡方值時減去最大值，因此在使用此公式時，如果某字只與一個頻率詞出現將會得到較低的卡方值，而如果某字與多個頻率詞出現將會得到較高的卡方值。. 14.

(24) 表 4、具有卡方值的字詞順序. 卡方值. 字詞. 詞頻. 1. 593.7. digital computer. 31. 2. 179.3. imitation game. 16. 3. 163.1. future. 4. 4. 161.3. question. 44. 5. 152.8. internal. 3. 6. 143.5. 7. 立 142.8. 政answer治大. 39. input signal. 3. 137.7. moment. 學. 9. 130.7. play. 8. 2. ‧. ‧ 國 8. Nat. sit. y. 第3.4節演算法. n. al. er. io. 本節將會介紹演算法細節，演算法整體架構請參照圖 1。演算法步驟說明如下：. i n U. v. 步驟1、前處理：首先將文章內容以 Bigram 方式斷成以兩個字為一個單位的字詞，因. Ch. engchi. 此會斷出許多兩個字的字詞，接下來過濾純數字以及詞頻小於 2 的字詞，剩下的字詞稱為「候選詞」，此步驟會得到「候選詞組. 」。. 步驟2、選出頻率詞：第二步驟主要是從候選詞中取出前 30%的候選詞為「頻率詞」，「頻率詞」的挑選規則是根據「候選詞」的詞頻排序(由高到低)，再挑選出前 30%頻率最高的「候選詞」，此步驟會取得「頻率詞組 G」。步驟3、頻率詞分群：接下來，此步驟將對「頻率詞」進行分群，分群方式採用二種方式，首先是用 Jensen-Shannon divergence 的方式，經過運算的「頻率詞」只要高於指定的門檻值就視為同一群，門檻值設為 0.95*log2，公式如下所示：. 15.

(25) (. ). ∑{ ( (. ). (. )). ((. )). ( (. ))}. 如果未達到指定的門檻值時就採用共同資訊量的方式計算，透過共同資訊量為「頻率詞」進行第二次分群的判定，「頻率詞」只要高於指定的門檻值 log(2.0) 則視為一群，反之則否，公式如下：. (. (. ). ). (. ) ( ) 政( 治大. 立. ( ). ) ( ). ‧ 國. 學. 此步驟會得到「已分群的字詞組 C」，此字詞組的基本單位是由兩個候選詞所組成。. io. ). ). ：期望機率， ⁄. y. (. n. al. (. ( {. sit. {. ∑. }. (. ). ). }. er. Nat. (). ‧. 步驟4、計算卡方值：此步驟將透過卡方值為每個「候選詞」計算權重，其公式如下：. Ch. engchi. i n U. v. 。. ：計算候選詞與「已分群的字詞 c」共同出現的次數。 (. )：字詞 t 與「已分群的字詞 c」共同出現的次數。. ：有包含字詞 t 句子的總字數。步驟5、後處理：將帶有卡方值的「候選詞」依卡方值由大到小排序後取出前七組卡方值最大的「候選詞」，並將前七組候選詞進行合併，合併的規則如下，規則一：字詞 A 後面的字有部分在字詞 B 的前面，如：”中研”和”研院”會結合成”中研院” 。規則二：字詞 A 前面的字有部分在字詞 B 的後面，如：”研院”和”中研”. 16.

(26) 會結合成”中研院” 。規則三：字詞 A 包含字詞 B，如：”中央研究院”和”研究院”會結合成”中央研究院”。規則四：前三個規則其中一個成立，合併字詞會計算詞頻，如果合併字詞的頻率等於或大於字詞 A 或字詞 B 則合併，反之則否。最後合併字詞後將所有「已合併字詞」作為此文章的主題關鍵字。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 17. i n U. v.

(27) 讀取文章. 文章 1.前處理. 過濾純數字&頻詞小於2. Bigram. 政治大 2.取出頻率詞(30%). 立. Mutual Information. 是否大於門檻值(0.95*log2). 否. y. Nat. 已分群的字詞組(C). sit. 是. n. er. io. al. Jensen-Shannon. ‧. 是. 是否大於門檻值(0.95*log2). 4.計算卡方值. 學. ‧ 國. 3.分群. Ch. 取出前七組卡方值最高的關鍵字. engchi. i n U. 計算卡方值. v. 計算期望機率. 5.後處理. 合併關鍵字. 產出主題關鍵字. 主題關鍵字(Subject Keywords). 圖 1、演算法流程圖. 18.

(28) 第四章實驗方法與設計本研究主要研究目的是著重在無詞庫或字典的情況下對中文文章取出主題關鍵字，實驗過程中會加入使用字典的斷詞器為比較對象，因此斷詞部分使用 Bigram、CKIP 和史丹佛中文斷詞器並從斷詞的結果中取出頻率詞後加入對頻率詞分群及不分群的實驗，希望在各種組合的情況下能找出最佳的方式以便取得更精確的主題關鍵字，各實驗定義如. 政治大實驗一、斷詞方式採用 Bigram，斷詞後將每一個字詞進行過濾，過濾條件為詞頻小於立下：. ‧ 國. 學. 2 或純數字，最後計算卡方值並取得前七組卡方值較高的關鍵字，經過合併關鍵字後產生主題關鍵字。. ‧. 實驗二、斷詞方式採用 Bigram，斷詞後將每一個字詞進行過濾，過濾條件為詞頻小於. io. er. 關鍵字，經過合併關鍵字後產生主題關鍵字。. sit. y. Nat. 2 或純數字之後再加入分群條件，最後計算卡方值並取得前七組卡方值較高的. al. 實驗三、斷詞方式採用 Bigram，斷詞後將每一個字詞進行過濾，過濾條件純數字之後. n. v i n Ch 直接計算卡方值並取得前七組卡方值較高的關鍵字，經過合併關鍵字後產生 engchi U 主題關鍵字。. 實驗四、斷詞方式採用 Bigram，斷詞後將每一個字詞進行過濾，過濾條件純數字之後再加入分群的條件，最後計算卡方值並取得前七組卡方值較高的關鍵字，經過合併關鍵字後產生主題關鍵字。實驗五、斷詞方式採用 CKIP，斷詞後將每一個字詞進行過濾，過濾條件為字串長度小於 2 之後再加入分群的條件，最後計算卡方值並取得前七組卡方值較高的關鍵字，經過合併關鍵字後產生主題關鍵字。. 19.

(29) 實驗六、斷詞方式採用史丹佛斷詞器，斷詞後將每一個字詞進行過濾，過濾條件為字串長度小於 2 之後再加入分群的條件，最後計算卡方值並取得前七組卡方值較高的關鍵字，經過合併關鍵字後產生主題關鍵字。實驗七、斷詞方式採用 CKIP，斷詞後將每一個字詞進行過濾，過濾條件為字串長度小於 2，最後計算詞頻並取得前七組詞頻較高的關鍵字，經過合併關鍵字後產生主題關鍵字。實驗八、斷詞方式採用史丹佛中文斷詞器，斷詞後將每一個字詞進行過濾，過濾條件. 政治大. 為字串長度小於 2，最後計算詞頻並取得前七組詞頻較高的關鍵字，經過合併. 立. 關鍵字後產生主題關鍵字。. ‧ 國. 學. 實驗之目的除了比較 8 組實驗結果外，主要是證明本研究所提之方法的可行性與否，在無任何詞庫與字典的支援下是否能達到令人滿意的結果，反之，使用字典斷詞又是否. Nat. n. al. er. io. sit. y. ‧. 能找出更多主題關鍵字。圖 2 和圖 3 為各實驗的流程圖。. Ch. engchi. 20. i n U. v.

(30) 讀取文章檔案. 單一中文文章. 實驗1. 實驗2. 實驗3. 實驗4. Bigram. Bigram. Bigram. Bigram. 斷詞. 立. 過濾. ‧ 國. 純數字. y. Nat. al. n 卡方值計算. MI&Jesen. sit. MI&Jesen. er. io. 計算分數. 純數字. ‧. 分群. 詞頻小於2或純數字. 學. 詞頻小於2或純數字. 政治大. Ch. engchi. 卡方值計算. i n U. v. 卡方值計算. 取出前七個分數高的關鍵字. 圖 2、實驗設計架構圖(一). 21. 卡方值計算.

(31) 讀取文章檔案. 單一中文文章. 實驗5. 實驗6. CKIP. 史丹佛中文斷詞器. 實驗7. 實驗8. 斷詞. 字串長度小於2. 字串長度小於2. y. Nat. MI&Jesen. n. al. er. io. sit. MI&Jesen. 計算分數. 字串長度小於2. ‧. ‧ 國. 字串長度小於2. 學. 分群. 史丹佛中文斷詞器. 政治大. 立. 過濾. CKIP. Ch. 卡方值計算. engchi. 卡方值計算. i n U. v. 詞頻計算. 取出前七個分數高的關鍵字. 詞頻計算. 取出前七個TF最高的關鍵字. 圖 3、實驗設計架構圖(二). 22.

(32) 第4.1節實驗工具本研究使用之機器規格為 CPU(Intel® Core™ i7-2600 CPU @ 3.40GHz)、記憶體(16GB)，作業系統是 Windows 7 64 位元，演算法實作之程式採用 Java 1.6 版本並使用 Eclipse 為開發工具，斷詞部分則是採用基於 Lucene3.3 套件所擴充的 API、CKIP 和史丹佛中文斷詞器。. 第4.2節資料集. 政治大文章(共 54 篇文章)做為實驗對象，數位典藏資源網典藏年限久遠、具史料典藏價值及中立實驗資料分為專題文章和標準答案兩部分，文章採用中央研究院數位典藏資源網的專題. ‧ 國. 學. 外學者利用率最高的研究資產，收藏內容橫跨了人文社會科學、生命科學、數理科學三大學門典藏品約 100 多萬筆。標準答案是中央研究院資訊科學研究所電腦系統與通訊實. ‧. 驗室開發的撈智網[39]收集到的群眾智慧結晶，撈智網是提供一平台能透過眾人的共識. sit. y. Nat. 來解決問題，讓大家能同心協力找出解決方案並給予作答者小小的報酬。. n. al. er. io. 第4.3節實驗流程. i n U. v. 在本節中將會說明實驗的詳細流程，為了能驗證本研究所提出的演算法之可行性，實驗. Ch. engchi. 過程中會透過以下六種實驗組合在相同的資料下可以看出各環節的必要性，各實驗組合說明如下：實驗比較組一、. 比較實驗對象為實驗 1 和實驗 2 之結果，目的是針對過濾掉詞頻小於 2 次的字詞後使用分群及不使用分群的結果為何，由於實驗的文章內容都不算長，因此條件設定為詞頻小於 2 次後就能過濾掉許多字詞，藉此可加快運算的速度。. 實驗比較組二、. 比較實驗對象為實驗 3 和實驗 4 之結果，此實驗組不過濾任何字詞，由於短文章的關係，主題關鍵字有可能只會在內容中出現僅一次，為了避免過濾掉只出現一次的主題關鍵字，因此不過濾任何字詞所以在 23.

(33) 計算時會花費較多時間，同樣地，將會比較在計算過程中使用分群及不使用分群之結果。實驗比較組三、. 比較實驗對象為實驗 2 和實驗 4 之結果，此實驗組之目的在於有無使用過濾條件之差異，有過濾條件固然能省下不少計算時間也可能會過滤掉主題關鍵字，不使用過濾條件雖然留下全部的字詞但在計算時間上和雜訊相對變長變多，因此，此實驗組之結果將顯示不加入過濾條件(詞頻小於 2 次)是否能取得更好的結果。. 實驗比較組四、. 政治大. 比較實驗對象為實驗 5 和實驗 7 之結果，此實驗組之目的在於使用. 立. CKIP 斷詞再搭配分群及計算卡方值之必要性。由於 CKIP 是以字典. ‧ 國. 學. 方式斷詞其斷出的字詞已經有經過處理再搭配上分群及計算卡方值是否會造成負面的效果，此實驗組將證明其必要性。. ‧. 實驗比較組五、. 比較實驗對象為實驗 6 和實驗 8 之結果，此實驗組之目的在於使用史. Nat. sit. y. 丹佛中文斷詞器斷詞再搭配分群及計算卡方值之必要性。史丹佛中文. n. al. er. io. 斷詞器也是以字典方式斷詞其斷出的字詞已經有經過處理再搭配上. i n U. v. 分群及計算卡方值是否會造成負面的效果，將經由此實驗組證明。實驗比較組六、. Ch. engchi. 比較實驗對象是實驗 2、實驗 5 與實驗 6 之結果，目的在於比較斷詞部分各別使用 CKIP、史丹佛中文斷詞器或 Bigram 時何種方式能得到最好的結果，此組實驗能得知使用字典方式與統計方式斷詞導致結果不同之差異，並證明本研究採用 Bigram 為斷詞方式之可行性。. 第4.4節實驗結果在實驗過程中使用的文章都是屬於中文文章，並只針對文章內容處理而未對標題、圖片等處理，附錄表 1 為人工選出的標準答案全部共有 54 篇。. 24.

(34) 第4.4.1節實驗比較組一實驗比較組一主要是濾掉頻詞小於 2 次的字詞後再搭配與不搭配分群的方式取得主題關鍵字，由附錄表 2 可觀察到在文章 1 中，實驗 1 所取得的主題關鍵字較多而實験 2 取得的主題關鍵字較少，兩個實驗的結果都能找出標準答案「海檬果」，分群與不分群取得主題關鍵字的數量並無太大差別。在實驗 1 中，”以帶”、” 享受” 、”全株” 、”的花” 、”常見”、”在台”、”原生”等字詞較無意義，「海岸」在原文章中一共出現四次，分別出現在「海檬果，因常見於海岸. 治政邊，且葉形及果形似芒果而得名」、「果實質輕，中果皮纖維質，可以漂浮在海上四處大立傳播，這也是許多海岸植物的共同特徵。」、「坐在濃密的樹蔭下，享受一番帶有海岸 ‧ 國. 學. 情趣的悠閒時光，偶而南風吹過」、「恆春半島墾丁海岸、宜蘭冬山河親水公園、羅東. ‧. 運動公園等地也都可見。」四句中，「海岸」描述了「海檬果」名稱的由來以及可見的地點，因此「海岸」對於語意來說是一重要之關鍵字。「花朵」在原文章中出現二次，. y. Nat. io. sit. 分別在「白色帶紅心的花朵，在一樹濃綠葉片的襯托下綻放，有如點點繁星在夜空閃爍；」. n. al. er. 和「而落在草地上的潔白花朵，讓人忍不住要繞道而行，捨不得踩過。」兩句中，由此. Ch. i n U. v. 可得知「花朵」並無太重要。「植物」在原文章中出現三次，分別在「果實質輕，中果. engchi. 皮纖維質，可以漂浮在海上四處傳播，這也是許多海岸植物的共同特徵。」、「此外在台北植物園、南港公園、台中都會公園、科博館、高雄市原生植物園、恆春半島墾丁海岸、宜蘭冬山河親水公園、羅東運動公園等地也都可見。」二句中，單看「植物」一詞其意義並不大，因為「台北植物園」和「高雄市原生植物園」需要完整才能夠顯得有意義，因此「植物」也並不是重要的關鍵字。實驗 2 中，「它的」、「可以帶」等字詞較無意義，「果實」在文章中出現三次，分別在「果實質輕，中果皮纖維質，可以漂浮在海上四處傳播，這也是許多海岸植物的共同特徵。」和「看著它油亮輕巧的果實，您的思緒是不是也隨那果實乘著洋流暢遊海. 25.

(35) 外了呢？」兩句中，文章中提到海檬果的果實特徵，因此就語意擴充而言「果實」也是一重要關鍵字。「台灣」則出現四次，分別在「在台灣哪裡可以看到呢？」、「在中研院的台灣考古館至傅斯年圖書館門前」、「海檬果是台灣原生樹種」、「除了台灣之外，海檬果也分布於印度至熱帶太平洋地區」四句中，由此可得知「台灣」則表示海檬果生長於哪裡。「綠葉」共出現二次，分別在「白色帶紅心的花朵，在一樹濃綠葉片的襯托下綻放，有如點點繁星在夜空閃爍」、「片片紅葉，點綴在繁茂的綠葉中」二句中，「綠葉」描述了海檬果樹有葉子且顏色是綠色。「葉片」也是形容海檬果樹有葉子。「白色」. 政治大. 出現三次，分別在「花冠筒長 2-3cm，先端 5 裂，白色，中央紅色」、「白色帶紅心的. 立. 花朵」、「它全株的白色乳汁有劇毒」三句中，分別描述海檬果花冠筒、花朵和乳汁的. ‧ 國. 學. 顏色。. 在實驗 1 中雖然找出較多的主題關鍵字，但大多數的主題關鍵字較無意義，而實驗. ‧. 2 的結果顯示只有兩個較無意義的主題關鍵字，其餘部分雖不是主題關鍵字，但對於語. Nat. sit. n. a. er. io. 的好。. y. 意的擴充卻有幫助，因此，在此實驗組可觀察到分群所取得的主題關鍵字效果較不分群. l 第4.4.2節實驗比較組二. Ch. engchi. i n U. v. 實驗比較組二主要是考慮到主題關鍵字如果只出現一次時則會被過濾掉所以不過濾任何字詞，附錄表 3 呈現出分群與不分群之結果，由此可以觀察到在不過濾任何字詞的情況下實驗 3 取得主題關鍵字較實驗 4 多，而實驗 3 取得標準答案的數量遠低於實驗 4，以文章 1 為例，實驗 4 取出 7 個主題關鍵字，其中取得「海檬果」此標準答案，而實驗 3 則取得 40 個主題關鍵字，但沒有任何一個字詞是符合「海檬果」，再往下看文章 2、文章 3、文章 4 和文章 5 其情況和文章 1 一樣並未取得主題關鍵字，因此從實驗結果可得知，當運算的字詞越多時分群之必要性越高，分群不但能減少雜訊更能精準的取得主題關鍵字。. 26.

(36) 第4.4.3節實驗比較組三實驗比較組三是比較實驗比較組一和實驗比較組二中個最好的結果，經由附錄表 2 和附錄表 3 比較後可觀察到實驗 2 與實驗 4 無論是取出主題關鍵字的數量並不會差太多，實驗 4 在三篇文章中比實驗 2 多找出 3 個標準答案，分別在文章 4 可看到實驗 2 並未找出任何標準答案實驗 4 則找出「珊瑚刺桐」此標準答案、文章 8 中實驗 2 取得「西螺」和「大橋」兩個字詞而實驗 4 則取得「西螺大橋」和文章 31 實驗 4 取得「馬拉巴栗」此標準答案而實驗 2 則未找到。實驗 2 則在 6 篇文章中比實驗 4 多找出 7 個標準答案，各. 治政別在文章 11 的「桂花」、文章 16 的「楓香」、文章的大17「台灣欒樹」和「金雨樹」、立文章 33 的「洋玉蘭」、文章 39 的「蘇鐵」和文章 44 的「荊軻」等文章，除此之外其 ‧ 國. 學. 它文章所找出的標準答案大致相同，由上面的敍述可以得知實驗 2 無論在運算的字詞數. ‧. 量或時間都比實驗 4 少但其結果卻比實驗 4 好，因此可證明本研究採用過濾詞頻小於 2 的字詞之必要性。. y. Nat. er. io. sit. 第4.4.4節實驗比較組四. al. 實驗比較組四之目的在於證明使用 CKIP 斷詞後再搭配分群及計算卡方值之必要性，由. n. v i n C h 5 取得主題關鍵字的數量少於實驗附錄表 4 和附錄表 5 可以看出實驗 7，雖然實驗 7 能 engchi U 取得之主題關鍵字較多，但就只取得主題關鍵字而言，取得較多的主題關鍵字代表擁有較多的雜訊，以文章 1 為例，實驗 5 全部取得 8 個主題關鍵字，其中取得「海檬果」此標準答案，而實驗 7 則取得 27 個主題關鍵字，一樣也取得「海檬果」此標準答案，以精確度來說，實驗 5 結果會比實驗 7 好，再看看前二十篇文章，實驗 5 在前二十篇文章中找出 16 個標準答案，實驗 7 則找出 19 個主題關鍵字，以二十篇文章來說實驗 7 找到的主題關鍵字較實驗 5 好。接下來將探討這兩個實驗是如何取出主題關鍵字，首先，實驗 5 取得主題關鍵字的. 方式是排序後取前 7 組卡方值高的字詞而得，而實驗 7 取得主題關鍵字的方式是排序後. 27.

(37) 取前七組詞頻高的字詞但不包含詞頻小於 2 而得，這兩個差別在於前者取得的主題關鍵字並不會因為主題關鍵字出現較少而取不到，後者以詞頻的方式取出的主題關鍵字就會產生這種情況，再者，如果遇到一篇不長的文章時，以詞頻的方式取出主題關鍵字的話會有這類的情形，例如有以下 9 個帶有詞頻的字詞：「子(17)」、「丑(7)」、「寅(2)」、「卯(8)」、「辰(8)」、「巳 (2)」、「午 (2)」、「未(1)」、「申(2)」，取前七組詞頻最高的字詞分別為「子(17)」、「卯(8)」、「辰(8)、「丑(7)」、「寅(2)」、「巳 (2)」、「午 (2)」、「申(2)」，方式有一大缺點，如果文章中詞頻為二次或三次的字. 政治大. 詞是屬於前 7 高的字詞，可想而知將會有一堆字詞會被取出為主題關鍵字，這種情況下. 立. 只要標準答案有出現過 2 次或 2 次以上就會被視為主關鍵字，如果取出標準答案的方式. ‧ 國. 學. 是取出前 7 組卡方值最高的字詞的話，例如有以下 9 個帶有卡方值的字詞：「甲(7)」、「乙(7)」、「丙(6)」、「丁(5)」、「戊(4)」、「己(3)」、「庚(2)」、「辛(1)」、. ‧. 「任(5)」，取前 7 組卡方值最高的字詞分別為「甲(7)」、「乙(7)」、「丙(6)」、「丁. Nat. sit. y. (5)」、「任(5)」、「戊(4)」、「己(3)」，其結果是由卡方值高低而定，所以無論詞. n. al. er. io. 頻高低如何都有機會成為主題關鍵字，如：文章 11 中實驗 5 的桂花其詞頻是 22、文章. i n U. v. 10 的阿爾卑斯山其詞頻是 2。因此，在此實驗組可以看到搭配分群及計算卡方值可優化其結果。. Ch. engchi. 第4.4.5節實驗比較組五實驗比較組五之目的在於證明利用史丹佛中文斷詞器斷詞後再搭配分群及計算卡方值之必要性，由附錄表 4 和附錄表 5 可以看出實驗 6 取得主題關鍵字的數量少於實驗 8，雖然實驗 8 能取得之主題關鍵字較多，但就針對取得主題關鍵字而言，取得較多的主題關鍵字代表擁有較多的雜訊，接下來將更詳細討論實驗 6 與實驗 8 之結果。首先，以文章 1 的結果為例，實驗 6 取出 7 個主題關鍵字但其中並沒有任何一個符合標準答案，而在實驗 8 取得 24 個主題關鍵字其中有取得「海檬果」此標準答案，就. 28.

(38) 文章 1 而言，只用史丹佛中文斷詞器和詞頻就能取得主題關鍵字，反而搭配分群和計算卡方值只能找出「海檬」一詞，再看文章 1 到文章 20 的結果中實驗 6 全部找出 14 個標準答案，但實驗 8 中卻找出 22 個標準答案，到目前看來實驗 8 除了只有主題關鍵字數量太多的缺點外找到的標準答案卻比實驗 6 多，到目前為止似乎搭配分群及計算卡方值是不必要的，再仔細看實驗 6 與實驗 8 取出標準答案的差異，實驗 6 取出標準答案的方式是取出前 7 組卡方值最高的字詞，而實驗 8 取出標準答案的方式是取出前 7 組詞頻最高的字詞且詞頻不等於 1，此情況與實驗比較組四的情形是一樣，在此不再贅述，因此，. 政治大. 在此實驗組可以看到搭配分群及計算卡方值之必要性。. 立. 第4.4.6節實驗比較組六. ‧ 國. 學. 依前幾節的實驗比較組說明後，此實驗比較組挑出實驗 2、5 和 6 為最後比較對象，從. ‧. 結果可看出各實驗取得主題關鍵字的數量並不會差太多，以文章 1 來看，實驗 2 和實驗 5 分別各取得 8 個主題關鍵字，其中取得「海檬果」此標準答案，而實驗 6 則取出 7 個. y. Nat. io. sit. 主題關鍵字，但並未取得標準答案，在所有文章中，實驗 2 取得 36 個主題關鍵字、實. n. al. er. 驗 5 也是取得 37 個、實驗 6 則取得 36 個，以取得數量而言，實驗 5 取得數量較實驗 2. Ch. i n U. v. 和實驗 6 多，以不使用任何字典的情況下，實驗 2 取得主題關鍵字的數量能與實驗 5 只. engchi. 差一個主題關鍵字甚至與實驗 6 相同其結果已經超出預期。就取得主題關鍵字的品質來看，其三個實驗組大致上並不會差太多，只有少數幾個地需要注意，在實驗 2 中文章 17、文章 18 的主題關鍵字多達十餘個，雖然二篇文章都有取得標準答案，但過多的主題關鍵字並非本研究想得到的結果，而實驗 5 和實驗 6 在文章 17、文章 18 中各自取得 7 和 10 個主題關鍵字，但確無取到任一個標準答案，然而這其中還是有些美中不足的地方，如文章 3，標準答案裡有「台灣膠木」一詞，但本研究之演算法無法取得其答案，「台灣膠木」在原文章為「由於大葉山欖樹皮含有豐富的乳汁，像橡膠乳液，故又名「台灣膠木」。」，就此句而言，「台灣膠木」之重要性同. 29.

(39) 等於「大葉山欖」一詞，而實驗 6 雖不能完全取得「台灣膠木」一詞，但確能取得「膠木」一詞，此部分是本研究之演算法仍需努力的地方。無論如何，在整體來說本研究之演算法使用 Bigram 斷詞的方式能取得的答案不亞於使用 CKIP 或史丹佛中文斷詞器。. 第4.5節實驗評量本研究在對單篇中文文章進行關鍵字擷取的實驗中使用的專題文章內容文字都未經過任何特殊處理，而標準答案是由三人共同閱讀一篇文章並由三人討論出何者是標準答案後再採多數決取得而成。由於中文在評量結果上並無一定標準評量方式而本研究要求的. 治政主題關鍵字必需完全符合標準答案，因此在評量上採用資訊檢索常用的評量方式也就是大立準確率和召回率[40]，表 5 為各實驗結果的評量值， ‧ 國. 學表 5 各實驗的準確率和召回率. ‧. 實驗 1. 14. 0.030. 實驗 2. 36. 0.105. al. 4. 0.006. n. 實驗 4. Ch. sit. er. io. 實驗 3. i n U. e n g c h i 0.101. 31. 召回率(Recall). y. 準確率(Precision). Nat. 主題關鍵字. v. 0.168 0.315 0.024 0.291. 實驗 5. 37. 0.105. 0.327. 實驗 6. 36. 0.105. 0.290. 實驗 7. 43. 0.054. 0.352. 實驗 8. 47. 0.072. 0.416. 本研究主要目的是擷取主題關鍵字而每篇文章的主題關鍵字只有 1 到 8 個不等，因此在評量上不像評量一般關鍵字一樣需要高準確率而是只需要高召回率即可，因此，由表 5 可以看到以召回率而言實驗 8 和實驗 7 是最高的，但其原因在上一節已說明在此不 30.

(40) 再贅述，排除實驗 8 和實驗 7 後實驗 5 的召回率最高其次是實驗 2 和實驗 6，事實上實驗 2 找出的標準答案是 36 個與實驗 5 相差一個主題關鍵字而在召回率的部分也相差不多，在無任何詞庫或字典的支援下其效果能與使用字典斷詞的實驗相差無幾，此結果已能證明本研究提出的演算法之可行性，雖然還不及使用字典的實驗好但已經為此演算法打開第一扇門，相信在未來的研究下有機會能超越過使用字典斷詞的方法。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 31. i n U. v.

(41) 第五章結論與未來研究在上節中透過六個實驗組驗證本研究所提出的演算法後，在無任何詞庫與字典的支援下所產生的結果與 CKIP 和史丹佛中文斷詞器的結果相比下並不遜色，雖然 Bigram 斷出來的字詞都是兩個字，但最後本研究卻能取出多於二個字的主題關鍵字，如：「大花紫薇」、「大葉山欖」、「擬背斑琵琶鮫」、「坪林秋海棠」、「多媒體中心」等，由標準答案. 政治大提供了一個對單篇中文文章擷取關鍵字之演算法，此演算法能在不使用任何詞庫的立. 可發現標準答案多以名詞居多也符合[23]所提到的特徵，本研究的貢獻有以下幾點： 1.. ‧ 國. 學. 情況下擷取出主題關鍵字並也符合此研究的目的，同時也做了大規模的實驗以驗證其演算法的可行性。. ‧. 2.. 在實驗過程中得知在斷詞部分各別採用 Bigram、CKIP 或史丹佛中文斷詞器再搭配. sit. y. Nat. 卡方值計算的效果，由實驗結果得知搭配卡方值的方式找出主題關鍵字未必需要使. io. er. 用詞庫的方式斷詞，採用 Bigram 方式也能得到與使用詞庫的效果一樣，在相同的. al. 結果下少掉需要人工建置詞庫的步驟也是此研究一大貢獻。. n. v i n Ch 在實驗比較組一、實驗比較組二中可以看到有使用與不使用分群時所擷取出的主題 engchi U. 3.. 關鍵字的品質相差甚多，在使用分群後不僅能有效過濾雜訊也能提高取得主題關鍵字的數量，在此研究中也可以得知在搭配卡方值計算時是否分群的重要性。在實務意涵上，本研究提供了一個自動化找尋主題關鍵字的演算法，只需給予一篇文章經過此演算法運算後就能為此篇文章挑選出主題關鍵字，透過擷取出的主題關鍵字除了能直接在數位典藏資源網直接查詢外，也可將這些主題關鍵字與數位典藏資源網文章的主題關鍵字做相似度計算以便找出相關的文章，透過這樣的方式可以借由熱門文章推薦數位典藏資源網的文章給使用者。. 32.

(42) 實驗結果已證明本論文提出的演算法的可行性，然而，仍有下列幾點可進行深入研究以便達到更好的效果：第一、. 詞性標註(part of speech tagging)是根據字詞在句法結構或語言形態上所扮演的角色，經由詞性分類給予語句中各字詞適當之詞性符號或標記的過程，基本上可分為動詞（verb）、名詞（noun）、形容詞（adjective）、副詞（adverb）或其他類別，是否能加入詞性標註的方式，對已找出的主題關鍵字判斷是否為名詞詞性，此方式有機會過濾掉如附錄表 2 中實驗 2 的文章 1 結果中的”可以帶”、”. 政治大. 它的”等字眼，或者可在進行 Bigram 斷詞後再對每一個字詞進行詞性標註，並. 立. 去除非名詞、形容詞等字詞。. ‧ 國. 學. 第二、. 加強合併字詞規則，字詞合併部分目前尚未完善，如的實驗 2 中，文章 6 的「泰雅族」和「珠衣」；文章 8 的「西螺」和「大橋」；文章 9 的「高慈美」和「日. ‧. 記」；文章 53 的「台灣」和「堡圖」，在這些文章的結果中被準確的找出，. Nat. sit. y. 但受限於字詞合併部分不夠完善導致諸如此類的字詞未被合併，因此，未來將. n. al. er. io. 找尋更合適的合併字詞方法以解決定問題，未來考慮是否只二字詞合併後只要. i n U. v. 在文章出現次數超過一定門檻時就將其合併，另外，文章 6 的「泰雅族」和「珠. Ch. engchi. 衣」是一特殊情形，在標準答案此兩字詞屬於標準答案之一但還有另一標準答案為「泰雅族珠衣」，如果將其合併後雖然能得到標準答案，但同時也少了「泰雅族」和「珠衣」兩字詞，針對此部分是否能參考 Zhang 等人[41]的研究中第 4 章裡提到利用計算共同資訊量的方式過濾或保留字詞，此一方式有機會能解決文章 6 所遇到的問題。第三、. 加入位置概念，本研究只針對內容做處理，未對標題做進一步處理，根據黃[42] 研究表示，文件之重要資訊包含「文件關鍵字」、「文件標題」及「文件結構」三項資訊，「文件標題」大多具有表達文件主旨之特性，由於文件標題與文件. 33.

(43) 內容有相關性，因此擷取主題關鍵字的過程中如果關鍵字出現在標題時權重是否該加權，而比例又是多少也是值得研究的課題。去除停用字(Stop Words Removal)，實驗 2 中文章 3 的「蘭嶼芒果的」、文章 24 的「紅楠的」、文章 34 的「的山茶」和「茶花的」、文章 35 的「的喬氏海蝠魚」、文章 46 的「水黃皮的」、文章 50 的「的蘇鐵」等主題關鍵字都帶有” 的”字，未來也將研究借由去除停用字的方式是否能在不影響整體的結果下去除這些字停用字以優化其結果，以上三點是未來研究之方向。. 立. 政治大. 學 ‧. ‧ 國 io. sit. y. Nat. n. al. er. 第四、. Ch. engchi. 34. i n U. v.

(44) 參考文獻 [1]. 計畫起緣， http://wiki.teldap.tw/index.php/%E6%95%B8%E4%BD%8D%E5%85%B8%E8%97%8F% E8%88%87%E6%95%B8%E4%BD%8D%E5%AD%B8%E7%BF%92%E5%9C%8B%E5%AE%B6%E5%9E% 8B%E7%A7%91%E6%8A%80%E8%A8%88%E7%95%AB (2013/9/1).. [2]. 聯合目錄，http://catalog.digitalarchives.tw(2013/9/1). 了解數位典藏，. [5]. Liu, Z., Chen, X., and Sun, M. (2012). Mining the interests of Chinese microbloggers. ‧ 國. 學. [4]. 治政 http://digiarch.sinica.edu.tw/content/about/about.jsp(2013/9/5). 大立數位典藏資源網， http://digiarch.sinica.edu.tw/index.jsp(2013/9/10).. [3]. [6]. ‧. via keyword extraction. Frontiers of Computer Science, 6(1):76–87. Liu, F., Liu, F., Liu, Y. (2011). A Supervised Framework for Keyword Extraction. y. Nat. er. io. sit. From Meeting Transcripts. IEEE Transactions on Audio Speech and Language Processing 19, 538–548.. al. n. [7]. Ch. i n U. v. Luo, X., et al. (2008). Experimental study on the extraction and distribution of textual. engchi. domain keywords. Concurrency and Computation-Practice & Experience 20(16), 1917–1932. [8]. Bracewell David, B., et al. (2008). Single document keyword extraction for Internet news articles. International Journal of Innovative Computing Information and Control 4(4), 905–913.. [9]. Sun Yue-heng. (2005). Research of NLP Technologies Based on Statistics and its Application in Chinese Information Retrieval, Tianjing University, Tianjing, pp.27-30.. 35.

(45) [10]. Dai, Y. B., Khoo, S. G. T., Loh, T. E. (1999). A new statistical formula for Chinese word segmentation incorporating contextual information. In: Proc. of the 22nd ACM SIGIR Conf. on Research and Development in Information Retrieval (pp 82–89).. [11]. Yu, H. K., Zhang, H. P., Liu, Q., Lv, X. Q. and Shi, S. C. (2006).Chinese named entity identification using cascaded hiddenMarkov model. Journal on Communications, 27(2), 87–94.. [12]. N-gram，http://en.wikipedia.org/wiki/N-gram(2013/8/13).. [13]. 蘇辰豫，在跨多語言資訊檢索中使用 N-gram 翻譯及維基百科翻譯解決未知詞問. 立. 政治大. 題，朝陽科技大學，2007。. ‧ 國. 學. [14]. 洪大弘，基於語言模型及正反面語料知識庫之中文錯別字自動偵錯系統，朝陽科技大學，2009。. ‧. 莊怡軒，英文技術文獻中動詞與其受詞之中文翻譯的語境效用，國立政治大學，. y. Nat. 2011。. sit. [15]. [17]. 蘇信州，TFT-LCD 面板製造廠 CIM 客服中心之案例式推理模式建立，國立成功. n. al. er. 王瑞平，應用平行語料建構中文斷詞組件，國立政治大學，2012。. io. [16]. 大學，2009。. Ch. engchi. i n U. v. [18]. CKIP，http://ckipsvr.iis.sinica.edu.tw/intro.htm(2013/8/9). [19]. 廖嘉新，實體論自動建構技術與其在資訊分類上之應用，國立成功大學，2002。. [20]. 馮廣明，正面和負面資訊需求對資訊檢索效能之影響研究，國立台灣大學，2003。. [21]. 蘇柏鳴，應用事件導向負面情緒預測網路使用者憂鬱傾向，國立成功大學，2012。. [22]. 李怡欣，國小中年級社會教科書詞彙分析-以翰林版為例，國立台南大學，2012。. [23]. Giarlo, M. J. (2005). A Comparative Analysis of Keyword Extraction Techniques. Rutgers,The State University of New Jersey.. 36.

(46) [24]. Ercan, G., & Cicekli, I. (2007). Using Lexical Chains for Keyword Extraction. Information Processing & Management, Vol.43, Issue 6, pp. 1705-1714.. [25]. Dipl.-Ing. Wolfgang Nejdl. (2009). Automatic Keyword Extraction for Database Search.. [26]. J. D. Cohen. (1995). Language and domain-independent automatic indexing terms for abstracting. Journal of the American Society for Information Science.. [27]. I. Witten, G. Paynte, E. Frank, C. (1999). Gutwin, C. Nevill-Manning. KEA: practical. 政治大. automatic keyphrase extraction. In Proceedings of the 4th ACM Conference on Digital. 立. Library.. ‧ 國. 學. [28]. A. Hulth. (2003). Improved automatic keyword extraction given more linguistic knowledge. In Proceedings of the 2003 Conference on Emprical Methods in Natural. ‧. Language Processing, Sapporo, Japan.. y. n. al. er. io. sit. J. B. Keith Humphreys. (2002). Phraserate: An HTML keyphrase extractor. Technical Report.. [30]. Nat. [29]. i n U. v. Songhua Xu, Shaohui Yang, and Francis Chi-Moon Lau. (2010).Keyword extraction. Ch. engchi. and headline generation using novel word features. In Proceedings of the Twenty-Fourth AAAI Conference on Artiﬁcial Intelligence, AAAI 2010. AAAI Press. [31]. Zhenhui Li, Ging Zhou, Yun-Fang Juan, and Jiawei Han. (2010). Keyword extraction for social snippets. In Proceedings of the WWW, pages 1143-1144.. [32]. X. Wu and A. Bolivar. (2008). Keyword extraction for contextual advertisement. In Proc. of WWW, pages 1195–1196.. [33]. Y. Matsuo, M. Ishizuka. (2004). Keyword extraction from a single document using word co-occurrence statistical information. International Journal on Artificial Intelligence Tools. 37.

(47) [34]. G. K. Palshikar. (2007). Keyword extraction from a single document using centrality measures. In Proceedings of the 2nd International Conference on Pattern Recognition and Machine Intelligence(LNCS-4815), pp. 503–510.. [35]. Yan Yang, Meng Qiu. (2011). Exploration and Improvement in Keyword Extraction for News Based on TFIDF. 2011 3rd International Conference on Machine Learning and Computing.. [36]. 詹權恩，以詞彙關聯性詞庫為基礎之文件關鍵字擷取模式，國立清華大學，2004。. [37]. Hui Jiao, Qian Liu, Hui-bo Jia, (2007). Chinese Keyword Extraction Based on N-gram. 立. 政治大. and Word Co-occurrence. 2007 International Conference on Computational. ‧ 國. 學. Intelligence and Security Workshops. [38]. Xinghua Li , Xindong Wu , Xuegang Hu , Fei Xie , Zhaozhong Jiang. (2008).. ‧. Keyword Extraction Based on Lexical Chains and Word Co-occurrence for Chinese. y. Nat. n. al. er. io. Mining Workshops, p.744-751, December 15-19.. sit. News Web Pages. Proceedings of the 2008 IEEE International Conference on Data. i n U. v. [39]. 撈智網， http://gainwisdom.iis.sinica.edu.tw/index.jsp(2013/9/10).. [40]. Precision and recall，http://en.wikipedia.org/wiki/Precision_and_recall(2013/11/15).. [41]. Zhang Le, Lu Xue-qiang, Shen Yan-na and Yao Tian-shun, Y. (2003). A Statistical. Ch. engchi. Approach to Extract Chinese Chunk Candidates from Large Corpora. 20th International Conference on Computer Processing of Oriental Languages. [42]. 黃佳新，關鍵字擷取與文件分類之因子分析，國立清華大學，2004。. 38.

(48) 附錄附錄表 1 標準答案文章 1. 海檬果. 文章 2. 大花紫薇. 文章 3. 大葉山欖、台灣膠木、蘭嶼芒果. 文章 4. 珊瑚刺桐. 文章 5. 擬背斑琵琶鮫、天使鯊. 文章 6. 泰雅族、貝殼珠、珠衣、泰雅族珠衣、. 文章 7. 坪林秋海棠、秋海棠. 文章 8. 西螺大橋、濁水溪. 政治大. 學. 文章 10. ‧ 國. 立. 文章 11. 桂花、木犀. 文章 12. 山芙蓉、三醉芙蓉、芙蓉、拒霜、狗頭芙蓉. 文章 13. 黑板樹、scholar. 文章 14. 曲冰部落、曲冰遺址、曲冰、曲冰遺址石板棺復原動畫. 文章 15. 青楓、植物的葉為什麼會變色. 文章 16. 楓香、金縷衣. 文章 17. 台灣欒樹、燈籠樹、金雨樹、苦苓舅. 文章 18. 山芙蓉. 文章 19. 台灣欒樹. 文章 20. 蒜香藤. 文章 21. 商代甲骨、甲骨卜辭. 高慈美日記、高慈美. ‧. 玉山薄雪草、小白花、薄雪草、真善美、阿爾卑斯山. io. sit. y. Nat. n. al. er. 文章 9. Ch. engchi. I. i n U. v.