中文新聞標題自動生成之研究 - 政大學術集成

(1)

第一章

緒論

本章將介紹本論文之背景、研究動機、研究假定、研究方法與論文貢獻。

1.1 背景

隨著電腦科技的進步，搜尋引擎的興起，人們取得資訊的習慣漸漸轉移到網際網路上，無論何種資料，都有被數位化的趨勢，在網路上以數位化的方式呈現內容，而搜尋引擎、電子報與數位圖書館等數位化資訊查詢系統便是為了方便民眾透過網路查詢資訊而興起。現今的數位化資訊查詢系統，大多以全文檢索的方式檢索使用者所需的資訊，也就是使用者在查詢資料時，下一檢索詞彙，接著系統便自動在資料庫中，全文檢索具有此一檢索詞彙之資料提供給使用者。但這樣的方式較為耗時，且無法反應使用者所需要的主題，因此，研究者欲提出一套機制，能讓搜尋引擎或電子報如圖書館分類圖書一般，組織資料，將資料轉換為資訊，使得數位化資訊查詢系統不再只具有全文檢索的功能，而能提供題名（標題）、主題、作者、關鍵字、編輯日期等等檢索功能之加值服務，讓數位化資料不再只是資料，而能提供使用者一定的資訊與訊息，將資料整理成資訊，為文件自動生成標題。而在資訊檢索部分，使用者在查詢資料時，亦可直接以題名檢索的方式檢索資訊，也就是如圖書館線上書目查詢系統（webpac），以書/刊名來查詢圖書，在資訊系統中，

(2)

增加以標題來檢索文件的功能，檢索速度將比以全文檢索方式快速許多，且如附加主題項目一併搜尋，那麼在主題明確的情況之下，也能增加使用者檢索出正確資訊的機率。而研究者在本論文著重的部分在於為文件分析內容並自動為其產生文件標題，研究者盼推廣以圖書館檢索書名之方式應用在網路之資訊檢索系統上，提供如標題（書名）、作者與關鍵字等等之加值服務，明確的類別檢索，相信將能提升檢索效率。分析文件內容並產生標題首重文章之自然語言分析，國內自然語言處理正蓬勃地發展，自然語言處理的研究範圍包括資訊檢索、機器翻譯、語音辨識、論域分析、光學字元辨識等等，處理對象含括各種形式的媒體，各種型態的語言，如各國語言之純文字檔、 XML 檔或語音檔。語言是由時間文化長期累積而成，具有文化與地域的特殊性，人類在閱讀一篇文件時，都是藉由人類智慧經驗的累積去辨識每一個字詞的意義，若能讓電腦分析文件並自動產生正確的標題，無非是一件具有挑戰性的研究課題。

自然語言處理屬於人工智慧（Artificial Intelligence，簡稱 AI）領域。人工智慧的包涵很廣，其最主要的目的是希望電腦能瞭解人類需求，簡化繁瑣的程序，協助提供最佳的效能，如機器人或智慧型系統經由訓練能幫助人類做繁雜的工作，自動判斷工作內容，並執行任務。自然語言處理則希望電腦能夠分析人類的語言，並進而讓人類語言與電腦直接溝通，美國麻省理工學院 2001 年一月/二月的科技評論便將自然語言處理列為未來改變世界十大資訊科技之一。目前文件標題自動生成的研究正在一個初始的階段，國外已有一些相關的研究，處理的文件語言為英文，其研究方法大多是將機器翻譯或自動摘要的研究方法應用於標題自動生成之研究，而中文文獻部分，迄今尚未有標題生成之正式研究。由於中文的語言特性非常複雜，諺語、成語、俗語等與文化、歷史、地域密切相關的用語極多，使得文件標題自動的生成更為困難。然而，相對於數位文件越來越多的情況下，引入自動化處理技術的需求益形迫切，本論文將在這樣的背景下，嘗試提出中文文件標題自動生成的

(3)

初步解決方案。

1.2 問題陳述

許多主題不明確的網站標題與一般新聞文件標題相似，目的僅是為了吸引讀者注意，而使用醒目或聳動的標題，但卻與其內容毫不相干，這樣的標題，站在資訊檢索的角度上，會誤導使用者，而其資訊檢索系統，站在企業服務的角度來看，也不盡理想，因為它並沒有站在讀者的角度，為讀者建立一個完整性的資訊服務。因此，研究者期盼能發展文件標題自動生成之機制，增加題名檢索之加值服務，以期能改善搜尋引擎檢索的效益。由於目前許多網站標題並不與網站主題內容相吻合，網頁、文件若能標題化，內容相似的文件標題詞彙一致化，在整理與蒐集資訊上，可以省下不少精力。因此，研究者認為標題自動生成機制若應用於網際網路，則可以為各個網站首頁產生一至多個標題，若網站中每個網頁的主題或文章如果太長，主題不一，則盼能為每個網頁或每份文件，設定多個標題，在題名檢索時，將能搜尋特定網頁或段落，使搜尋結果更加準確。

1.3 研究動機

本論文的研究動機是為了因應龐大的網路資訊而衍生的，希望運用自然語言處理的技術於資訊檢索的領域上，以期資訊檢索的結果更符合使用者需求，讓使用者能以資訊系統自動生成之標題直接檢索資訊，這也就是圖書館線上書目查詢系統（webpac）所使用的題名檢索。目前網際網路上的檢索多數是利用全文檢索的方式，將使用者輸入的檢索詞彙與全文比對，再根據不同的排序演算法（Ranking Algorithm），呈現符合使用者資訊需求的文件，例如，排序演算法的排序順序為計算曾經使用同樣檢索詞彙的使用者，檢索後所點

(4)

選的連結次數，作為爾後使用者連結到這些網站之相關度參考指標，點選次數多者，優先出現。然而對於這樣全文檢索的方式不一定能符合使用者需求，舉例來說：若使用者想找尋英國留學展的活動，使用的檢索詞彙為「英國留學展」，然而，檢索出來的卻為各大留學補習班，或留學英國準備事項的網頁，使用者下完檢索詞彙後的搜尋結果往往僅是內文的一部份，並不完全符合主題。因此，本論文盼能為資訊檢索系統提供另一種如圖書館 webpac 題名檢索的方式以供參考，如線上圖書館系統利用書/刊名查詢書籍，書刊名就如同文件標題，書籍就如同文件。網站的資訊檢索方式增加利用標題來檢索資訊之加值服務，甚至若能如圖書館，利用主題、題名、作者去搜尋，在搜尋引擎中的之進階搜尋增加這幾項服務，應能加速檢索的速度，縮短使用者的檢索時間，並避免使用者檢索到不符合需求之文件。以標題為檢索點的搜尋引擎回饋機制，相信能夠讓檢索的主題更加明確，不會因為文件主題的曖昧不明，造成資訊檢索上的困擾

1.4 研究目的

本論文的研究目的在於自動產生符合中文單一文件內文主旨之標題。也就是中文文件標題能在不經過人為評估分析之下，以電腦自動生成，並盼自動生成之標題能具「訊息性」（informativeness），提供使用者資訊而不僅是資料而已，讓標題能符合文件主旨且能描述出文件主體事件。本論文之研究目的有下列幾項：一. 為網際網路上的資料自動生成標題，將資料轉化為資訊或知識，並提供資訊檢索另一題名檢索之加值服務。二. 分析整理相關文獻，並探討中文文件之標題生成之研究方法。三. 分析研究者自動生成標題與實際標題之求準率（precision）與求全率（recall）之實

(5)

驗結果，並作說明與檢討。四. 分析探討研究者自動生成標題之「訊息性」（是否符合文章內容），及流暢性。

1.5 研究假定

本研究文件標題自動生成的目標設定為符合文件內文之標題。然而，由於一般人在擬定文章標題時，會加上自己主觀認為符合內文主旨的詞彙當作標題，而這些詞彙不一定會出現在文件內文中，這樣的情況會導致研究者在選取標題候選詞之困難，也就是研究者在本論文中並不探討每個人在下文章標題詞時，所使用的主觀詞彙，本論文所產生的標題，只將著重於找出出現在文本中之詞彙來當作標題。研究者利用觀察法閱讀了 20 篇新聞之後，從中觀察其特性，因而擬定了本論文之假定，假定如下： 1. 標題一定出現在文件文本第一段。 研究者認為，中文文件在第一段，第一章或序裡，通常能開門見山地點出主題。又研究者參照 David Zajic[16]的作法只由前 60 個字中擷取文字當作標題，其實驗結果並不比其他文獻差，所生成的標題亦可表達出內文主旨，因此，本論文將採用這個假定。因此，訓練文件與測試文件中之標題詞只要有一個詞彙以上亦出現在文本第一段，則研究者便將該文件作為訓練文件及測試文件，若標題詞完全無能從第一段擷取，則剔除之。 2. 文件的標題詞彙不重複。 由訓練文件的統計結果得知，文件標題長度呈高斯常態分佈（ Gaussian distribution），介於四到六個詞組，而由觀察法得知，大多數標題裡的同一詞彙只出現一次，因此，本論文將採用這個假定。 3. 中文斷詞方式以 N-gram 之方式處理斷詞，N 大於 1。 不處理 N=1 的原因在於，N=1 的單字詞處理亦會包括在 N-gram﹙N=2~5﹚的處理

(6)

當中，例如此句話「網際網路服務也包括在內」，其斷詞後的結果為：網際網路服務也包括在內。其中「也」與「在」都是單字詞，包含於處理的範圍之中，也就是說 N-gram ﹙N=2~5﹚在門檻值篩選之後，仍可以處理到包括單字詞之詞彙。又中文之單字雖然富有意義，但是卻不是進行中文處理時最小的語意單位，因此在選擇標題候選詞彙時，並不單純挑選單字詞，只考慮多字詞。而文章中的詞彙若無法在「詞彙集」中比對到，研究者則將視之為 N=1 的字。 4. 標題順序依照文本原文排列。 記者或一般人所擬定之標題詞彙順序不一定與其在文件內文出現的順序相同，然而，電腦系統若要考慮標題順序不同之因素，必然於兩兩中文詞彙之彼此順序上作訓練分析，實將耗費相當大的工程。因此，本論文在經過研究目的之考量後，並不予以訓練字詞之順序。而依照原文順序來排列產生之標題。

1.6 研究方法與步驟

研究者依據研究目的，期盼發展一套中文文件標題自動生成之模式。研究者先將中文詞做多連字詞之前置作業處理，經過頻率門檻值的篩選，建立本研究參考之「詞彙集」，接著將訓練文件之第一段與標題及測試文件之第一段與「詞彙集」做斷詞比對後，考慮訓練語料庫文件文本詞頻與標題詞彙出現之關係機率、標題長度機率及兩兩詞彙之間距，然後進行實驗並分析實驗結果，最後以求全率、求準率、F1 及人為評估方法評估實研結果。本論文的研究方法為文獻探討法與系統實驗方法。步驟為 1. 蒐集、閱讀、探討相關文獻。

(7)

將訓練文件做多連字詞處理，N=2~5。接著設立頻率門檻值以找出可能之中文詞彙，作為本研究的參考「詞彙集」。最後將訓練文件之第一段與標題及測試文件之第一段與「詞彙集」做斷詞比對。 3. 從訓練語料庫中訓練各文件之標題詞彙-文本詞彙關係機率本論文考量文件文本出現之詞彙與其實際的標題詞彙之關係，也就是計算，因此，產生的候選詞彙為訓練語料庫中曾經作為文件標題者。至於從訓練語料庫之標題長度，則是統計標題長度之機率值。在符合本論文之假定下：標題詞彙至少要有一個出現在第一段中。也就是說如果文件中的標題在參考「詞彙集」後，所找出的標題若為「台北市」「政府」「舉辦」「園遊會」，但其中只有「台北市」與「舉辦」出現於其相對應文件的第一段中，那麼其由第一段擷取出之實際標題長度為 2，長度機率便以長度為 2 的對應機率做計算。

(

H |T Ρ

)

4. 從測試文件中決定詞彙之間的間距，詞彙間距愈遠，表示彼此關係愈低。 5. 從測試文件中擷取候選詞彙，考量第 3 與第 4 步驟及詞彙間距，也就是第三個步驟乘以第四個步驟除以測試文件之詞彙間距後，決定其最後生成之標題。 6. 評估並分析研究結果

(8)

7. 本論文研究步驟流程如下： A 從訓練語料庫中訓練各文件之標題 -文本詞彙之機率多連字詞處理（N-gram），N 介於 2-5 設定頻率門檻值篩選詞彙以作為「詞彙集」蒐集、閱讀、探討相關文獻考量詞彙間距後，利用最後模組產生測試文件標題評估實驗結果 A 從訓練語料庫中訓練各文件之標題長度分佈機率比較本論文與其他文獻之實驗結果，並分析探討之圖 1.1 本論文研究流程。

(9)

1.7 名詞描述

由於許多文獻對於 Headline, Title, Document, Text 的解釋不一，某些文獻將 Title 或 Headline 當作文件標題，某些文獻將 Document 或 Text 當作文件內文。而研究者在本論文中將使用 Headline 與 Text。其解釋如下: 1. 標題（Headline）：指的是文件標題。 2. 文本（Text）：指的是文件內文，在本論文假定之前提下，為文件內文第一段第一段。 3. 文件（Document）：指的是整份文件，包含標題與文本。舉例如下：台北市民眾今起不明原因發燒需隔離 72 小時（中央社記者黃淑芳台北十九日電）為避免疑似 SARS 的發燒症狀未被察覺，台北市政府決定實施新的「發燒處理流程」。衛生局長邱淑媞今天說，凡是沒有 SARS 接觸史的民眾若因不明原因發燒超過攝氏三十七點五度，醫療院所就必須進行通報；民眾則可選擇在家中、市府隔離中心或醫院發燒病房隔離七十二小時。 Text（文本，文件內文第一段） Document （文件） Headline（標題）圖 1.2 新聞文件的範例。

1.8 論文架構與貢獻

本論文分為六章，第一章為緒論，說明研究背景、動機及目的。第二章為文獻探討，介紹標題自動產生之相關文獻，並作文獻整理與探討。第三章提出研究方法與機制，分

(10)

析標題詞之特徵，考慮候選詞權重值、標題詞長度、候選詞彙彼此之間的間距。第四章呈現實驗數據及結果，利用電腦自動評估法之求準率、求全率與 F1 來做評估。第五章為人為評估之結果與分析。第六章為結論與未來之研究方向。本論文的貢獻可分為兩部分：第一部份研究者將英文自動標題生成之方法應用在中文文件，稍加改良以適合中文文字結構。研究者所提出的方法中，將比較長的詞彙優先挑出作為標題（斷詞處理方法為長詞優先），增加長詞之候選詞權重分數，並考慮中文詞彙以「詞」為單位之標題長度機率分布及文本中在標題長度為 n 的情況下，以「詞組」為單位之間距計算方法。第二部份即研究者提出資訊檢索系統一加值服務︰標題檢索（題名檢索），以電腦自動分析文章，並為其產生標題，將資料加值化，轉化為資訊。

本論文評估結果之 Outside Test 的 F1 為 12.67%。Inside Test 之 F1 為 14.21%。實驗結果顯示，本論文之中文標題生成結果與其他英文文獻之結果(F1=3.2%~24%)相距不大，且標準差差距甚小。雖然，自動生成之標題與記者擬定的標題比對結果仍有一段差距，在未來工作上，研究者認為標題自動生成之方法仍有相當大的進步空間。然而，本論文所提出的中文標題生成方法對中文文件標題自動生成之研究仍有一定的參考價值，且能讓不同主題的新文件產生相同水準之標題。在論文應用方面，研究者認為網路之資訊檢索系統若能將網頁資訊分析整理，視各個網站內容決定生成標題的數目，如網站內容文章過長，可為每一段生成一個標題，如此一來，便如同一般人在閱讀文章時，會在閱讀一個段落後加上眉批，可將網頁資料轉化為資訊或知識。而研究者希望這樣的方式在未來能應用於資料庫之規劃上，提供更有條理的整理與組織，更可以利用其他技術，將文章的摘要、作者與編輯年代等等一併產生，提供使用者更多的訊息。