文獻探討 - 中文主題詞辨識與其應用

在本章節中，我們將探討國內外關於主題辨識的研究，而我們的後續應用是將主題辨識應用在學生作文的離題偵測(Off-topic Detection)與連貫性評量

(Coherence Evaluation)上，因此在本章當中也將介紹關於離題偵測與連貫性評量方面自動作文評分系統的相關研究。

2.1 主題定義

我們認為中文所指的主題(Topic)，即是一個語篇片段的重心。這個片段可以是整篇文章、或是文章中的長句、小句，端賴研究者依照需求而定。例如以文章為單位者，Makkonen 等[‘04]將主題視為是事件(Event)，可由人、事物、時、地等元素構成主題。以語段為單位定義主題者，曹逢甫[‘95]認為中文是一種語段取向的語言，主題必須要依據語段才能決定。而以語句為單位者，Li and Thompson [‘81]認為中文是一個「主題明顯」(Topic- Prominence)的語言，即語句都必須含有一個不可或缺的元素——「主題」， Yeh and Chen[‘04]認為主題是「主詞的具現化」(Reification of subject in the real world)，且一個語句的主題總是出現在語句前面。如下例：

例 1：電子股受美國高科技股重挫影響，持續下跌。

徐為群等[‘04]則認為中文的「主題」可概括定義為：「說話者所關注的顯著語意實體 (Salient Semantic Entity, SSE)」，此與重心理論(Centering Theory)[Grosz et al., ‘95]的重心(Center)定義是相似的。重心理論當中重心的定義，是一個詞彙於語句(Utterance)當中，構成這個語句與其他語句之間的連結，則此詞彙稱之為這個語句的重心，通常重心也被稱為是主題(Topic)或者是注意中心(Focus)

[Miltsakaki and Kukichy, ‘00]。如下例：

例 2：世界各國競相在中國投資設廠，中國儼然成為全球重要生產國之一。

上述對主題的定義都傾向於選取名詞為主題，因此我們在選取主題詞時也以名詞為主，名物化動詞為輔來挑選主題。

2.2 主題辨識之相關研究

選取主題的基本方法可分為下列幾種，第一種是最簡單的方法，直接擷取詞頻最高者。第二種則是將第一種方法加以權重計算，例如以 TFIDF 計算權重並擷取權重最高者。第三種是利用知識本體（如 WordNet 的詞彙概念辭典）擷取頻率最高的語義概念當成主題。

我們將目前的研究依擷取主題的單位分成多篇文章、單一文章、單一句子三類來介紹，目前大部分的研究都是以文章為單位抽取重要的詞彙，做為文章的主題，較少以句子作為抽取主題的單位。

2.2.1 多篇文章之主題辨識研究

以多篇文章為單位來擷取主題的方法，有使用 TFPDF(Term Frequency- Proportional Document Frequency)法計算詞彙權重從而抽取主題[Khoo and

Ishizuka, ‘02]，另外也有使用詞彙頻率並加上同義詞與使用 LSI (Latent Semantic Indexing)以構成詞彙群組，計算詞彙的重要性並抽取詞彙作為主題[Lin ’04]。以及使用概念地圖(Concept Map)的方式，將詞彙先對應至概念地圖，之後計算地圖之間的相似度構成地圖類別，從地圖類別產生初始的第一代主題後，以搜尋引擎搜尋主題，並將傳回的網頁以 SVD(Singular Value Decomposition)計算產生第二代的主題，如此反復計算直至主題不再變動或者代數已超過某一門檻為止[Leake et al., ‘03]。這些方法的目的是在於事前並不知道文章群聚在一起的原因，而想找出這些文章共同的主題，而當新文章出現時，也可利用找出的主題判斷新文章是否屬於這個文章聚落。

2.2.2 單一文章之主題辨識研究

在單一文章的主題偵測上，可利用 WordNet 將詞彙概念化及權重評量，取每個概念出現頻率，乘以其權重後取其最高者當成主題[Tiun et al., ‘01]。實驗則從 Yahoo 的商業與經濟目錄中擷取 109 個分類與 202 篇網頁，可將 202 篇 Yahoo 網頁以此法擷取主題後分類至其適當的目錄中，正確率可達 69.8%。

除了利用 WordNet 將詞彙概念化外，也可再加以權重計算，如以 TFIDF 與詞彙所在段落的位置（如標題、第一段、第二段等等），以及詞彙前有無關鍵詞

（如 in summary, in conclusion 等關鍵詞）計算詞彙的權重，以此抽取文章的主題 [Lin, ‘98]。韓客松等[‘00]則在計算詞彙的權重上，考慮了詞彙的位置、長度、詞性標記三個層面，依照詞彙不同的位置設定不同權重，以及越長的詞彙代表資訊含量越多，並且將名詞權重設定最高，名物化動詞次之，其餘虛詞等等權重最低，

最後抽取權重最高的數個詞彙代表文本的主題。其以 58 篇文章作為測試，每篇分別以取 3~9 主題詞計算其主題正確率與召回率，在每篇取 9 個主題詞的情形之下可以達到 69%的正確率與 67%的召回率。

而以機率模型取文章主題者，可將文章與主題當成節點(Node)，設文章內每個詞彙的出現均為獨立事件，計算詞彙可能的主題機率，最後加總文章內的詞彙對應主題之機率，作為文章與主題節點相連的機率，從而抽取文章之主題[Chang et al., ‘02]。

有別於以詞彙權重的挑選方式，文章主題也可用含有「人、事物、時、地」

的「事件」來呈現[Makkonen et al. ’04]，並將此應用於新聞的主題辨識上。此法在使用 4000 篇新聞作為訓練語料、4000 篇新聞作為測試語料時，偵測主題的正確率為 86.36%，召回率為 57.58%。

2.2.3 單一句子之主題辨識研究

在句子的主題辨識上，Grosz 等人[‘95]所提出的重心理論(Centering Theory) 是一個相當著名的辨識模型，它依照兩兩相鄰句子間的重心候選詞重複與否來判斷句子的重心。而 Yeh and Chen [‘04]將零指代(Zero Anaphora)消解應用在主題辨識上，利用淺層剖析器(Shallow Parser)將句子的主語、賓語、與其他詞彙分辨出來，並以零指代消解之後的先行詞視為主題，其主題之決定順序為主題>主語>

賓語>其他詞彙。

另外尚有以句型分類方式辨別句子主題，如徐為群等[‘04]將口語（聊天室的對話）句型以 XST(Extended Sentence Type) 分成陳述句、祈使句、疑問句、

感嘆句、功能句等等類型，並進一步將疑問句分成特殊疑問、一般疑問、選擇疑問、附加疑問、反意疑問、零疑問句型，以 HMM(Hidden-Markov Model)與 NBC (Naïve Bayes Classifier)將口語對話自動進行句型分類，或是以人工編寫句型分類規則，產生主題候選詞後以句型分類來辨識主題。使用 58 組對話紀錄，40 組作為訓練，10 組作為測試，8 組作為開發，其正確率介於 65%~75%之間。

目前的研究以句子為單位抽取主題者較少，而在偵測文章離題時，以文章為抽取主題的單位似嫌過大，無法細部偵測到文章段落的離題。

2.3 離題偵測之相關研究

離題偵測常是自動評分系統的一部份，而最常見的方法便是計算文章全部詞彙出現在高低分文章的比例來偵測離題。例如 E-Rater[Burstein et al., ‘01]系統的用字分析(word usage)是由訓練語料擷取詞頻高的詞彙，評量與高低分文章之間的用字相似度。E-Rater 每年批改 750,000 份 GMAT 作文，與人類批改者之相似率(Agreement)為 97%（總分六級分，與人類批改者相差一級分以內）。

而專門用於評量簡答題的 C-Rater[Leacock and Chodorow, ‘03]則藉由分析回

答的邏輯性(例如正向語氣或者否定語氣)，利用知識本體抽取回答的詞彙概念，

計算有多少概念符合正確答案，以此判斷回答是正確或是已經偏離題目。C-Rater 於五題簡答題共約 100,000 份回答中與人類批改相似率為 80%。

Automark[Mitchell et al., ‘01]則是事先制訂正確與錯誤答案的樣版(scheme template)，利用語句分析器(sentence analyzer)抽取句子的主要詞彙與結構，之後找尋是否有符合模版的結構及概念，以此評量文章是否符合正確答案。Automark 於四題簡答題共 480 份回答中與人類批改者的相關係數(Correlation)為 0.93~

0.96。

在中文作文自動評分系統的離題偵測上，目前也都是以文章的全部詞彙來評量離題，王信智[‘00]利用向量空間表示法(Vector Space Model)計算專家所提供之範本與作文的相似度，其實驗在小學生科學寫作的 36 篇文章中，與人類批改者的相似率(Agreement)約 80%，其特點是未使用任何訓練語料，而是由專家所提供之範本來評量作文。

而詞彙的概念化也用在中文作文合題偵測上，如蔡沛言[‘05]、林信宏[‘06]、

粘志鵬[‘06]等以知網(HowNet) 為工具，計算文章使用詞彙的「義原」次數，觀察義原屬於高分或是低分文章的特徵，再以不同的分類模組來評量文章，得到不錯的效果。

2.4 連貫性評量之相關研究

連貫性問題雖不比離題問題嚴重，但文章的連貫性是作者邏輯條理是否正確的重要指標之一。有 Miltsakaki and Kukichy[‘00] [‘04]以人工方式標記各語句重心，將重心串成一串主題鏈(Topic Chain)，並以重心理論來評價文章的連貫性，

最後將此特徵與 E-rater 結合，可為 E-rater 增加 3%的正確率。但此法尚未提供一重心辨識法，故需仰賴人工標示重心。

另有 Higgins 等人[‘04]利用人工方式先標明句子的角色（如 Introduction、

Main、Conclusion 等），之後標注每一句對題目(Prompt)、主題句(Thesis)、段落 (Segment)的關連、以及有無錯別字等，實驗以 890 篇人工標示的作文為訓練語料，以 SVM (Support Vector Machine)判讀 90 篇作文內的句子對題目、主題句、

段落等的關連性，可得 74%的正確率。此法利用 SVM 判讀每句與題目、主題句等關連性之高低，但需大量訓練語料。

我們的方法則是先使用我們小句重心的辨識策略，再採用 Miltsakaki 等人的方式判讀連貫性，一方面不需有訓練語料，另一方面語句的重心也是自動產生，

並不需仰賴人工標示。

在文檔中中文主題詞辨識與其應用 (頁 16-22)