在本章節中,我們將探討國內外關於主題辨識的研究,而我們的後續應用是 將主題辨識應用在學生作文的離題偵測(Off-topic Detection)與連貫性評量
(Coherence Evaluation)上,因此在本章當中也將介紹關於離題偵測與連貫性評量 方面自動作文評分系統的相關研究。
2.1 主題定義
我們認為中文所指的主題(Topic),即是一個語篇片段的重心。這個片段可以 是整篇文章、或是文章中的長句、小句,端賴研究者依照需求而定。例如以文章 為單位者,Makkonen 等[‘04]將主題視為是事件(Event),可由人、事物、時、地 等元素構成主題。以語段為單位定義主題者,曹逢甫[‘95]認為中文是一種語段取 向的語言,主題必須要依據語段才能決定。而以語句為單位者,Li and Thompson [‘81]認為中文是一個「主題明顯」(Topic- Prominence)的語言,即語句都必須含 有一個不可或缺的元素——「主題」, Yeh and Chen[‘04]認為主題是「主詞的具 現化」(Reification of subject in the real world),且一個語句的主題總是出現在語句 前面。如下例:
例 1:電子股受美國高科技股重挫影響,持續下跌。
徐為群等[‘04]則認為中文的「主題」可概括定義為:「說話者所關注的顯著語 意實體 (Salient Semantic Entity, SSE)」,此與重心理論(Centering Theory)[Grosz et al., ‘95]的重心(Center)定義是相似的。重心理論當中重心的定義,是一個詞彙於 語句(Utterance)當中,構成這個語句與其他語句之間的連結,則此詞彙稱之為這 個語句的重心,通常重心也被稱為是主題(Topic)或者是注意中心(Focus)
[Miltsakaki and Kukichy, ‘00]。如下例:
例 2:世界各國競相在中國投資設廠,中國儼然成為全球重要生產國之一。
上述對主題的定義都傾向於選取名詞為主題,因此我們在選取主題詞時也以 名詞為主,名物化動詞為輔來挑選主題。
2.2 主題辨識之相關研究
選取主題的基本方法可分為下列幾種,第一種是最簡單的方法,直接擷取詞 頻最高者。第二種則是將第一種方法加以權重計算,例如以 TFIDF 計算權重並 擷取權重最高者。第三種是利用知識本體(如 WordNet 的詞彙概念辭典)擷取 頻率最高的語義概念當成主題。
我們將目前的研究依擷取主題的單位分成多篇文章、單一文章、單一句子 三類來介紹,目前大部分的研究都是以文章為單位抽取重要的詞彙,做為文章的 主題,較少以句子作為抽取主題的單位。
2.2.1 多篇文章之主題辨識研究
以多篇文章為單位來擷取主題的方法,有使用 TFPDF(Term Frequency- Proportional Document Frequency)法計算詞彙權重從而抽取主題[Khoo and
Ishizuka, ‘02],另外也有使用詞彙頻率並加上同義詞與使用 LSI (Latent Semantic Indexing)以構成詞彙群組,計算詞彙的重要性並抽取詞彙作為主題[Lin ’04]。以 及使用概念地圖(Concept Map)的方式,將詞彙先對應至概念地圖,之後計算地圖 之間的相似度構成地圖類別,從地圖類別產生初始的第一代主題後,以搜尋引擎 搜尋主題,並將傳回的網頁以 SVD(Singular Value Decomposition)計算產生第二 代的主題,如此反復計算直至主題不再變動或者代數已超過某一門檻為止[Leake et al., ‘03]。這些方法的目的是在於事前並不知道文章群聚在一起的原因,而想 找出這些文章共同的主題,而當新文章出現時,也可利用找出的主題判斷新文章 是否屬於這個文章聚落。
2.2.2 單一文章之主題辨識研究
在單一文章的主題偵測上,可利用 WordNet 將詞彙概念化及權重評量,取 每個概念出現頻率,乘以其權重後取其最高者當成主題[Tiun et al., ‘01]。實驗則 從 Yahoo 的商業與經濟目錄中擷取 109 個分類與 202 篇網頁,可將 202 篇 Yahoo 網頁以此法擷取主題後分類至其適當的目錄中,正確率可達 69.8%。
除了利用 WordNet 將詞彙概念化外,也可再加以權重計算,如以 TFIDF 與 詞彙所在段落的位置(如標題、第一段、第二段等等),以及詞彙前有無關鍵詞
(如 in summary, in conclusion 等關鍵詞)計算詞彙的權重,以此抽取文章的主題 [Lin, ‘98]。韓客松等[‘00]則在計算詞彙的權重上,考慮了詞彙的位置、長度、詞 性標記三個層面,依照詞彙不同的位置設定不同權重,以及越長的詞彙代表資訊 含量越多,並且將名詞權重設定最高,名物化動詞次之,其餘虛詞等等權重最低,
最後抽取權重最高的數個詞彙代表文本的主題。其以 58 篇文章作為測試,每篇 分別以取 3~9 主題詞計算其主題正確率與召回率,在每篇取 9 個主題詞的情形之 下可以達到 69%的正確率與 67%的召回率。
而以機率模型取文章主題者,可將文章與主題當成節點(Node),設文章內每 個詞彙的出現均為獨立事件,計算詞彙可能的主題機率,最後加總文章內的詞彙 對應主題之機率,作為文章與主題節點相連的機率,從而抽取文章之主題[Chang et al., ‘02]。
有別於以詞彙權重的挑選方式,文章主題也可用含有「人、事物、時、地」
的「事件」來呈現[Makkonen et al. ’04],並將此應用於新聞的主題辨識上。此法 在使用 4000 篇新聞作為訓練語料、4000 篇新聞作為測試語料時,偵測主題的正 確率為 86.36%,召回率為 57.58%。
2.2.3 單一句子之主題辨識研究
在句子的主題辨識上,Grosz 等人[‘95]所提出的重心理論(Centering Theory) 是一個相當著名的辨識模型,它依照兩兩相鄰句子間的重心候選詞重複與否來判 斷句子的重心。而 Yeh and Chen [‘04]將零指代(Zero Anaphora)消解應用在主題辨 識上,利用淺層剖析器(Shallow Parser)將句子的主語、賓語、與其他詞彙分辨出 來,並以零指代消解之後的先行詞視為主題,其主題之決定順序為主題>主語>
賓語>其他詞彙。
另外尚有以句型分類方式辨別句子主題,如徐為群等[‘04]將口語(聊天室 的對話)句型以 XST(Extended Sentence Type) 分成陳述句、祈使句、疑問句、
感嘆句、功能句等等類型,並進一步將疑問句分成特殊疑問、一般疑問、選擇疑 問、附加疑問、反意疑問、零疑問句型,以 HMM(Hidden-Markov Model)與 NBC (Naïve Bayes Classifier)將口語對話自動進行句型分類,或是以人工編寫句型分類 規則,產生主題候選詞後以句型分類來辨識主題。使用 58 組對話紀錄,40 組作 為訓練,10 組作為測試,8 組作為開發,其正確率介於 65%~75%之間。
目前的研究以句子為單位抽取主題者較少,而在偵測文章離題時,以文章 為抽取主題的單位似嫌過大,無法細部偵測到文章段落的離題。
2.3 離題偵測之相關研究
離題偵測常是自動評分系統的一部份,而最常見的方法便是計算文章全部詞 彙出現在高低分文章的比例來偵測離題。例如 E-Rater[Burstein et al., ‘01]系統的 用字分析(word usage)是由訓練語料擷取詞頻高的詞彙,評量與高低分文章之間 的用字相似度。E-Rater 每年批改 750,000 份 GMAT 作文,與人類批改者之相似 率(Agreement)為 97%(總分六級分,與人類批改者相差一級分以內)。
而專門用於評量簡答題的 C-Rater[Leacock and Chodorow, ‘03]則藉由分析回
答的邏輯性(例如正向語氣或者否定語氣),利用知識本體抽取回答的詞彙概念,
計算有多少概念符合正確答案,以此判斷回答是正確或是已經偏離題目。C-Rater 於五題簡答題共約 100,000 份回答中與人類批改相似率為 80%。
Automark[Mitchell et al., ‘01]則是事先制訂正確與錯誤答案的樣版(scheme template),利用語句分析器(sentence analyzer)抽取句子的主要詞彙與結構,之後 找尋是否有符合模版的結構及概念,以此評量文章是否符合正確答案。Automark 於四題簡答題共 480 份回答中與人類批改者的相關係數(Correlation)為 0.93~
0.96。
在中文作文自動評分系統的離題偵測上,目前也都是以文章的全部詞彙來評 量離題,王信智[‘00]利用向量空間表示法(Vector Space Model)計算專家所提供之 範本與作文的相似度,其實驗在小學生科學寫作的 36 篇文章中,與人類批改者 的相似率(Agreement)約 80%,其特點是未使用任何訓練語料,而是由專家所提 供之範本來評量作文。
而詞彙的概念化也用在中文作文合題偵測上,如蔡沛言[‘05]、林信宏[‘06]、
粘志鵬[‘06]等以知網(HowNet) 為工具,計算文章使用詞彙的「義原」次數,觀 察義原屬於高分或是低分文章的特徵,再以不同的分類模組來評量文章,得到不 錯的效果。
2.4 連貫性評量之相關研究
連貫性問題雖不比離題問題嚴重,但文章的連貫性是作者邏輯條理是否正確 的重要指標之一。有 Miltsakaki and Kukichy[‘00] [‘04]以人工方式標記各語句重 心,將重心串成一串主題鏈(Topic Chain),並以重心理論來評價文章的連貫性,
最後將此特徵與 E-rater 結合,可為 E-rater 增加 3%的正確率。但此法尚未提供 一重心辨識法,故需仰賴人工標示重心。
另有 Higgins 等人[‘04]利用人工方式先標明句子的角色(如 Introduction、
Main、Conclusion 等),之後標注每一句對題目(Prompt)、主題句(Thesis)、段落 (Segment)的關連、以及有無錯別字等,實驗以 890 篇人工標示的作文為訓練語 料,以 SVM (Support Vector Machine)判讀 90 篇作文內的句子對題目、主題句、
段落等的關連性,可得 74%的正確率。此法利用 SVM 判讀每句與題目、主題句 等關連性之高低,但需大量訓練語料。
我們的方法則是先使用我們小句重心的辨識策略,再採用 Miltsakaki 等人的 方式判讀連貫性,一方面不需有訓練語料,另一方面語句的重心也是自動產生,
並不需仰賴人工標示。