• 沒有找到結果。

古漢語的語言特徵

二、  相關研究

2.6  古漢語的語言特徵

arg max |      

Perceptron 不像其他參數評估法,擔保必定收斂。但 Collins [32]和 Sha et al. 

[28]  的實驗指出,perceptron 以非常快的速度逼近 global maximum,通常只要 將整個training data 掃過十數個回合,就能得到很好的成果。但是,經過前幾回 合快速地逼近之後,成長速度會大幅衰減,甚至還有可能退步。根據Collins 的 實驗,將每一代的參數平均,作為最終的模型參數,比只取最後一代的參數有更 好效能。這個方法,Collins 便稱之為 averaged parameters,而後又有人稱呼此 版本的perceptron 為  averaged perceptron。在 Sha et al. [28]  的研究中,averaged  perceptron 僅僅訓練兩個回合,shallow parsing 的 F‐measure 已超過 93%,但 再經過許多回合之後,得到最佳的成績是94.09%,成長極微。即使如此,只訓 練兩個回合的成績,其實已經逼近以L‐BFGS 優化,傳統 conditional random fields 的成績(94.38%)。 

 

Collins [32]  的 averaged perceptron 演算法,和 conditional random fields 有相同的機率模型,雖然並不更精確,但實作相對容易,訓練的速度也快,卻又 能達到逼近conditional random fields 的表現。因此,averaged perceptron 在自 然語言社群,受到廣泛的歡迎  [36]。 

 

2.6 古漢語的語言特徵 

清末馬建忠所著的《馬氏文通》,是第一部中文的文法書。馬建忠挪用西洋 拉丁語系的文法概念,分類歸納古漢語的語法,其中,也討論到了句讀的問題,

並整理出一部份粗略的斷句規則。民國初年的語言學家楊樹達,繼馬建忠之後,

建立詞類劃分為中心的體系,研究古漢語語法。其著作《詞詮》  [37],收錄古 書中常用的470 多個虛詞,分門別類,舉例說明用法。楊樹達的另一著作《古 書句讀釋例》  [1]  則以「句讀之事,視之若甚淺,而實則頗難」為由,從「誤 讀的類型」、「誤讀的貽害」、「誤讀的原因」、「特殊的例句」四個層面,舉例探討 句讀錯誤的因素。該書假定讀者預先具備斷句的基礎,講述細微而容易誤讀的案 例。因此,雖然《古書句讀釋例》是斷句的重要知識來源,畢竟無法單憑書中的 條例與片面的規則,建立真正具備斷句能力的rule‐based 系統。 

 

前面介紹了許多種序列標籤化的方法,然而,無論是哪一種方法,都必須從 data 中汲取有意義的特徵(features),利用這些特徵作 training,也利用這些特 徵資訊,為未知的sequence 作 labeling。所以,如果能從  data 中粹取(extraction)

越多特徵,將有助於增進分類器的效能。在本研究中,training data 是一段一段 經過斷句的文字。漢字本身固然可以當作一種特徵,但藉由中文的特性,由漢字 出發,還能找到更多有助於斷句的間接特徵,這些特徵包含聲韻、詞性、對句等。 

以聲韻來說,某些音韻很少連在一起使用,當相鄰兩個字的聲韻屬於這種情 況時,表示這兩個字很可能必需斷開。楊樹達  [1]  提到「因不識古韻而誤讀」,

可知聲韻也是斷句辨識的線索之一。在詞性則有助於分析句子的結構:某些虛詞 常用在句首,如「夫」、「蓋」,而某些常用在句末,如「也」、「矣」,這些都可以 作為斷句的識別符號。對句在古漢語中,有頗高的出現頻率,這種特殊的性質,

也有助於斷句。比如說,當我們發現上下兩段文字的句型結果類似,如「賢者以 其昭昭.使人昭昭.今以其犷犷.使人昭昭」,或者有明顯的詞對,如「堯舜.

性之也.湯武.身之也」(「堯舜」對「湯武」、「性」對「身」。以上兩句出自《孟 子.盡心篇》),都可以從中把句子切為對稱的兩半。 

然而,這些由字面連結出去的間接特徵,都需要相關資料庫的配合,才能附 加到training data 上。目前,台灣大學中國文學系和圖書資訊學系提供線上音韻

字典3,供一般大眾查詢漢字的聲韻,收有中古音、中原音韻、中州音韻、吳語 等幾種聲韻資料,並以反切和擬音等記號標示發音。雖然,這個資料庫並沒有上 古漢語的資訊,但仍然可以借用中古音來作現階段暫時性的材料。至於詞性和對 詞,目前則尚未找到合用的資料庫。雖然有《幼學瓊林》、《馬氏文通》、《高等國 文法》、《詞詮》等包含詞性和對詞資料的書籍,但將紙本文件數位化和結構化需 要人工處理,曠日費時,只能留待將來解決。