Datasets

三、系統設計

3.2 Datasets

3.2.1 語料選擇

古漢語（Classical Chinese）依據時代，細分為上古漢語（Old Chinese、Archaic Chinese）、中古漢語（Middle Chinese）、近代漢語（Proto‐Mandarin）。所謂上古漢語，包含了商朝到西漢數百年之間的漢語。這個時期的漢語文本，字句較短，

結構單純，多以單字詞為主。我以這些因素為考量，而先鎖定上古漢語的文本，

作為古漢語斷句研究的處理對象。

在上古漢語中，《論語》、《孟子》、《莊子》、《春秋三傳》這些籍典具有代表性的地位，可以說是上古漢語的範本。《論語》記載孔子和弟子的語錄，內容全以對話的方式呈現。《孟子》結構類似《論文》，以對話為主，但夾雜敘事，篇幅較《論語》為長。《春秋三傳》是《左傳》、《公羊傳》、《穀梁傳》的合稱，《公羊傳》、《穀梁傳》以解釋《春秋》經文為主，《左傳》則以記敘經文中相應的事件為主 [38]。其中以《左傳》最為重要，篇幅也最長。《左傳》分為「經」與「傳」

兩個部份，每一段春秋經文隨接一段「傳」，解釋經文的內容，「經」、「傳」循環接替。「經」的部份用字精省，按照「年．時節．月．日．事件」的體裁記事。

而「傳」的部份沒有固定的格式，但敘事仍然相當簡練，文字純淨典雅。《莊子》

以敘事為主，由一篇篇寓言故事構成，語言奇麗，跌宕不羈，是中國文學上的奇葩，同時也是現今最受中外矚目的上古漢語作品，因此也很合適納入斷句研究的 datasets。此外，《史記》是中國第一部紀傳體通史，描寫人物深刻，敘述事件精彩，把歷史寫得像故事一樣生動 [39]，是漢語文本中，寫人敘事的典範。同時篇幅既長，卷帙浩繁，共計一百三十篇，五十餘萬字，可以視為一套鉅量的古漢

語語料庫，作為斷句系統的dataset，有很高的價值。

在上古漢語之外，我們和台灣大學資訊工程系數位典藏與自動推論實驗室合作，得到一批清代的奏摺 [40]。這批奏摺有一部份，目前已經過數位化和斷句標點的整理，但仍有一大部份尚未處理。所以，本研究也將這些已經斷句標點的奏摺文文，作為dataset，以實驗斷句系統面對不同時代、不同格式的文本，是否依然適用，並比較其中的異同，深入了解斷句模型的特性。並將探討如何針對清代奏摺調整斷句系統，以期實際應用在數位典藏的工作上。

3.2.2 資料蒐集與處理

我所選定的文本，除了清代奏摺之外，都能在中央研究院歷史語言研究所的

〈漢籍電子文獻資料庫〉中，找到經過嚴謹處理，精工校對，並已加上標點符號的優良版本。⁵ 這些文本雖然公開在網站上，但只能以小節或段為單位，分段閱讀，不能直接下載全文。為了快速的下載資料，我撰寫工具程式，擷取網站上的全文。但從網頁上抓取的資料原始檔，充滿了許多HTML 標籤等雜訊，為此，

又撰寫了另一支程式清理。最後，我將清理好的文本，以原文的最小分隔單位「段」

為單位，以一段為一筆資料，存入資料庫。

在原文中，「段」的長度有很大的出入。有的段非常短，如《孟子．盡心上》

中的：

孟子曰．人不可以無恥．無恥之恥．無恥矣．

扣除斷句符號，只有十六個字。但同樣是《孟子》裡的段落，有的卻很長，

如〈滕文公上〉的第四篇，扣除斷句符號之後，尚有1117 個字。由於段落是古

文原典裡，最小的切分單位，所以為了模擬斷句的真實情境，我也以原典的段落，

作為我的dataset 資料單位，dataset 裡的每一筆 entry，就是原典上的一段。

《史記》分為〈本紀〉、〈表〉、〈書〉、〈世家〉、〈列傳〉五個主題，由於其中

〈表〉的部份，以表格的方式，排列歷史事件的次序，而沒有落段的結構。所以，

我在建立dataset 時，將〈表〉的內容省略。除此之外，其他先秦兩漢的文本，

都是全文收錄。

古籍中有許多特殊的字型，超出Big‐5 字碼集。儘管我已經使用 Unicode 編碼（UTF‐8 格式）來儲存資料，但仍有不少罕見字不在 Unicode 標準之中，在〈漢籍電子文獻資料庫〉中，也僅以圖片顯示，或甚至缺字。對於這樣的問題，由於少見字出現機會少，原不足以對統計式的斷句模型造成太大的影響，所以我以雜訊（noise）看待，直接忽略那些少見字，而不做額外補救。

除此之外，中央研究院歷史語言研究所的〈漢籍電子文獻資料庫〉追求嚴謹，

對於脫字或有存疑的字，並不套用常見校本的選字，而用問號標記，或以括號夾註。這些額外的訊息，人類閱讀不成障礙，但對自動化斷句系統而言卻是干擾。

為此，我以人工的方式校對，找出所有存疑的文字，再參考其他數位化的版本⁶，以最常用的字取代。雖然所參考的版本，不如中研院版嚴謹可靠、有憑有據，但畢竟脫字與疑字也是少數的情況，即使參考的版本有差錯，也不易影響斷句系統的表現。

台灣大學資訊工程系數位典藏與自動推論實驗室所提供的清代奏摺語料，其中經過斷句標點的奏摺，計有12,721 件，總字數超過 100 萬字，頗有份量。這批文件同樣也有脫字、疑字、夾註的情況，在此，我將有雜訊的奏摺濾除，得到 11,072 件完整無疑義的奏摺，再按照文件的格式，除去檔頭資訊，將一整篇奏

6 主要參考裴明龍所編之《錦繡中華之一頁》（http://www.chinapage.com）以及維基文庫

（http://zh.wikisource.org）所收錄的文本。

摺依段落為單位，一段一段個別儲存。最後，從中隨機取出1000 個段落，共計 111,739 字，約佔所有的奏摺的十分之一，作為清代奏摺的 dataset。

表格 2 Dataset 的統計資料

Dataset 年代段落數總字數用字數子句數平均段落長數平均子句長度

《論語》戰國 500 15,982 1,368 4,015 31.964 3.981

《孟子》戰國末期 260 35,392 1,916 7,351 136.123 4.815

《莊子》戰國至西漢 1,128 65,165 2,936 12,574 57.770 5.183

《春秋左傳》春秋至戰國 3,381 195,983 3,238 47,281 57.966 4.145

《春秋公羊傳》戰國 1,804 44,352 1,638 11,151 24.585 3.977

《春秋穀梁傳》戰國至西漢 1,801 40,711 1,585 10,946 22.605 3.719

《史記》西漢 4,778 503,890 4,788 99,792 105.460 5.049 清代奏摺清 1,000 111,739 3,147 15,521 111.739 7.199 上古漢語混合先秦至西漢 1,250 97,476 3,489 20,573 77.981 4.738

本研究所採用的dataset，整理於表格 2，並列出基本的統計資料。如表格 2 所示，本研究總共採用了9 款 dataset。前 8 款 dataset 已經在前文介紹，而「上古漢語混合」是從《論語》、《孟子》、《莊子》、《春秋左傳》、《史記》五部上古漢語典籍中，各隨機取出250 個段落，混合而成。

表中的「總字數」，是dataset 全文，扣除標點符號和夾註等雜訊之後的字數總合。「用字數」則是曾在文本出現的漢字的種類數。「子句數」，就是文本經過斷句之後，所斷出來的「子句」和「短句」個數。從統計資料來看，隨著年代推進，平均子句長度確有增加。上古漢語的文本，平均四到五個字一斷，而清代奏摺則明顯增加到平均七字一斷。在字數方面，《史記》字數最多，超過50 萬字，

其次是《春秋左傳》，逼近20 萬字。一般來說，training data 越大，涵蓋的字數越多，訓練出來的模型會有越好的效能。

在文檔中以序列標記方法解決古漢語斷句問題 (頁 45-49)

三、 系統設計

3.2 Datasets

3.2 Datasets

三、系統設計