• 沒有找到結果。

第六章 實驗結果與分析

6.1 版本比對之實驗結果與分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第六章 實驗結果與分析

我們藉由進行多個版本的比對,提供人文學者再進行研究《全唐詩》時可以看到不同版 本的差異,而我們則利用比對完成的整合版本進行我們的社群網絡分析和詩人的交往詞 彙分析。在本章節我們主要介紹本研究的兩個主題的實驗結果與分析以及介紹我們的詞 彙史實驗。將於 6.1 節介紹版本比對的部分,於 6.2 節介紹社群網絡結果與分析的部分,

於 6.3 節介紹搜尋高相似度的詩歌作品之實驗,於 6.4 節介紹詞彙史之實驗。

6.1 版本比對之實驗結果與分析

在此節將會介紹版本比對部分的結果以及檢驗,於 6.1.1 節介紹實驗語料來源,於 6.1.2 節介紹藉由版本比對去除雜訊之結果。

6.1.1

實驗語料來源

我們所使用的實驗語料為前處理後的《全唐詩》共有四個版本,分別為「中國哲學書電 子化計畫」、「文學 100」、《御定全唐詩》以及「寒泉」。經由我們在 4.1 節的前處理過程,

四個版本的每一首詩歌作品都已我們所規定的格式做儲存。

6.1.2

藉由版本比對去除雜訊之結果

本小節我們檢驗透過版本比對的方法進行各版本的雜訊去除,並討論各種狀況的去除雜 訊方法其效果。

4.1.2 節時所述之方法是將「文學 100」的文字從簡體轉為繁體字時,會產生兩個版 本的簡繁異體字問題,我們利用跟其相近的版本「中國哲學書電子化計畫」與其進行版

37

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

表 6. 2 人工判斷後簡繁異體字表 中國哲學書電子化計畫 文學 100 頻率

裏 裡 4037

熏 薰 237

溪 谿 234

在 4.2.1 節我們介紹用版本比對的方法,去解決版本與版本間的雜訊。第一個雜訊 問題是內容相似的「文學 100」和「中國哲學書電子化計畫」,存在以英文或數字所組合 的兩個字元代表無法呈現的字,但這兩個字元在《御定全唐詩》裡卻可能有相對應的字。

因此我們使用「文學 100」和《御定全唐詩》進行比對,選擇「文學 100」和《御定全 唐詩》的原因,因「文學 100」和「中國哲學書電子化計畫」的兩字元組合通常是一樣 的且在相同位置,而選擇《御定全唐詩》則因為其特別難的輸入字,在「寒泉」版本中 不盡然跟《御定全唐詩》相同,經過考慮後我們選擇使用《御定全唐詩》的版本與「文 學 100」進行比對。

我們記錄二字元組合在《御定全唐詩》中有相對應的字,若是字元組合對應到《御 定全唐詩》詩歌中的相同位置時,被紀錄並非是一個字而只是一個全形空白,我們則不 將這筆比對結果記錄下來。表 6. 3 為字元組合對應到《御定全唐詩》相同位置的字,頻 率有超過 5 的例子,因頻率 5 以下的字元組合筆數過多而沒放入表 6.3。我們能根據所 找出的字表將「文學 100」和「中國哲學書電子化計畫」的英文和數字的字元組合做替 換,替換後的版本若仍存在字元組合未被替換成相對應的字,則統一替換成「 」全形 空白。

39