第五章 《全唐詩》的社群網絡分析
5.4 以詞彙共用角度延伸的詩人社群網絡
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
TF-IDF 的統計方法,能評估一個詞彙在一個文件集中的重要程度,而我們的分析 是以各群體來表示 TF-IDF 中的各個文件,藉此評估一個詞彙對各詩人群體的重要程度。
我們選用的詞彙,為單一時期所有詩人的作品內文做 bigram,並取統計結果的詞頻前 250 名作為我們 TF-IDF 中的選用詞彙。
5.4 以詞彙共用角度延伸的詩人社群網絡
我們在做了《全唐詩》作者提到他人的社群網絡後,我們想以另一個角度做出發,研究 另一種觀點的社群網絡。我們以二首詩歌作品的共用詞彙,去探討背後兩位作者的作品 共用詞彙的頻率,進而能建出詞彙共用角度的詩人社群網絡。
我們以下的介紹將於 5.4.1 節介紹如何擷取兩首詩之間的共同詞彙,於 5.4.2 節介紹 建立共用詞彙關係的社群網絡,於 5.4.3 介紹詞彙結合詩人生卒年的分析。
5.4.1
擷取二首詩之共同使用詞彙在《全唐詩》的作品中,我們想找到每首詩與每首詩的共同詞彙,藉由找到的共同詞彙 做進一步的分析。此計算二首詩之共同使用詞彙之原始檔案,為劉昭麟教授所提供,後 續我們再進行格式上的調整以及定義擷取共同詞彙需大於多少詞的二首作品。此共同使 用詞彙的檔案,裡面記錄原詩、對應到的詩和共同使用到的字。表 5.11 為原始檔案的格 式,卷 1_1【帝京篇十首】和卷 1_3【执契静三边】共同使用的詞彙有{文聊、烟、金};
卷 1_1 和卷 19_19【相和歌辞·江南曲】共同使用詞彙為{回, 玳瑁, 连}。
表 5.11 二首詩歌作品使用共同詞彙的例子 卷 1_1 【帝京篇十首】|||卷 1_3 【执契静三边】|||[文聊, 烟, 金]
卷 1_1 【帝京篇十首】|||卷 19_15 【相和歌辞·江南曲】|||[回, 玳瑁, 连]
34
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5.4.2
建立共用詞彙關係的社群網絡我們建立引用關係的社群網絡前,必須先得到兩首詩的作者分別為誰。因此我們透過原 詩和對應詩的卷次編號,從我們的《全唐詩》整合版本中去找出對應到的作者名字。但 先前比對所找出兩首詩的共同詞彙,包含了許多一字詞或相同詞彙數並不多的情況。因 此我們建立一個條件做更有效的選擇,我們限制兩首詩之間的共同詞彙,必須最少包含 兩個二字詞或一個三字詞和一個二字詞以上。這樣的篩選方法會使我們過濾共同詞彙數 過少或只有一字詞的情況。如表 5. 12 所示,第一列依序為卷 1_1 的作者和卷 33_10 的 作者;第二列為符合篩選機制的兩首詩;第三列為共同詞彙。
我們建立的這一檔案中,記錄了兩首詩的共同詞彙以及兩首詩的作者,我們稱這類 使用共同詞彙的二位詩篇作者為對應關係,因此我們可以統計出兩位作者間在這一引用 關係中的頻率。統計出頻率後,因對應關係通常為後人引用前人作品或詩句,我們使用 先前擷取的 CBDB 資料庫唐代人物資訊,以詩人的卒年作為判斷他們誰引用誰的依據,
若是 CBDB 中只有記載此詩人的出生年而沒有死亡年,我們則將此詩人的出生年加上 50。以「白居易」和「李白」為例,「白居易」、「李白」的卒年分別為 846 年和 762 年,
在此例子,我們會判斷是「白居易」引用「李白」的詩句。
表 5. 12 記錄對應關係的格式 李世民, 王維
卷 1_1 【帝京篇十首】|||卷 125_4 【奉和圣制送不蒙都护兼鸿胪卿归安西应制】
[无, 落日, 鸣笳]
35
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
5.4.3
共同詞彙結合對應關係詩人的生卒年分析在 5.4.2 節中我們介紹到我們利用 CBDB 中記載的詩人生卒年,來判斷詞彙使用的先後 順序。在這小節中我們透過建立好的對應關係檔案,以詞彙的角度做出發,觀察對應關 係中詞彙的時間序列。
我們的對應關係檔案紀錄方式如表 5. 12,我們先找出每首詩第一列兩位詩人在 CBDB 中記載的生卒年,再將此對應關係第三列出現的詞彙標記兩個詩人的年份,但我 們只標記最少為二字詞以上的詞彙,如表 5. 13 標記二字詞「落日」的範例,分別標記 王維和李世民的生卒年。透過這樣的標記方式,我們能知道每個詞彙在時間序列中有那 些詩人使用此詞彙以及有多少人在使用此詞彙,最後再將此標記結果利用 Google Chart 工具視覺化。
表 5. 13 詞彙標記時間範例
"落日","王維", new Date(701,0,0), new Date(761,0,0)
"落日","李世民", new Date(599,0,0), new Date(649,0,0)
36