劃分四個唐朝時期的聚焦分析 - 《全唐詩》的社群網絡分析 - 《全唐詩》的初步分析：版本比對、詩歌對應與社群網絡

第五章《全唐詩》的社群網絡分析

5.3 劃分四個唐朝時期的聚焦分析

‧

本。單一時期的《全唐詩》文本，我們使用 bigram[15]找出此時期的二字詞，因《全唐詩》是一份文言文的文本，透過 bigram 的統計我們能夠計算不常見的二字詞，缺點是 bigram 執行會考慮所有可能，計算上會消耗大量的計算時間。最後我們會分別得到四個唐朝時期個別的二字詞字表。

‧

而我們所使用的社群網絡視覺化工具為 Gephi[29]，因此我們記錄兩位詩人的交往關係格式，採用能直接讓 Gephi 能讀取的檔案。如表 5.10 所示，Source 為寫詩的人；Target 為 Source 所提及的人；Type 為這個邊是有向或是無向；weight 為這個關係的頻率。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

5.3.4

利用 TF-IDF 分數觀察詩人群體的詞彙差異

在 5.3.3 我們記錄了各個時期社群網絡的邊，有向邊的連結為只有一方單方面提到對方，

無向邊的連結則是兩人會互相提到對方。我們定義兩種分群方法將社群網絡中的詩人做群體劃分。

方法一：將存在無向邊的節點儲存成為一名單為 L，依序將此名單上的節點作為出發節點，無向邊有連到的節點加入到一個詩人群體中，如圖 5. 5「白居易」為出發節點，

無向邊所連結的周遭節點，我們將這些跟出發節點相連的詩人節點，組成一個詩人群體。

表 5.10 中唐的社群網絡 edge 部分內容 Source, Target, Type, ID, label, weight

白居易,元稹,undirected,1, 183, 183 劉禹錫,白居易,undirected,2, 157, 157 韓愈,張籍,direct,3,16,16

白居易

劉禹錫

裴度

圖 5. 4 社群網絡無向邊、有向邊例子

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

方法二：群體的規則必須符合 Clique[13]，這是一個較強烈密集交往的群體，群體中每位詩人跟其他詩人都會互相提到對方。我們以名單 L 中的每個節點都作為一個出發節點，每連結到下一個節點時，先確保此節點跟目前群體內所有節點都有互相提到的紀錄，若有則將此節點加入此群體，確保此群體符合 Clique 的定義。

我們得到群體列表後，我們想探討各詩人組成的群體間使用詞彙的差異，若是我們只單純考慮詞彙在單一群體的出現頻率，但事實上有可能此詞彙對於每個群體的頻率都很高，這樣的情況代表此詞彙並沒辦法很好的將群體差異做區分。因此我們所採用的詞彙分析方法為 term frequency–inverse document frequency (TF-IDF)，TF-IDF 為一種統計方法，是由 Term Frequency (TF) 公式(2)，乘上 Inverse Document Frequency(IDF) 公式 (3) 。𝑛𝑛_i,j代表詞彙 i 在文獻 j 中的出現頻率，𝑡𝑡𝑡𝑡_{𝑖𝑖,𝑗𝑗}則計算𝑛𝑛_i,j除以所有詞彙在 j 文件下的頻率總和；𝑖𝑖𝑖𝑖𝑡𝑡_𝑖𝑖代表詞彙 i 在 D 所出現的次數取對數，D 為所有文獻的總數目。

𝑡𝑡𝑡𝑡𝑖𝑖,𝑗𝑗= 𝑛𝑛𝑖𝑖,𝑗𝑗

∑ 𝑛𝑛_𝑘𝑘 _{𝑘𝑘,𝑗𝑗} (2)

𝑖𝑖𝑖𝑖𝑡𝑡_𝑖𝑖 = log |𝐷𝐷|

��𝑗𝑗: 𝑡𝑡_𝑖𝑖 ∈ 𝑖𝑖_𝑗𝑗�� (3) 圖 5. 5 以白居易做出發節點的無向邊群體

元稹裴度

劉禹錫

白居易

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

TF-IDF 的統計方法，能評估一個詞彙在一個文件集中的重要程度，而我們的分析是以各群體來表示 TF-IDF 中的各個文件，藉此評估一個詞彙對各詩人群體的重要程度。

我們選用的詞彙，為單一時期所有詩人的作品內文做 bigram，並取統計結果的詞頻前 250 名作為我們 TF-IDF 中的選用詞彙。

在文檔中《全唐詩》的初步分析：版本比對、詩歌對應與社群網絡 - 政大學術集成 (頁 50-55)

劃分四個唐朝時期的聚焦分析

第五章 《全唐詩》的社群網絡分析

5.3 劃分四個唐朝時期的聚焦分析

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

5.3.4

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第五章《全唐詩》的社群網絡分析

立政治大學

立政治大學

立政治大學