• 沒有找到結果。

第五章 《全唐詩》的社群網絡分析

5.3 劃分四個唐朝時期的聚焦分析

本。單一時期的《全唐詩》文本,我們使用 bigram[15]找出此時期的二字詞,因《全唐 詩》是一份文言文的文本,透過 bigram 的統計我們能夠計算不常見的二字詞,缺點是 bigram 執行會考慮所有可能,計算上會消耗大量的計算時間。最後我們會分別得到四個 唐朝時期個別的二字詞字表。

而我們所使用的社群網絡視覺化工具為 Gephi[29],因此我們記錄兩位詩人的交往關係 格式,採用能直接讓 Gephi 能讀取的檔案。如表 5.10 所示,Source 為寫詩的人;Target 為 Source 所提及的人;Type 為這個邊是有向或是無向;weight 為這個關係的頻率。

31

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

5.3.4

利用 TF-IDF 分數觀察詩人群體的詞彙差異

在 5.3.3 我們記錄了各個時期社群網絡的邊,有向邊的連結為只有一方單方面提到對方,

無向邊的連結則是兩人會互相提到對方。我們定義兩種分群方法將社群網絡中的詩人做 群體劃分。

方法一:將存在無向邊的節點儲存成為一名單為 L,依序將此名單上的節點作為出 發節點,無向邊有連到的節點加入到一個詩人群體中,如圖 5. 5「白居易」為出發節點,

無向邊所連結的周遭節點,我們將這些跟出發節點相連的詩人節點,組成一個詩人群 體。

表 5.10 中唐的社群網絡 edge 部分內容 Source, Target, Type, ID, label, weight

白居易,元稹,undirected,1, 183, 183 劉禹錫,白居易,undirected,2, 157, 157 韓愈,張籍,direct,3,16,16

白居易

劉禹錫

裴度

圖 5. 4 社群網絡無向邊、有向邊例子

32

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

方法二:群體的規則必須符合 Clique[13],這是一個較強烈密集交往的群體,群體 中每位詩人跟其他詩人都會互相提到對方。我們以名單 L 中的每個節點都作為一個出發 節點,每連結到下一個節點時,先確保此節點跟目前群體內所有節點都有互相提到的紀 錄,若有則將此節點加入此群體,確保此群體符合 Clique 的定義。

我們得到群體列表後,我們想探討各詩人組成的群體間使用詞彙的差異,若是我們 只單純考慮詞彙在單一群體的出現頻率,但事實上有可能此詞彙對於每個群體的頻率都 很高,這樣的情況代表此詞彙並沒辦法很好的將群體差異做區分。因此我們所採用的詞 彙分析方法為 term frequency–inverse document frequency (TF-IDF),TF-IDF 為一種統計 方法,是由 Term Frequency (TF) 公式(2),乘上 Inverse Document Frequency(IDF) 公式 (3) 。𝑛𝑛i,j代表詞彙 i 在文獻 j 中的出現頻率,𝑡𝑡𝑡𝑡𝑖𝑖,𝑗𝑗則計算𝑛𝑛i,j除以所有詞彙在 j 文件下的頻 率總和;𝑖𝑖𝑖𝑖𝑡𝑡𝑖𝑖代表詞彙 i 在 D 所出現的次數取對數,D 為所有文獻的總數目。

𝑡𝑡𝑡𝑡𝑖𝑖,𝑗𝑗= 𝑛𝑛𝑖𝑖,𝑗𝑗

∑ 𝑛𝑛𝑘𝑘 𝑘𝑘,𝑗𝑗 (2)

𝑖𝑖𝑖𝑖𝑡𝑡𝑖𝑖 = log |𝐷𝐷|

��𝑗𝑗: 𝑡𝑡𝑖𝑖 ∈ 𝑖𝑖𝑗𝑗�� (3) 圖 5. 5 以白居易做出發節點的無向邊群體

元稹 裴度

劉禹錫

白居易

33

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

TF-IDF 的統計方法,能評估一個詞彙在一個文件集中的重要程度,而我們的分析 是以各群體來表示 TF-IDF 中的各個文件,藉此評估一個詞彙對各詩人群體的重要程度。

我們選用的詞彙,為單一時期所有詩人的作品內文做 bigram,並取統計結果的詞頻前 250 名作為我們 TF-IDF 中的選用詞彙。