• 沒有找到結果。

語言特徵的選擇與文本向量建立

3.1 資料前處理

3.1.2 語言特徵的選擇與文本向量建立

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

表 3.2:同作者不同類型,雷震 3 種類型文本篇數與詞彙數

文本類型 文本篇數 平均詞數 備註

社論 29 2193

文章 61 5234 包含筆名原之道

日記 30 41114 1 年 1 篇,共 30 篇

表 3.3:兩個研究方向下向量空間母體對應的文本、篇數及總詞彙數

文本 篇數 總詞彙數

自由中國(非文藝類) 3157 8236941

雷震日記(1948~1960) 3649 627464 雷震日記(1961~1970) 4208 459489 雷震日記(1971~1977) 1587 146480

3.1.2 語言特徵的選擇與文本向量建立

為了選擇有意義的語言特徵作為文本向量的詞組,我們參考語言學家研究後提出 3 種在文本使用可能具有作者間或題材間差異的語言特徵。詞性組合為 n-grams 的子 集合,而我們所要觀測特定詞性組合如名詞+名詞、名詞+動詞、形容詞+名詞及副 詞+動詞[31]。這些詞性組合在一般文本使用頻率上相當高,且都能看出個人特徵,

而我們也會避免採用儘管符合條件但沒有意義的組合,如名詞+名詞底下的數詞+

量詞或是副詞開頭為「的(DE)」等,表 3.4~3.7 為詞性組合中所採納的詞性,以確 保找出的結果具情境性。否定詞與程度詞+複數任意詞組合都是在既有詞組前賦予

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

21

相反或比較的意義,因為這類詞彙意思大多一樣且數量也多,可以從此看出作者或 主題間使用上的差異,後續的任意詞數目選擇最多 2 個,在這範圍下比較能看出 完整架構,像是「最(Dfa)重要(VH)」與「最(Dfa)重要(VH)的(DE)」。否定詞我們依 照《自由中國》內文本使用頻率,選擇「未」、「無」、「非」、「不」及「沒」這 5 個 常見的作為詞性組合的開頭。程度詞則採用丁聲樹[32] 、朱德熙[33]、劉月華[34]、

李泉[35] 及張誼生[36] 5 位學者發表的程度副詞集合,取最少出現在 3 位學者的程 度副詞作為我們研究程度詞組合的開頭詞彙共 22 種。情態詞+動詞中的情態詞集 合,我們採用謝佳玲[37]在比較漢語與英文情態詞後建立的漢語情態詞系統,無視 各情態詞用法及語境分類下直接採用可能詞彙共 319 個,表 3.8 為否定組合、程度 組合及情態詞組合所採納的詞組。另外,我們也找了 3 個作者歸屬中常用的語言 特徵作為輔助比較:詞彙出現頻率、標點符號及 n-grams,3 者詞組也皆為選擇出 現次數並由大至小排序。詞彙單純統計文本中的各詞彙出現次數,標點符號也是統 計出現頻率,n-grams 則是觀察兩個詞彙組合及三個詞性組合的出現分布。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

22

表 3.4:詞性組合中所採納 CKIP 的名詞詞性標記

簡化標記 對應的 CKIP 詞類標記 備註

Na Naa, Nab, Nac, Nad, Naea, Naeb /*普通名詞*/

Nb Nba, Nbc /*專有名稱*/

Nc Nca, Ncb, Ncc, Nce /*地方詞*/

Ncd Ncda, Ncdb /*位置詞*/ 字數大於1 Nd Ndaa, Ndab, Ndc, Ndd /*時間詞*/

Nv Nv1,Nv2,Nv3,Nv4 /*名物化動詞*/

表 3.5:詞性組合中所採納 CKIP 的副詞詞性標記 簡化標記 對應的 CKIP 詞類標記

Da Daa /*數量副詞*/

Dfa Dfa /*動詞前程度副詞*/

Dfb Dfb /*動詞後程度副詞*/

Di Di /*時態標記*/

Dk Dk /*句副詞*/

D Dab, Dbaa, Dbab, Dbb, Dbc, Dc, Dd, Dg, Dh, Dj

/*副詞*/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

23

表 3.6:詞性組合中所採納 CKIP 的動詞詞性標記 簡化標記 對應的 CKIP 詞類標記

VA VA11,12,13,VA3,VA4 /*動作不及物動詞*/

VAC VA2 /*動作使動動詞*/

VB VB11,12,VB2 /*動作類及物動詞*/

VC VC2, VC31,32,33 /*動作及物動詞*/

VCL VC1 /*動作接地方賓語動詞*/

VD VD1, VD2 /*雙賓動詞*/

VE VE11, VE12, VE2 /*動作句賓動詞*/

VF VF1, VF2 /*動作謂賓動詞*/

VG VG1, VG2 /*分類動詞*/

VH VH11,12,13,14,15,17,VH21 /*狀態不及物動詞*/

VHC VH16, VH22 /*狀態使動動詞/

VI VI1,2,3 /*狀態類及物動詞*/

VJ VJ1,2,3 /*狀態及物動詞*/

VK VK1,2 /*狀態句賓動詞*/

VL VL1,2,3,4 /*狀態謂賓動詞*/

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

圖 3.2:使用高頻詞建立雷震文本的向量流程

文本向量的維度採用本論文提出的 3 種語言特徵以及常用的語言特徵 3 種,

但為了要建立文本間一致的比較基準,我們必須先尋找建立文本向量的母體,也就 各研究方向下的文本集合。母體我們選擇「同主題不同作者」《自由中國》非文藝 類所有文章,及「同作者不同類型」雷震發表在《自由中國》的文章社論及雷震日 記作為向量空間提取特徵詞組的母體。如果我們想要建立某個文本在某個語言特 徵下的文本向量時,我們會先從母體找出該語言特徵下按照出現次數排序前 N 個 作為文本向量的詞組,再觀察這 N 個詞組在某個文本中的出現狀況,最後該文本 會得到 N 維且數值為詞組出現頻率的向量。N 的維度越大雖然分類效果越好,但 太大也會在分類過程浪費不必要的資源,本研究 N 的數值選擇一般向量空間模型 的基礎維度值 100,也就是建立的文本向量為 100 維。圖 3.3 詳細說明了建立流程,

透過在「同主題不同作者」及「同作者不同類型」中的母體,我們得到各自對應於 語言特徵的特徵維度,最後找出各類別文本在這維度下詞組的出現頻率,轉換成新 的文本向量。舉例來說,「同主題不同作者」的母體是《自由中國》非文藝類文章,

語言特徵為高頻詞,於是我們就尋找在母體出現頻率前 100 個的詞彙作為該向量 空間模型的基準,若語言特徵為本研究提出的語言特徵如名詞+名詞等,則是尋找

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

26

符合篩選條件的組合,以符合條件的前 100 個詞組作為基準特徵。當雷震有篇已 斷詞文章輸入時,模型會找出文章內各個維度對應的詞組數目作為該維度的數值,

最後得到該文本的向量,每個維度為該維度詞組在文本出現頻率。整體轉換結束後,

每個類別的文本都會得到不同語言特徵建構而成的文本向量。但因為每個文本詞 數不同使得文本向量無法有效比較,所以必須透過正規化的步驟才能在比較時有 個基準點。正規化後每個維度的數值計算採用相對次數,也就是該詞組出現在該文 本次數轉換每百萬詞出現次數。公式 3.1 為詞組相對頻率計算方式,TF 為該詞組 在文本中出現的次數,D 代表整個文本中詞彙總出現次數,最後會得到相對頻率 RF。有了 RF,我們就能不受文本大小限制下比對不同文本向量。

RF = 𝑇𝐹 × 1,000,000 𝐷

公式 3.1:相對頻率計算方式

表 3.8 為 3.1 節資料前處理的總結,統整了不同研究方向下參數及語言特徵的 選擇:各研究方向各自所要觀察的對象以及選擇的文本範圍、語言特徵使用的母體 為何及選擇哪些語言特徵。有了研究文本、基準母體及語言特徵,我們就能透過向 量空間模型將文本轉換為文本向量,後續就能利用電腦內的分類模型進行分類評 估及文本間的差異詞組尋找。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

表 3.8:不同研究方向下的參數及語言特徵選擇