• 沒有找到結果。

第三章 《新青年》雜誌文本初探

第一節 《新青年》用字變化分析

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

第三章《新青年》雜誌文本初探

《新青年》雜誌創刊於 1915 年,至 1926 年終刊,共發行 11 卷,63 期,1444 篇文章,詳見附表 1。因為《新青年》雜誌是我們展示利用 EDA 思想探索文本 語言變化的一個案例,我們需要從最通用的角度來量化該文本,才能將這種方法 套用在其它文本上。以不涉及文本的內容為前提,我們尋找文本共有的並能互相 區別的特徵。這些特徵,可以從文本用字特徵(包括文章總字數、不同字彙數、

常用虛字使用等)、用句特徵(文章總句子數、文章平均句子長度等)、常用字詞 特徵等方面去量化一個文本。有了這些特徵,我們可以從最基本的方面去考察文 本語言的變化。由於這些特徵,在其它文本中也能夠輕易提取,因此本研究案例 所選變數具有較強適用性。

第一節 《新青年》用字變化分析

(1)文章字彙數變化

經過統計,可得《新青年》各卷總字數和各卷使用的不同字個數如附表 2,

變化狀況可見圖 3-1。該雜誌從第 1 卷至第 7 卷文章總字數不斷上升,而各卷內 所使用不同字個數卻是不斷下降的,由此可見第 1 卷至 7 卷所使用的字彙數在不 斷下降,亦即字彙豐富程度逐卷遞降。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-1 《新青年》各卷文章總字數和不同字個數

根據以上觀察到的現象,本文統計各卷一定長度的文本出現不同字的個數,

希望進一步對其佐證。此處之所以選擇一定長度的文本,是擔心文本長度會對不 同字個數產生影響。具體做法是,將各卷卷內文本連接起來,隨機選取一千字和 一萬字的文本各 10,000 次,並統計出現不同字的個數。例如,第 1 卷所有文章 連起來的文本長度共有 248833 個字,若要隨機選取一千字文本,則只要在扣除 文本末尾 999 個字後剩下的 247834 個字裏,以隨機方式選擇其中一個字作為一 千字文本的起點,向後數 999 個字作為一千字文本的終點,再計算這一千字文本 出現不同字的個數,如此重複操作計算 10,000 次。將各卷一千字和一萬字文本 出現的不同字個數進行統計,整理如附表 3、4,其中,各卷千字和萬字不同字 個數的中位數和 95%信賴區間可參考圖 3-2。由圖 3-2 可知,不論以千字或是萬 字為測量單位,第 1 卷到第 11 卷所用到的不同字個數整體上都是下降。其中,

第 1 卷至第 7 卷不同字個數保持勻速下降,說明這一段時期《新青年》語言可能

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

經歷一個循序漸進的變化時期;而第 7 卷後,不再遵循前面的變化規律,語言可 能又經歷另一種改變。

圖 3-2 《新青年》各卷千字和萬字的不同字個數

(2)新字出現頻率

此外,為了更加詳細了解 1 到 11 卷字彙使用特點,統計各卷每增加千字,

出現新詞的累積個數(如圖 3-3),不論哪一卷,隨著字數的增加,出現新字的頻 率速度會減慢。而對比所有 11 卷,可以發現,《新青年》雜誌越靠後的卷次出現 新字速度越慢。此外,從曲線接近程度可約略看出語言的接近程度,如第 1 卷~

第 3 卷、第 7 卷~第 9 卷,以及第 10 卷~第 11 卷。整體上,這 11 卷的語言變 化方向一致,既經歷緩慢的變化,又經歷快速的變化。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-3 《新青年》各卷出現新字的速度變化

(3)《新青年》用字分布情況

Simpson 指數(Simpson, 1949)和 Entropy(Shannon and Weaver ,1948)常常被 用作反映生態環境中物種的分布狀況(何立行等人,2014)。本文引入這兩個概 念,用以反映語言文字使用的分布狀況。假設 n 為某卷文章總字數,pi 第 i 個字 被使用次數佔某卷文章總字數的比例,則 Simpson Index=∑ pn i2

i=1 可以刻畫各卷 用字的集中程度(越接近 1,表示越集中),Entropy=− ∑ pni=1 ilogpi(越偏离 0,

表示越分散)則可以描繪用字的分散程度。附表 2 列出了各卷所有字的 Simpson Index 和 Entropy,圖 3-4 分別是各卷 Simpson Index 和 Entropy 變化圖。從第 1 卷到第 7 卷,Simpson Index 大體是上升的,說明對字的使用上,愈來愈集中;

從第 7 卷到第 11 卷,Simpson Index 有所下降,但相較於早期的新青年,用字還 是相對集中一些。各卷 Entropy 總體呈下降趨勢,也說明《新青年》用字整體上 愈來愈集中的特點。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

圖 3-4 《新青年》各卷 Simpson Index 和 Entropy Index

相關文件