探索性資料分析方法在文本資料中的應用─以「新青年」雜誌為例 - 政大學術集成

全文

(1)國立政治大學商學院統計學系碩士論文. 政治大. 學. ‧ 國. 探索性資料分析方法在文本資料中的應用─以立「新青年」雜誌為例. ‧. A Study of Exploratory Data Analysis on Text Data ──. n. al. er. io. sit. y. Nat. A Case study based on New Youth Magazine. Ch. engchi. i n U. v. 指導教授：余清祥博士研究生：潘艷艷撰. 中華民國一百零四年十二月.

(2) 摘要隨著經濟繁榮和網絡發展的日新月異，線上線下每時每刻都產生龐大數據，其中約有 80%的文字、影像等非結構化數據，如何量化和採取適合的分析方法，成為有效提取有價值信息及對其加以利用的關鍵。針對文字類型的資料，本文提出探索性資料分析方法，並以《新青年》雜誌的語言變化為例，呈現如何選取文本特徵并对其量化及分析的過程。. 政治大包括文本用字、用句、文言和白虛字使用以及常用字詞共用等方面，通過多種圖立. 首先，本文以卷為分析單位，多角度量化《新青年》雜誌各卷的文本結構，. ‧ 國. 學. 表相結合的呈現方式，窺探《新青年》雜誌語言變化歷程以及轉變特點。這其中既包括了對文言文到白話文轉變機制的探索，也包括白話語言演化的探索。其次，. ‧. 根據各卷初探的結果，尋找可區隔文言文和白話文兩種語言形式的文本特徵變數，. sit. y. Nat. io. al. er. 再以《新青年》第一卷和第七卷為訓練樣本，結合主成分和羅吉斯迴歸，對文、. n. 白兩種語言形式的文章進行分類訓練，再利用第四卷進行測試。結果證實，所提. Ch. engchi. i n U. v. 取的文本變數能夠有效實現對文、白兩種語言形式的文章的區分。此外，本文亦根據前述初探結果以及人文學者經驗，探索《新青年》雜誌後期語言形式的變化，即從五四運動時期的白話文至以「紅色中文」為特徵的白話文（二戰之後中國使用的白話文）的變化。以第七卷和第十一卷為樣本進行訓練，結果證實這兩卷語言形式存在明顯區別；並加入台灣《聯合報》和中國大陸的《人民日報》進行分類預測，發現兩類報刊的語言偏向有明顯差異，值得後續深入研究。. 關鍵字：非結構化數據、文本分析、探索性資料分析、主成分分析、羅吉斯迴歸 I.

(3) Abstract Tremendous data are produced every day, due to the rapid development of computer technology and economics. Unstructured data, such as text, pictures, videos, etc., account for nearly 80 percent of all data created. Choosing appropriate methods for quantifying and analyzing this kind of data would determine whether or not we can extract useful information. For that, we propose a standard operating process of exploratory data analysis (EDA) and use a case study of language changes in New. 政治大. Youth Magazine as a demonstration.. 立. First, we quantify the texts of New Youth magazine from different perspectives,. ‧ 國. 學. including the uses of words, sentences, function words, and share of common. ‧. vocabulary. We aim to detect the evolution of modern language itself as well as. sit. y. Nat. changes from traditional Chinese to modern Chinese. Then, according to the results of. io. n. al. er. exploratory data analysis, we treat the first and seventh volumes of New Youth. i n U. v. magazine for training data to develop classification model and apply the model to. Ch. engchi. fourth volume (i.e., testing data). The results show that the traditional Chinese and modern Chinese can be successfully classified. Next, we intend to verify the changes from modern Chinese of the May 4th Movement to those by advocating Socialism. We treat the seventh volume and eleventh volume of New Youth magazine as training data and again develop a classification model. Then we apply this model to the United Daily News from Taiwan and People’s Daily from Mainland China. We found these two newspapers are very different and the style of United Daily News is closer to that of seventh volume, while the style of People’s Daily is more like that of eleventh II.

(4) volume. This indicates that the People’s Daily is likely to be influenced by the Soviet Union.. Key Words: Unstructured Data; Text Analysis; Exploratory data Analysis; Principal Component Analysis; Logistic Regression. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. III. i n U. v.

(5) 目錄摘要 .......................................................................................................................................... 1 目錄 ........................................................................................................................................ IV 表目錄 .................................................................................................................................... VI 圖目錄 ...................................................................................................................................VII 第一章緒論........................................................................................................................... 1 第一節. 研究背景與動機........................................................................................................... 1. 政治大. 第二節論文編排 .......................................................................................................................... 3. 立. 第二章文獻回顧和研究方法 ............................................................................................ 5. ‧ 國. 學. 第一節文獻回顧 ........................................................................................................................... 5 第二節研究方法 ........................................................................................................................... 7. ‧. 第三章《新青年》雜誌文本初探 ................................................................................... 10 第一節《新青年》用字變化分析 ..........................................................................................10. Nat. sit. y. 第二節《新青年》用句變化分析 ..........................................................................................14. er. io. 第三節《新青年》虛字使用變化分析..................................................................................16. al. 第四節《新青年》各卷常用字、詞的共用情況分析 .......................................................18. n. v i n Ch 本章小結.........................................................................................................................20 engchi U. 第五節. 第四章文言文和白話文的分類分析 ............................................................................ 22 第一節文本變數選取與主成分提取 ......................................................................................22 第二節《新青年》雜誌第一、七卷文本分類訓練 ..............................................................24 第三節《新青年》雜誌第四卷分類預測 .............................................................................27. 第五章五四白話與「紅色中文」的分類分析 ........................................................... 30 第一節文本變數與文本分類 ...................................................................................................31 第二節《聯合報》和《人民日報》文體偏向研究 ............................................................33. 第六章結論及建議........................................................................................................... 36 第一節. 研究結論......................................................................................................................36. 第二節. 後續研究建議 .............................................................................................................37 IV.

(6) 參考文獻............................................................................................................................... 40 附表 ....................................................................................................................................... 42. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. V. i n U. v.

(7) 表目錄表 3-1、各卷十個常用字共用情況 ........................................................................... 19 表 3-2、各卷十個常用二字詞共用情況 ................................................................... 20 表 3-3、《新青年》語言變化指標整理 ..................................................................... 21 表 4-1、第 1、7 卷各變數與主成分之載荷 ............................................................. 23 表 4-2、第 1、7 卷變數之主成分貢獻 ..................................................................... 23 表 4-3、第 1、7 卷羅吉斯迴歸所配適模型 ............................................................. 24 表 4-4、第 1、7 卷羅吉斯迴歸分類結果 ................................................................. 26 表 4-5、第 1、7 卷羅吉斯迴歸分類錯誤文章 ......................................................... 26. 政治大. 表 4-6、第 1、7 卷羅吉斯迴歸交叉驗證結果 ......................................................... 26 表 4-7、第 4 卷羅吉斯迴歸分類預測結果 ............................................................... 27. 立. 表 4-8、第四卷羅吉斯迴歸分類預測錯誤文章 ....................................................... 28. ‧ 國. 學. 表 5-1、第 7、11 卷羅吉斯迴歸所配適模型 ........................................................... 31 表 5-2、第 7、11 卷羅吉斯迴歸分類結果 ............................................................... 32. ‧. 表 5-6、《人民日報》改革前後文章分類預測結果 ................................................. 35 附表 1、《新青年》雜誌各卷基本數量表................................................................. 42. Nat. sit. y. 附表 2、各卷字彙相關指標....................................................................................... 42. er. io. 附表 3、各卷千字文本不同字個數(文本隨機選取次數 n=10000)......................... 42 附表 4、各卷萬字文本不同字個數(文本隨機選取次數 n=10000)......................... 43. n. al. Ch. i n U. v. 附表 4、各卷句子長度基本統計指標....................................................................... 43. engchi. 附表 5、各卷前十個常用字....................................................................................... 43 附表 6、各卷前十個常用二字詞............................................................................... 44 附表 7、第 7、11 卷羅吉斯迴歸分類錯誤文章 ....................................................... 44. VI.

(8) 圖目錄圖 3-1 《新青年》各卷文章總字數和不同字個數 ................................................. 11 圖 3-2 《新青年》各卷千字和萬字的不同字個數 ................................................. 12 圖 3-3 《新青年》各卷出現新字的速度變化 ......................................................... 13 圖 3-4 《新青年》各卷 Simpson Index 和 Entropy Index ...................................... 14 圖 3-5 《新青年》各卷句長分布 ............................................................................. 15 圖 3-6 《新青年》各文章平均句子長度 ................................................................. 16 圖 3-7 《新青年》各卷文、白虛字累積個數（按文章累積） ............................. 17 圖 3-8 《新青年》各卷文、白虛字累積個數（按卷累積） ................................. 18. 政治大. 圖 4-1 《新青年》第 1、7 卷變數主成分分析之陡坡圖 ....................................... 24 圖 4-2 《新青年》第 1、7 卷分類預測機率值 ....................................................... 25. 立. 圖 4-3 《新青年》第 4 卷分類預測機率值 ............................................................. 27. ‧ 國. 學. 圖 5-1 第 7、11 卷四個文本特徵變數分配情況 ..................................................... 33 圖 5-2 《聯合報》和《人民日報》分類預測機率值分配 ..................................... 34. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. VII. i n U. v.

(9) 第一章緒論第一節研究背景與動機隨著電腦等科技的快速發展，人們各種生產、服務活動乃至生活習慣都可以被完整地紀錄下來，由此產生大量的數據，進入了另一階段的信息時代。據 IDC （International Data Corporation）評估，目前的數據以指數級方式增長，預測每兩年數據量即會倍增，截止至 2015 年，數據總量將突破 7.9 ZB！這看似廣袤沙. 政治大立自己的數據庫，期望從中獲得利於生產經營、行業發展的知識線索，如金融業、立漠般的數據，蘊藏著豐富的財富和寶藏，等待人們的深入探索。各行各業紛紛建. ‧ 國. 學. 醫藥行業、電商業等等。然而，目前大數據挖掘的現實並不如想像中的那般美好，人們面對眾多且多元的挑戰。大數據雖是自信息時代才逐漸發展起來的概念，但. ‧. 它的產生速度（Velocity）、容量（Volume）、多樣性（Variety）、真實性(Veracity) 1. sit. y. Nat. io. al. er. 均超乎人們的想像，難以用過去的經驗、方法或技術實現對價值的全面挖掘。隨. n. 著計算機硬體存儲設備的升級、算法的更新，人們已經擁有更多的信心應對前兩. Ch. engchi. i n U. v. “V”（Velocity 和 Volume），而相較之下，對於大數據多樣性及真實性的反應略有不足。大數據多樣性主要指的是大數據的形式。根據數據是否是量化的、具有固定形式，可將其分為結構化數據（Structured Data）和非結構化數據（Unstructured Data）。非結構化的數據主要包括文本文字資料、圖像圖片以及視頻流和電視流等三大類型的資料。據 IBM 估計，這類型的資料約佔資料總量的 80%左右。但長久以來，因礙於自身形式的限制，無論是從理論、方法或技術水平上來說，都. 1. 參見 IBM 發布的大數據分析報告《分析:大数据在现实世界中的应用》 1.

(10) 尚不如對結構化數據分析那般成熟。近年，隨著 WEB2.0 的發展，非結構化數據正受到前所未有的重視。其中，以文本資料的討論最多。文本資料中蘊藏的巨大的價值正引起各行業的重視。借助文本資料分析工具的日漸強大，人們得以挖掘其中的信息，獲得新知、增加產量、提升服務等。在線上交流日益頻繁的當下，通過用戶在網絡社群，如臉書（Facebook）、博客（Blog）、豆瓣（Douban）等，發布的文字信息，產品生產商可以即時調整其生產線以提高競爭能力和獲取最大利潤，視頻分享網站可以即時推送最受歡迎或是. 政治大. 好評率最高的視頻以吸引用戶，新聞業或是博彩業可以第一時間獲得政治人物候. 立. 選人的支持率等等。在醫學領域，根據病例本上醫生紀錄的關於患者的臨床表現. ‧ 國. 學. 和診斷意見，可以建立一個判別系統，以通過智能判斷的方式輔助新病患進行診. ‧. 治。文學領域，通過對美國聯邦憲法、莎士比亞文集、《紅樓夢》等文本的研究，. sit. y. Nat. 得以發現許多從歷史學家或是文學家角度無法探索得到的信息，由此為諸多爭議. io. al. er. 提供更多客觀意見。. v. n. 對於文本分析方法，理論和應用成果也日漸豐碩。特別是文本分類、文本聚. Ch. engchi. i n U. 類、自動文摘等方法的算法不斷更新，被廣泛應用。在這些主要方法的應用中，一般將詞語信息作為文章的特徵而提取，且常常需要一個龐大的語料庫或是事先人工判斷的類別作為支撐。對線上資料做政策偏向、產品偏愛等目的和利益導向明確的議題做分析，這些方法的應用可滿足所需。但針對問題做客製化分析的缺陷卻使得我們無法從數據中挖掘更多的訊息。特別地，對於用字排版較為規範和講究的文學典藏和報刊雜誌來說，無論上述方法的算法再完善，直接應用它們很可能會漏掉資料中所蘊含的歷史事件的相關資訊。針對這類型的資料，本文提出用探索性資料分析（Exploratory Data Analysis）的思想去研究，並將以研究《新 2.

(11) 青年》雜誌的語言變化為例，呈現的不僅是用方法解決問題的思路，還有如何用方法去提出更多問題。在上世紀早期，陳獨秀等人背負著強烈的歷史使命感創辦了《新青年》雜誌，意圖掀起一場從形式到內容的文學革命。而要使得這場文學革命之火徹底點燃，胡適、陳獨秀等人意識到必須倡導白話文的使用，才能將該雜誌“德先生” 和“賽先生”普及到萬千學者以及普通人中。而正是對白話文取代文言文的倡導，成為了文學革命的導火索，引起了學者在文學思想、工人問題、國家制度等方面. 政治大. 激烈的探討。由於《新青年》雜誌在歷史上曾發揮過如此重要的作用，學者對該. 立. 雜誌進行了很多方面的探討，但大都是從文字角度來解讀白話文取代文言文的過. ‧ 國. 學. 程以及內含思想觀念的變化。而對於《新青年》雜誌語言何時開始產生變化、變. sit. y. Nat. 之甚少。. ‧. 化有何種契機、變化過程有何特點和新的語言何時趨於成熟等問題，我們仍然知. io. al. er. 語言的變化，不僅可以從文本內容（如特定用詞）進行透視，亦可以從文本. v. n. 的外在形式來窺探。本文將以不涉文本內容、從多角度對文本語言的外在形式進. Ch. engchi. i n U. 行量化，再利用 EDA 的思想對《新青年》雜誌進行探索性的研究，希望窺探《新青年》雜誌從第一卷至第十一卷語言變化過程和變化特點。. 第二節. 論文編排. 本研究架構如下，第二章回顧了《新青年》雜誌研究、以數量角度考察文本以及文本分類方法等相關文獻，也對本文所用方法如探索性資料分析、主成分分析和羅吉斯迴歸等作了簡要介紹；第三章從多角度量化《新青年》文本，並依圖表相結合的方式探討了語言變化過程和特點；第四章以主成分分析和羅吉斯迴歸 3.

(12) 相結合的方式，藉所提取的文本特徵變數，實現對《新青年》前期文言文和白話文兩種語言文本的分類；第五章模仿第四章分類方式，對《新青年》後期語言形式進行分類，並分別研究了《聯合報》和《人民日報》與《新青年》雜誌語言的偏向性問題；第六章為本文研究所得結論以及對後續研究所提供的建議。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 4. i n U. v.

(13) 第二章文獻回顧和研究方法第一節文獻回顧儘管晚清時候已經興起白話文運動，但是真正實現書面語由文言文到白話文轉變的則是五四運動時期（何立行、余清祥、鄭文惠，2014）。而這一時期引領變革的旗幟則是陳獨秀創立的《新青年》雜誌，由於這本雜誌獨特而重要的歷史地位，學者對它的研究頗豐。李新麗（2007）指出，學者們對《新青年》雜誌的研究主要從文獻資料整理（張寶明、王中江，1998）、思想史（陳平原，2002）、. 政治大報刊史（丁守和、殷敘彝，1963）立、社團史（莊森，2006）的角度進行探討。但. ‧ 國. 學. 頗為遺憾的是，除了上述面向的研究外，鮮見學者以數量角度考察《新青年》雜誌語言的演變過程。. ‧. 較早以數量角度考察文本語言的可見於 Mosteller and Wallace（1964）所著. y. Nat. io. sit. 的關於聯邦憲法作者問題的研究，該書以數量分析角度考察了幾位作者的用詞風. er. 格，並分析了爭議篇章的可能作者。另外，Thisted and Efron（1986）根據其過. al. n. v i n Ch 往對莎士比亞作品集的研究，總結了這位文豪的用字規律，並利用貝氏技巧分析 engchi U 1985 年莎翁故居新發現詩歌，推論作者為莎士比亞的可能性。在中文文本方面，漢學大師高本漢（Karlgren，1952）藉由 38 個字對《紅樓夢》前 80 回和後 40 回進行數量對比，認為作者只有一個人。而後在《紅樓夢》的研究上，趙岡與陳鍾毅（1975）對虛字做了統計分析，認為後四十回與前八十回的用字風格明顯不同；余清祥（1998）則利用 t 檢定、卡方檢定以及變動點分析方法對文本詩詞字數、虛字、結語用詞等進行多方面的探索性分析，認為作者至少有兩人。此外，學界也開始對其它文本資料，如報刊雜誌，進行分析。王治. 5.

(14) 敏（2010）基於 1999 年至 2003 年間的《人民日報》對一些常用詞或是高頻詞做了時點分析，郭曙綸等（2014）基於線上龐大的語料庫以數量角度研究了漢字使用的的高頻字、高頻詞、共用字詞於 2005 年至 2011 年間的變化，皆揭示了語言變遷的一些規律。而在中文文本分類方法上，目前主要有 Rocchio 算法、樸素貝氏算法（Naive Bayesian Algorithm）、kNN（K-Nearest Neighbor）、向量空間模型、最大熵算法等，且這些算法越來越完善。朱華宇、孫正興與張福炎(2001)選取了《計算機世. 政治大. 界報》、《微電腦世界》、《國際電子報》等不同語料庫，示範了如何運用 VSM（Vector. 立. Space Model）方法對文本進行分類訓練和預測，同時也探討了在一定數量類別. ‧ 國. 學. 下以字代詞構造 TF-IDF（Term Frequency–Inverse Document Frequency）中的向. ‧. 量矩陣的優越性，以及建議用 PCA（Principal Component Analysis）技術等來處. sit. y. Nat. 理同義詞和蘊含詞。李榮陸、王建會、陳曉雲（2005）基於 20000 多篇涉及計算. io. al. er. 機、交通等 10 個類別的新聞網頁，較早證明了最大熵模型在中文文本分類的可. v. n. 行性，同時通過與貝氏、kNN、SVM（Support Vector Machine）進行了比較，也. Ch. engchi. i n U. 表明了它的應用前景。鄭秋生與翟琳琳（2013）對傳統 Rocchio 算法中的特徵項權重計算公式做了改進，並通過對搜狗語料庫、復旦大學語料庫的分類訓練和對線上短文本的分類測試，證明了此種改進方法應用於短文本分類的有效性。基於前人已有的成果，本文將利用探索性資料分析方法尋找可能以數量化角度揭示《新青年》語言變化的文本特徵。這方面的特徵將盡量避開學者做文本分類時常用的關鍵詞角度量化的特徵，以避免受文本內容形式的干擾。在此基礎上, 本文將利用所甄選的文本特徵，基於主成分和羅吉斯分類結合的方法，以訓練能夠區分文言文和白話文兩種語言形式的文章或是其它不同語言形式間的文章。 6.

(15) 第二節研究方法 1、探索性資料分析方法（Tukey,1977）探索性資料分析方法是 Tukey 於 1977 年提出的一種分析數據的方法。它主張在盡量少的假設條件下，用簡單的圖、表等工具事先對數據的結構或是隱含的訊息進行提取，然後再選擇適合的檢定方法或者模型做進一步分析。它是一種知識發現技術，強調的是讓數據說話。. 政治大這種方法對分析不太熟悉的或是較為複雜的資料較為有效，因為在面對這種立. ‧ 國. 學. 資料時，分析者往往會困惑於該從何處著手分析或該選擇何種統計方法。此時，如果沒有對資料結構有一定了解，貿然套用統計模型，很可能導致統計方法的誤. ‧. 用，得出的結果也不可信。另外，有些資料中蘊含著豐富的訊息，通過建模未必. y. Nat. er. io. sit. 能夠挖掘，反而通過一些基本的圖形、表格方式的呈現，能夠幫助分析者發現資料的模式或特點，提取隱含的訊息，為進一步的分析提供依據。. al. n. v i n Ch 探索性資料分析方法用到的圖表包括但不僅限於 e n g c h i U Tukey 提出的莖葉圖、箱線. 圖、五分位數、考察殘差等方法。面對複雜的數據結構時，可以根據需要，調整圖表的表示方法，以反映數據的結構特點。 2、主成份分析（Richard and Dean,2007）. 主成分分析方法是多變量分析的一種方法，能夠幫助降低原來變數的維數並能盡量保留原來變數蘊含的訊息。它的主要思路是，通過線性組合的方式將原來的變數變換到另一個坐標系，並使得第一座標變數（第一主成分）保留著原始變數線性組合的最大變異，第二座標變數（第二主成分）保留著原始變數線性組合. 7.

(16) 的第二大變異，依次類推。通過保留前面幾個主要成分，便可以達到縮減變數維度並最大程度保留原始變數訊息的目的。尋找變數的線性組合是通過對原始變數的協方差矩陣或是相關係數矩陣的分解得來的。以下簡要敘述通過相關係數矩陣提取線性組合的係數過程： a、假如有 n 個觀察值，每個觀察值都有 p 個特徵，且 n>p，則這組數據用向量的表示方法為 X= (X1 , X2 ,..., Xp )，第 i 個觀測值表示為 xi = (Xi1 , Xi2 ,..., Xip ) ， i=1,2,3,…,n。對這個矩陣按如下標準化: xij −x�j. ∑n i=1 xij n. 政治大. , i = 1,2, … , n; j = 1,2, … , p. 立. 2. , sj ＝. ∑n � j )2 i=1(xij −x n. ,可得標準化矩陣 Z。. 學. 其中x� j ＝. sj. ‧ 國. Zij =. b、求標準化矩陣 Z 的相關係數矩陣 R。. ‧. y. Nat. c、解相關矩陣 R 的特徵值λ＝（λ1 , λ2 , … , λp ）（λ1 > λ2 > ⋯ > λp ）和對應. sit. er. io. 的特徵向量矩陣Β＝（β1 , β2 , … , βp ）（其中βk 均為 p 維, k = 1,2, … , p）。則最大. 特徵值λ1 等於第一主成分的變異數，對應的特徵向量β1為原變數構成第一主成分. al. n. v i n C2等於第二主成分的變異數，對應的特徵向量β 線性組合的係數；第二特徵值λ 2為 hengchi U. 原變數構成第二主成分線性組合的係數；依此類推。. d、根據變異數貢獻程度或是其它衡量指標，選擇主成分的個數 m。 e、可計算主成分，其中第 j 主成分為Uj = Zβj （j=1,2,…,m） 3、羅吉斯迴歸(Agresti,1990). 羅吉斯迴歸模型是一種對二分類變數（只有兩種分類，非 0 即 1）,經常採用的一種非線性方法，也屬於廣義線性模型的一種。它與我們常見的一般模型的形式非常相似，所不同的是，它的因變數是類別型的變數，而自變數則可以是類別. 8.

(17) 型的數據，也可以是連續型的數據。該模型一個很大的特點是，因變數和自變數不是線性的關係，故對自變數的分佈沒有要求。對於二分類變數的羅吉斯來說，它的具體形式為： p. Log 1−pi = β0 + β1 xi1 + β2 xi2 + ⋯ + β𝑖𝑖 xip （其中，pi 為第 i 個觀測值屬於類 i. 別 1 的機率）. 通過公式變換可得pi ＝. β +β x +β x +⋯+β𝑖𝑖 xip e 0 1 i1 2 i2. β +β x +β x +⋯+β𝑖𝑖 xip 1+e 0 1 i1 2 i2. 利用極大似然的估計方法，可以得模型的參數估計。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 9. i n U. v.

(18) 第三章《新青年》雜誌文本初探《新青年》雜誌創刊於 1915 年，至 1926 年終刊，共發行 11 卷，63 期，1444 篇文章，詳見附表 1。因為《新青年》雜誌是我們展示利用 EDA 思想探索文本語言變化的一個案例，我們需要從最通用的角度來量化該文本，才能將這種方法套用在其它文本上。以不涉及文本的內容為前提，我們尋找文本共有的並能互相區別的特徵。這些特徵，可以從文本用字特徵（包括文章總字數、不同字彙數、常用虛字使用等）、用句特徵（文章總句子數、文章平均句子長度等）、常用字詞. 政治大特徵等方面去量化一個文本。有了這些特徵，我們可以從最基本的方面去考察文立. ‧ 國. 學. 本語言的變化。由於這些特徵，在其它文本中也能夠輕易提取，因此本研究案例所選變數具有較強適用性。. er. sit. io. （1）文章字彙數變化. y. ‧. Nat. 第一節《新青年》用字變化分析. al. n. v i n Ch 經過統計，可得《新青年》各卷總字數和各卷使用的不同字個數如附表 2， engchi U 變化狀況可見圖 3-1。該雜誌從第 1 卷至第 7 卷文章總字數不斷上升，而各卷內所使用不同字個數卻是不斷下降的，由此可見第 1 卷至 7 卷所使用的字彙數在不斷下降，亦即字彙豐富程度逐卷遞降。. 10.

(19) 立. 政治大. 圖 3-1 《新青年》各卷文章總字數和不同字個數. ‧ 國. 學. 根據以上觀察到的現象，本文統計各卷一定長度的文本出現不同字的個數，. ‧. 希望進一步對其佐證。此處之所以選擇一定長度的文本，是擔心文本長度會對不. sit. y. Nat. 同字個數產生影響。具體做法是，將各卷卷內文本連接起來，隨機選取一千字和. n. al. er. io. 一萬字的文本各 10,000 次，並統計出現不同字的個數。例如，第 1 卷所有文章. i n U. v. 連起來的文本長度共有 248833 個字，若要隨機選取一千字文本，則只要在扣除. Ch. engchi. 文本末尾 999 個字後剩下的 247834 個字裏，以隨機方式選擇其中一個字作為一千字文本的起點，向後數 999 個字作為一千字文本的終點，再計算這一千字文本出現不同字的個數，如此重複操作計算 10,000 次。將各卷一千字和一萬字文本出現的不同字個數進行統計，整理如附表 3、4，其中，各卷千字和萬字不同字個數的中位數和 95%信賴區間可參考圖 3-2。由圖 3-2 可知，不論以千字或是萬字為測量單位，第 1 卷到第 11 卷所用到的不同字個數整體上都是下降。其中，第 1 卷至第 7 卷不同字個數保持勻速下降，說明這一段時期《新青年》語言可能. 11.

(20) 經歷一個循序漸進的變化時期；而第 7 卷後，不再遵循前面的變化規律，語言可能又經歷另一種改變。. 立. 政治大. 圖 3-2 《新青年》各卷千字和萬字的不同字個數. ‧ 國. 學. （2）新字出現頻率. ‧. 此外，為了更加詳細了解 1 到 11 卷字彙使用特點，統計各卷每增加千字，. sit. y. Nat. 出現新詞的累積個數（如圖 3-3），不論哪一卷，隨著字數的增加，出現新字的頻. n. al. er. io. 率速度會減慢。而對比所有 11 卷，可以發現，《新青年》雜誌越靠後的卷次出現. i n U. v. 新字速度越慢。此外，從曲線接近程度可約略看出語言的接近程度，如第 1 卷～. Ch. engchi. 第 3 卷、第 7 卷～第 9 卷，以及第 10 卷～第 11 卷。整體上，這 11 卷的語言變化方向一致，既經歷緩慢的變化，又經歷快速的變化。. 12.

(21) 圖 3-3 《新青年》各卷出現新字的速度變化. 政治大. （3）《新青年》用字分布情況. 立. ‧ 國. 學. Simpson 指數(Simpson, 1949)和 Entropy(Shannon and Weaver ,1948)常常被. 用作反映生態環境中物種的分布狀況（何立行等人，2014）。本文引入這兩個概. ‧. 念，用以反映語言文字使用的分布狀況。假設 n 為某卷文章總字數，pi 第 i 個字. sit. y. Nat. 被使用次數佔某卷文章總字數的比例，則 Simpson Index=∑ni=1 pi 2 可以刻畫各卷. n. al. er. io. 用字的集中程度（越接近 1，表示越集中），Entropy=− ∑ni=1 pi logpi（越偏离 0，. i n U. v. 表示越分散）則可以描繪用字的分散程度。附表 2 列出了各卷所有字的 Simpson. Ch. engchi. Index 和 Entropy，圖 3-4 分別是各卷 Simpson Index 和 Entropy 變化圖。從第 1 卷到第 7 卷，Simpson Index 大體是上升的，說明對字的使用上，愈來愈集中；從第 7 卷到第 11 卷，Simpson Index 有所下降，但相較於早期的新青年，用字還是相對集中一些。各卷 Entropy 總體呈下降趨勢，也說明《新青年》用字整體上愈來愈集中的特點。. 13.

(22) 政治大. 圖 3-4 《新青年》各卷 Simpson Index 和 Entropy Index. 立. ‧ 國. 學. 第二節《新青年》用句變化分析. 一篇文章給人最直觀的結構特點，除了用字數量上的變化，還有句子的長度。. ‧. 文言文講究句式整齊、簡短，白話文則沒有這樣的限制，追求的是通過變化的句. y. Nat. er. io. sit. 子來表情達意。因此，對句子的分析，可以窺探「新青年」從文言文到白話文的變化過程。在此以「，」、「。」、「；」、「！」、「？」五個標點符號作為區分句子. n. al. 長度依據。. Ch. engchi. i n U. v. 首先，比較各卷句子長度分佈情況。由於各卷絕大部分文章的句子長度在 50 字以內，為了方便比較，本文作各卷句子長度分佈圖時，僅比較各卷 50 字以內句子長度分佈情況，如圖 3-5。由圖可見，從第 1 卷到第 11 卷，新青年的句子變化是一個漸進變化的過程，從早期句長較短且分佈較為集中，到後期句子長度偏長且分佈較為均勻。. 14.

(23) 立. 政治大. 圖 3-5 《新青年》各卷句長分布. ‧ 國. 學. 此外計算《新青年》雜誌所有卷句子長度的基本統計指標，如附表 5 所示。. ‧. 可以看到第三卷平均句子長度和句子長度中位數偏高。為了探知原因，計算《新. sit. y. Nat. 青年》雜誌各卷所有文章的句子長度中位數，並作圖 3-6 ，發現在第二卷後幾期、. n. al. er. io. 第三卷以及第四、五、六卷個別幾篇文章的句子長度整體上相對偏長，經查閱這. i n U. v. 些文章，是因為從第二卷標點符號使用上發生了變化，特別是文言文會用較多的. Ch. engchi. 「、」（頓號）來表示句子的停頓，該作用類似後來的「，」（逗號）。由於區分句子長度時未把「、」考慮進來，因此顯得上述提到的文章句子偏長。其中，第三卷大多數文章的平均句子長度都偏長，這恰好可以解釋圖 3-5 各卷句子長度變化圖中第三卷句子長度曲線出現跳躍的情況以及附表 5 中發現的現象。. 15.

(24) 立. 政治大. 圖 3-6 《新青年》各文章平均句子長度. ‧ 國. 學. 整體上，《新青年》雜誌用句的句長變化除了標點符號改革階段外，是一個. ‧. 循序漸進的過程，其中平均句子長度越來越長，句子長短越來越多元化。. n. er. io. al. sit. y. Nat. 第三節《新青年》虛字使用變化分析. i n U. v. 在文言文中，「之」「也」「乎」等常作為虛字使用，而白話文則常將「的」. Ch. engchi. 「是」「了」作為虛字使用。因此，通過人文學者建議的常用文言文虛字「矣、乎、焉、歟、哉、耳、豈、之、乃、無」和常用的白話文虛字「的、是、們、個、了、和、麼、著（着）、嗎、吧」，我們可以探知《新青年》中文言文和白話文的變化過程。計算上述 20 個虛字在所有卷所有文章中的個數，並計算累積比例。例如，「之」在所有文章中出現 71333 次，在第 i 篇文章中出現xi 次，在前 i-1 （xi ＋Si−1 ）. 篇文章中共出現Si−1，則「之」第 i 篇文章累積比例為 100*. 71333. ，依此可得. 第 1 篇、第 2 篇…第 1444 篇「之」的累積比例分別為 0.300001、0.4345815、…100。. 16.

(25) 對所有 20 個虛字在所有文章中的累積比例作圖，如圖 3-7。在對角線（藍線）上方的曲線，表示前期用字多，後期用字少；在對角線下方的曲線，表示前期用字少，後期用字多；若沿對角線分佈，則表示前後期用字較為均勻。由圖可見，文言文虛字累積比例和白話文虛字累積比例的變化截然不同。文言文虛字累積比例曲線大都在對角線上方，表示《新青年》前期文言文虛字使用較多，後期使用相對較少。而白話文虛字的累積比例曲線大都在對角線下方，表示《新青年》前期較少使用白話文虛字，後期才開始使用白話文虛字。特別地，第 1～3 卷對白話. 政治大. 文虛字使用極少，從第 4 卷開始，才愈來愈多使用白話文虛字；文言文「歟」、「焉」、. 立. 「矣」、「哉」等四個虛字在第 7 卷後就幾乎沒有使用，但其餘幾個文言文虛字雖. ‧ 國. 學. 有使用，但是相較於前期使用次數少了很多。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 3-7 《新青年》各卷文、白虛字累積個數（按文章累積）. 為了排除各卷內文章次序對累積比例曲線的影響，本文亦按卷計算了 20 個文言文和白話文虛字的累積比例變化圖，如圖 3-8 所示，曲線更為平滑，但均能表明上述的文言文、白話文虛字的變化特點。. 17.

(26) 立. 政治大. 圖 3-8 《新青年》各卷文、白虛字累積個數（按卷累積）. ‧ 國. 學 ‧. 第四節《新青年》各卷常用字、詞的共用情況分析. sit. y. Nat. 常用字或詞指的是文章中使用頻率較高的字或詞。語言用法相近的文章，常. io. al. er. 用字、詞可能共用程度會較高。因此，通過常用字詞共用個數高低，在一定程度. v. n. 上，可以幫助考察語言變化的特點。在《新青年》雜誌中，提取十一卷最常使用. Ch. engchi. i n U. 的十個字（見附表 6），統計不同卷之間十個常用字共用個數，整理如表 3-1。可以看到，對於某一卷來說，它的常用字和越往前或越往後的卷的常用字共用程度越來越低。另外，我們以共用個數等於或大於 8，認為共用度高，以此對這十一卷做進一步觀察，如表中以顏色進行標示，可以看出，根據各卷常用字共用情況，可以將十一卷初分為四大類，第一類包含第 1、2、3 卷，第二類包含第 4、5 卷，第三類包含第 7、8、9 卷，第四類包含第 10、11 卷。其中，第 6 卷可屬於第二類，也可屬於第三類。. 18.

(27) 表 3-1、各卷十個常用字共用情況卷別. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 1. 10. 9. 9. 6. 6. 4. 3. 3. 3. 4. 3. 2. 9. 10. 9. 7. 7. 5. 4. 4. 4. 5. 3. 3. 9. 9. 10. 6. 6. 4. 3. 3. 3. 4. 3. 4. 6. 7. 6. 10. 10. 8. 7. 6. 7. 6. 4. 5. 6. 7. 6. 10. 10. 8. 7. 6. 7. 6. 4. 6. 4. 5. 4. 8. 8. 10. 8. 8. 9. 6. 4. 7. 3. 4. 3. 7. 7. 8. 10. 8. 8. 5. 5. 8. 3. 4. 3. 6. 6. 8. 8. 10. 9. 5. 5. 9. 3. 4. 3. 7. 10. 4. 5. 4. 6. 11. 3. 3. 3. 立. 政治大. 4. 7. 9. 8. 9. 10. 5. 5. 6. 6. 5. 5. 5. 10. 7. 4. 4. 5. 5. 5. 7. 10. ‧ 國. 學. 同理，提取《新青年》雜誌各卷最常使用的十個二字詞（見附表 7）。此處，. ‧. 最常用的二字詞並非是出現頻數最高的自然語言處理中的二元分詞（Bigram）,. sit. y. Nat. 而是出現頻數最高且有含義的二字組合而成的詞。. io. n. al. er. 統計各卷之間共用的個數，整理如表 3-2。可以看到，各卷常用二字詞共用. i n U. v. 個數總體上比常用字少很多。而在這種情況下，第 4、5、6 卷間的常用二字詞共. Ch. engchi. 用個數超過七，第 8、9 卷共用個數和第 10、11 卷的共用個數都為 8。從常見二字詞使用情況，可以表明第 4、5、6 卷，第 8、9 卷，第 10、11 卷彼此之間語言使用較為類似。這個結論和常用字揭示的結論非常相似。. 19.

(28) 表 3-2、各卷十個常用二字詞共用情況卷別. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 1. 10. 5. 3. 1. 1. 1. 1. 2. 2. 1. 1. 2. 5. 10. 3. 1. 3. 2. 1. 3. 2. 2. 2. 3. 3. 3. 10. 4. 5. 4. 1. 2. 1. 1. 1. 4. 1. 1. 4. 10. 8. 7. 4. 4. 4. 2. 2. 5. 1. 3. 5. 8. 10. 8. 4. 5. 5. 3. 3. 6. 1. 2. 4. 7. 8. 10. 4. 5. 5. 3. 3. 7. 1. 1. 1. 4. 4. 4. 10. 5. 5. 3. 3. 8. 2. 3. 2. 4. 5. 5. 5. 10. 8. 5. 5. 9. 2. 2. 1. 4. 10. 1. 2. 1. 2. 11. 1. 2. 1. 立. 2. 政治大 5. 5. 5. 8. 10. 6. 6. 3. 3. 3. 5. 6. 10. 8. 3. 3. 3. 5. 6. 8. 10. ‧ 國. 學. 第五節本章小結. ‧. 本文從用字、用句、虛字、共用字詞等文本特徵出發（如表 3-3 所示），對. y. Nat. io. sit. 文本進行量化，同時，靈活運用探索性資料分析方法的工具，多角度呈現《新青. er. 年》雜誌的結構特點，由此可以了解《新青年》雜誌語言變化的特點和模式。例. al. n. v i n 如，四個文本特徵均能說明，《新青年》雜誌從第 1 卷到第 11 卷語言變化過程既 Ch engchi U. 有漸變的影響，也有突變的作用。而這個規律，恰好可以輔助語言學者（辛剛， 1991）對於語言變異的解釋，即語言的演變是有方向的、有目的的，不會完全是隨機的、任意的和完全由外部因素確定的；且語言的變異結果是要在原先的結構基礎上實現結構的合理重組。目前為止，本文已使用探索性資料分析方法幫助提取了許多能夠呈現《新青年》卷之間語言變化的文本特徵。但這些相關特徵能否幫助識別文章是屬於文言文或是白話文，或者說這些特徵是否已經足夠對不同語言類型進行區分？第五章、第六章將分別以文言文和白話文兩種語言形式、. 20.

(29) 兩種白話語言形式探討這個問題。表 3-3、《新青年》語言變化指標整理. 量化角度. 呈現方式總字數與不同字個數變化對比. 文本字彙數用字. 每千字或萬字出現不同字個數變化. 新字出現頻率. 文本每增加千字出現新字的累積個數變化 Simpson Index 變化. 用字分佈情況. 各卷句子長度分配狀況. 句子長度. 平均句子長度變化. 政治大十個常用字和十個常用二字詞的共用個數立. 虛字. 文言文、白話文虛字累積比例變化. 常用字詞. ‧. ‧ 國. 學. io. sit. y. Nat. n. al. er. 用句. Entropy Index 變化. Ch. engchi. 21. i n U. v.

(30) 第四章文言文和白話文的分類分析上一章中，本文從四個文本特徵角度探討了《新青年》雜誌語言變化特點。基於此，本文將提取《新青年》雜誌所有文章的語言相關變數，通過羅吉斯迴歸模型對文言文和白話文進行分類訓練，然後將訓練模型應用於同時包含文言文和白話文的測試文本中，對比這些測試文本的分類預測結果和人工真實分類結果，從而可對所提取的變數在語言區分能力上做評判。這裡，我們選取《新青年》雜. 政治大是因為，第 1 卷的文章作為《新青年》的首卷，基本為文言文，而《新青年》雜立. 誌第 1 卷和第 7 卷的內容做訓練數據，第 4 卷內容做測試數據。之所以這樣選擇. ‧ 國. 學. 誌至第 7 卷時，文章已基本為白話文；第 4 卷介於第 1 卷和第 7 卷中間，文言文和白話文各佔一定比重。本文希望，通過第 1、7 卷的資料訓練出的模型，能夠. ‧. 有效區分文言文和白話文，然後用第 4 卷去測試模型的穩定性和可靠性。. er. io. al. sit. y. Nat 第一節文本變數選取與主成分提取. n. v i n Ch 經過第三章對《新青年》雜誌實施的初步探索性分析，提取的特徵能夠從多 engchi U. 方面反映雜誌語言的變化特點。在對文白轉變的研究部分，本文將包含相關的十三個文本變數。由於將這些文本變數直接帶入羅吉斯迴歸模型中進行配適時，可能因為某些變數間存在較強共線性或是很強的分類效果，會出現參數無法估計問題。因此，本文將先利用非監督學習方法中的主成分分析幫助提取主成分。表 4-1 為各原始變數和各主成分之間的載荷。. 22.

(31) 表 4-1、第 1、7 卷各變數與主成分之載荷主成分. 1st. 2nd. 3rd. 4th. 5th. 6th. 7th. 8th. 9th. 總字數. -0.3498 0.2488. -0.178. 0.1918. -0.175. -0.2043 -0.1144. 0.0622. 不同字個數. -0.2856 0.3678. 0.0213. -0.0064. 0.0116. 0.3875. -0.2382 -0.4254. -0.3736 0.1756. -0.1434. 0.1988. -0.1688 -0.2594 -0.0508. Simpson. 0.0236 -0.3742 -0.3359. 0.5302. -0.1257. 0.3118. Entropy. -0.1705 0.4086. 0.2532. -0.3123. 0.1322. 0.2989. 總句子數. -0.3092 0.2986. -0.2503. 平均句子長度. -0.3019 -0.2298. 句子長度中位數. 0.1317. 10th. 11th. 12th. 13th. -0.116. 0.4346. 0.6634. 0.0435. -0.0289. 0.4516. -0.4131. -0.0107 -0.1244. 平均每個字被使 0.05. 0.4068. 0.6173. 0.1455. -0.0548. -0.313. 0.1034. -0.286. -0.299. 0.2806. 0.0167. -0.2177. 0.2101. 0.1485. -0.1656. 0.0173. 0.2904. 0.0392. -0.4528. 0.4415. 0.1689. -0.1575 -0.0793 -0.1151. 0.0318. -0.1384 -0.5368 -0.0081 -0.5724 -0.2091. 0.4035. 0.1298. -0.0108 -0.1794. -0.0998. 0.0186. -0.2916 -0.2675. 0.3093. -0.0352 -0.2597 -0.1921. 0.4853. -0.1295 -0.0456 -0.1991. 0.5869. 句子長度眾數. -0.2058 -0.2823. 0.236. -0.2593 -0.5674. 0.3188. -0.5687. 0.0667. -0.0325. -0.0193 -0.0148 -0.0065. 句子長度標準差. -0.2018 -0.054. 0.4573. 0.465. 0.5286. 0.0627. -0.4231. 0.0366. -0.0107 -0.0616. 標點符號 simpson. 0.3363. 0.2268. 0.1853. 0.1423. -0.23. 文言文虛字比例. 0.2558. 0.2482. 0.2473. 0.4217. 白話文虛字比例. -0.3059 -0.2366 -0.2982 -0.1297. 用次數. 政治大. 立. 0.0023. 0.0421. -0.7438 -0.0933 -0.0748 0.0375. 0.0479. 0.2513. 0.0024. 0.015. -0.1752 -0.2028 -0.7694. 0.2251. -0.1087 -0.0002. 0.0371. -0.0177. -0.3197. 0.4297. 0.2685. 0.3706. 0.3446. -0.1286 -0.0251. 0.0419. -0.0045. 0.2421. 0.3974. 0.058. -0.2547. 0.6095. -0.2772 -0.0298. 0.103. -0.0097. 學. ‧. ‧ 國. 0.2576. 在判斷應選取主成分個數時，一般依據特徵值大於 1 的原則，也可以利用陡. sit. y. Nat. io. al. er. 坡圖做輔助判斷。如表 4-2 為提取的各主成分的貢獻，其中各主成分的變異數就. v. n. 是特徵值。由表可見，第 1、2、3 主成分的特徵值均大於 1，從第 4 個主成分開. Ch. engchi. i n U. 始便都小於 1，且前三個主成分已經能夠解釋原來所有 13 個變異數的 80.98%。表 4-2、第 1、7 卷變數之主成分貢獻主成分. 1st. 2nd. 3rd. 4th. 5th. 6th. 7th. 8th. 9th. 10th. 11th. 12th. 13th. 標準差. 2.3019. 1.8908. 1.2859. 0.9223. 0.8337. 0.5683. 0.5095. 0.3672. 0.3148. 0.2414. 0.1681. 0.1228. 0.094. 變異數所佔比例. 0.4076. 0.275. 0.1272. 0.0654. 0.0535. 0.0248. 0.02. 0.0104. 0.0076. 0.0045. 0.0022. 0.0012. 0.0007. 累積比例. 0.4076. 0.6826. 0.8098. 0.8752. 0.9287. 0.9535. 0.9735. 0.9839. 0.9915. 0.996. 0.9982. 0.9993. 1. 此外，根據陡坡圖（圖 4-1），從第 4 個主成分開始，線段開始趨於平緩。綜合上面兩方面，認為取前三個主成分較為合適。. 23.

(32) 圖 4-1 《新青年》第 1、7 卷變數主成分分析之陡坡圖. 政治大. 立第二節《新青年》雜誌第一、七卷文本分類訓練. ‧ 國. 學. 《新青年》第 1 卷、第 7 卷合計 294 篇文章，在此以 “1”及 “0”表示第一卷. ‧. 及第七卷的文章。以該分類標記，通過 LR 模型對上述提取的三個主成分進行分. sit. io. al. er. 數。. y. Nat. 類訓練。所得模型配適結果見表 4-3。由表知，所提取的三個主成分均為顯著變. n. 表 4-3、第 1、7 卷羅吉斯迴歸所配適模型. 係數估計值截距. -0.7467. 第 1 主成分. 3.3461. 第 2 主成分第 3 主成分. Ch. 標準差. e n0.5772 gchi. iv Z值 n U. P值. -1.294. 0.195783. 0.7095. 4.716. 2.40E-06. 1.3619. 0.3853. 3.534. 0.000409. 1.8529. 0.659. 2.812. 0.00493. 對應的模型形似為： 𝑙𝑙𝑙𝑙𝑙𝑙. 𝑝𝑝 = −0.7467 + 3.3461 ∗ 第 1 主成分＋1.3619 ∗ 第 2 主成分 + 1.8529 1 − 𝑝𝑝 ∗ 第 3 主成分. 利用此模型得到第 1、7 卷 294 個案例的機率預測值，並做其分配圖，如圖. 24.

(33) 4-2。可以看到這些機率值很明顯的分屬於兩個部分，一部分很接近 0，另一部分接近 1，且只有個別幾個預測值不那麼靠近 0 也不那麼靠近 1。. 立. 政治大. 圖 4-2 《新青年》第 1、7 卷分類預測機率值. ‧ 國. 學. 以常用的 0.5 為分界點，大於 0.5 判定屬於類別“1”（文言文），小於 05. ‧. 判定屬於類別“0”（白話文），由此可得第 1、7 卷 294 篇文章的機器分類結果。. sit. y. Nat. 基於機器分類結果與前面標記的類別，構建錯判矩陣，見表 4-4(a)。預測與標記. n. al. er. io. 的差異非常小，準確率高達 98.30%。分析被判定錯的 5 篇文章（詳見表 4-5），. i n U. v. 發現屬於第一卷的兩篇文章（標記類別為“1”，文言），其實是白話文，而第七. Ch. engchi. 卷的兩篇文章（標記類別為“0”，白話）的兩篇文章，其實是文言文。這說明模型真正判定錯誤的文章只有一篇文章（檔名為 Y0003.000960.txt）。而這篇文章雖屬白話，但卻是詩歌體裁，結構形式如句長、篇長皆歟文言文類似，因此機器誤判為文言文也是情有可原。上述預測結果恰好能表明此處訓練模型能夠有效利用本文提取的有關變數對語言類別進行分類訓練。此外，根據這 294 篇文章語言類別的人工判定，我們可以更加準確地對模型進行評判。其中，真實類別和預測類別的錯判矩陣可見表 4-4(b)。結果顯示，模. 25.

(34) 型的預測準確率高達 99.66%，顯示此模型對於訓練數據的預測效果非常好。表 4-4、第 1、7 卷羅吉斯迴歸分類結果預測. 預測. (a). (b) 白話. 文言. 129. 3. 白話標記. 白話文. 文言文. 白話文. 131. 1. 文言文. 0. 162. 真實文言. 2. 160. 表 4-5、第 1、7 卷羅吉斯迴歸分類錯誤文章所屬卷別. 文檔名稱. 語言類別. 標記類別. 機率預測值. 預測類別. 第一卷. Y0003.000083.txt. 白話. 1. 0.2776. 0. 第一卷. Y0003.000017.txt. 白話. 1. 0.0504. 0. 第七卷. Y0003.000931.txt. 文言. 0. 0.8339. 1. 第七卷. Y0003.000944.txt. 文言. 0. 0.9009. 1. 第七卷. Y0003.000960.txt. 白話. 0. 0.9009. 1. 立. 政治大. ‧ 國. 學. 為了防止 LR 模型存在過度配適(Overfitting)的疑慮，在此也以常用的一百次. ‧. 的十折交叉驗證法(10-fold Cross Validation)來估計文章分類的預測準確率以及變. Nat. sit. y. 異數，亦即將資料分為 10 份，依次選擇其中一份作為測試數據(Testing Data)，. n. al. er. io. 其它九份作為訓練數據(Training Data)，如此重複十次。如表 4-6，訓練集、測試. Ch. i n U. v. 集的模型預測表現非常好，平均預測準確率分別為 96.11%、95.94%。而對應預. engchi. 測標準差分別僅有 0.0005、0.0024，代表 LR 迴歸分析的穩定性很高，而且《新青年》第一卷、第七卷的文體風格頗為一致，亦即所使用的數據在同類別的特性齊一（也就是均質），而使用 LR 模型堪稱穩健和可靠。表 4-6、第 1、7 卷羅吉斯迴歸交叉驗證結果模型預測準確率平均值. 標準差. 訓練集. 96.11%. 0.0005. 測試集. 95.94%. 0.0024. 26.

(35) 第三節《新青年》雜誌第四卷分類預測此上述配適的模型應用於測試數據（第四卷）。由於第四卷中含有較多的詩歌，與一般形式的文言文或是一般的白話文有較大的區別，因此，在對第四卷進行預測前，需要把屬於詩歌類共 33 篇文章去掉，將剩下的 79 篇文章作為測試數據。同樣，可以觀察這 79 篇文章所屬類別的機率預測值的分配，如圖 4-3。機率預測值雖然還是主要呈現兩個部分（靠近 0 或靠近 1），但是有很多文章的機率預測值屬於 0.3-0.7 之間。比起訓練數據，模型對於測試數據的預測判定擁有更多的不確定。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. 圖 4-3 《新青年》第 4 卷分類預測機率值. 根據人文學者判定的類別與模型預測的結果，可構建錯判矩陣如表 4-7。表 4-7、第 4 卷羅吉斯迴歸分類預測結果預測白話文. 文言文. 白話文. 34. 0. 文言文. 13. 32. 真實. 計算可得模型準確率為 84.81%，預測效果不錯。在此次預測分類中，共有 27.

(36) 13 篇文言文文章（由人文學者判讀標記）被錯誤判定為白話文，詳見表 4-8。查閱這些文章，發現 Y0003.000502.txt、Y0003.000484.txt、Y0003.000493.txt、 Y0003.000520.txt、Y0003.000506.txt、Y0003.000583.txt、Y0003.000584.txt 等七篇文章中含有較多的頓號，使得整體句子偏長，很可能因形近白話文而被機器誤判。此外，Y0003.000509.txt、Y0003.000518.txt、Y0003.000552.txt、 Y0003.000570.txt、Y0003.000598.txt 等五篇文章雖被人文學者標記為文言文，但實則夾雜了許多白話形式和內容。結合《新青年》雜誌發行第四卷的時代背景，. 政治大. 當時書面語從文言文轉變到白話文尚在摸索的階段，因而可能出現一些文白混合. 立. 學. ‧ 國. 類型的文章。即使是由人工判讀這類型文章也難免出現猶豫不決、難以歸類的情況，何況是機器。因此，最後分類預測結果含有較多不確定性和分類錯誤也是可. Nat. y. 表 4-8、第四卷羅吉斯迴歸分類預測錯誤文章. ‧. 以理解的。. 語言類別. 標記類別. 機率預測值. 預測類別. 第四卷. Y0003.000502.txt. 文言. 1. 0.0002. 0. 第四卷. Y0003.000484.txt. 文言. 1. 第四卷. Y0003.000493.txt. er. n. al. sit. 文檔名稱. io. 所屬卷別. v ni. 0.0002. 0. 0.0298. 0. 0.0008. 0. 第四卷. C h文言 e n g c h i1 U Y0003.000520.txt 文言 1. 第四卷. Y0003.000509.txt. 文言. 1. 0.0000. 0. 第四卷. Y0003.000518.txt. 文言. 1. 0.1753. 0. 第四卷. Y0003.000506.txt. 文言. 1. 0.0005. 0. 第四卷. Y0003.000538.txt. 文言. 1. 0.0051. 0. 第四卷. Y0003.000552.txt. 文言. 1. 0.4023. 0. 第四卷. Y0003.000584.txt. 文言. 1. 0.0000. 0. 第四卷. Y0003.000583.txt. 文言. 1. 0.0000. 0. 第四卷. Y0003.000570.txt. 文言. 1. 0.0281. 0. 第四卷. Y0003.000598.txt. 文言. 1. 0.0101. 0. 28.

(37) 從這部分的初步分析來看，本文所選的文本特徵變數能夠對文言文和白話文進兩種不同的語言形式進行有效分類。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 29. i n U. v.

(38) 第五章五四白話與「紅色中文」的分類分析在前面的分析中，本文利用探索性資料分析方法，對《新青年》雜誌語言變化進行了深入探討，包括文言文到白話文的變化特點和能夠有效區別文言文、白話文的指標。而透過這些研究，亦注意到了一個特別現象，即從第七卷到第十一卷，語言的使用又發生著某種改變。對應歷史時間點，《新青年》是當時仍在籌組中的中國共產黨機關宣傳刊物，當時使用的語言（這裡暫擬「紅色中文」一詞，指稱深受蘇維埃共產主義論述語言影響的共產中國現代書面語），顯然有別. 政治大於第七卷所代表的五四倡導的白話文。立. ‧ 國. 學. 為了探究五四白話文與紅色中文的的差異，本文以《新青年》第七卷和第十一卷做為評估蘇維埃影響的依據，比較臺灣、中國大陸使用白話文的差異，除. ‧. 了希望找到有效區別臺灣、大陸兩種文體的量化指標，並討論以量化分析探討紅. y. Nat. io. sit. 色中文的可行性。選擇《新青年》第七卷為白話文的代表，是因為白話文在第七. er. 卷的出現比例最高，最能代表五四之後的白話文；第十一卷則是因為這時的《新. al. n. v i n Ch 青年》是共產黨宣揚共產思想的陣地，所著文章也有濃厚的紅色中國意味。在此 engchi U 基礎上，我們增加兩類報刊的資料，即 1960 至 1964 年間的台灣《聯合報》社論，以及 1971 至 1989 年間中共官方《人民日報》部分論述篇章。在 1971 年至 1989 年間，《人民日報》的文體已趨於成熟並且較不受港澳台及西方影響，內容也少涉及特定事件（如戰爭、大躍進），我們猜測這時期的文章和《新青年》第十一卷紅色中文較為接近。此外，選擇改革開放前後文章，我們亦可以比較這段時期前後文體改變情況；而《聯合報》選擇了 1960 年代初期文章，因這時該報已較為成熟，內容非紅色中文，且在標榜「橫向移植」的現代主義文學運動發生之前，. 30.

(39) 我們猜測其和五四白話較為接近。本文將運用同第四章類似的方法對《新青年》第七卷和第十一卷進行分類訓練，然後對所選取的兩類報刊《人民日報》和《聯合報》進行分類預測，希望洞察它們的文體偏向。. 第一節文本變數與文本分類通過前面幾章的分析，發現文本用字、用句、以及常用虛詞等特徵變數能夠反映語言從文言文到白話文的變化特點。因此，我們仿造前面所做的研究，嘗試. 政治大. 使用之前提取的變數，利用羅吉斯迴歸模型，以探究其是否也能夠偵測白話文的. 立. 變化，即從五四白話到以「紅色中文」為特徵的白話文的變化。. ‧ 國. 學. 《新青年》第 7 卷、第 11 卷共計 188 篇文章，在此以 “1”及 “0”表示第七. ‧. 卷及第十一卷的文章。本文直接將第四章提取的十三個文本特徵變數帶入羅吉斯. sit. y. Nat. 迴歸模型中，並採用向後剔除法（Backward Elimination）刪去非顯著變數。如表. io. al. er. 5-1 所示，為針對第 7、11 卷所配適的模型。由表可知，文章的不同字個數、總. v. n. 句子數、句子長度中位數和文言文虛字比例等四個文本特徵變數都十分顯著（P value<0.01）。. Ch. engchi. i n U. 表 5-1、第 7、11 卷羅吉斯迴歸所配適模型係數估計值. 標準差. Z值. P值. 截距. 23.72. 4.013. 5.911. 0.0000. 不同字個數. -0.0127. 0.0032. -4.037. 0.0001. 總句子數. 0.0045. 0.0016. 2.743. 0.0061. 句子長度中位數. -1.435. 0.2632. -5.453. 0.0000. 文言文虛字比例. -108.1. 30.37. -3.559. 0.0004. 如下表 5-2 所示，LR 模型預測的結果非常好，對 188 篇文章分類的準確率高達 93.62% 。其中第七卷 132 篇文章中，僅有 6 篇分類錯誤，分類準確率為 95.45 31.

(40) ％；而第十一卷 56 篇文章中，有 6 篇分類錯誤，分類準確率為 89.29％。表 5-2、第 7、11 卷羅吉斯迴歸分類結果預測第7卷. 第 11 卷. 第7卷. 126. 6. 第 11 卷. 6. 50. 真實. 表 5-3、第 7、11 卷羅吉斯迴歸交叉驗證結果模型預測準確率平均值訓練集測試集. 立. 標準差. 政治大 93.20%. 0.0010. 92.17%. 0.0067. 為了防止 LR 模型存在過度配適，在此也以常用的一百次的十折交叉驗證法. ‧ 國. 學. 來估計文章分類的預測準確率以及變異數。由於第 7 卷的文章數比第 11 卷的文. ‧. 章數高出很多，我們在每一次將資料分為十份時，會確保每一份資料中來自第七. Nat. io. sit. y. 卷和第十一卷文章的比例都為十分之一，以降低資料數目不平衡的影響。如表. n. al. er. 5-3，訓練集、測試集的模型預測表現非常好，平均預測準確率分別為 93.20%、. Ch. i n U. v. 92.17%。而對應預測標準差分別僅有 0.0010、0.0067，說明此處 LR 迴歸模型也. engchi. 是穩健和可靠的，且《新青年》第 7 卷、第 11 卷的文體風格一致滿足同類別特性齊一。由於對第 7 卷和第 11 卷兩種白話文形式差別的認知不如對文白差異的認知，本文整理了這兩卷分類錯誤的文章，如附表 7 所示，同時，亦根據模型提取的四個顯著變數對兩卷文章差異進行作圖分析，希望能夠探究兩種白話文形式的差異。如圖 5-1 所示，第 7 卷和第 11 卷文章在四個變數中存在明顯差別。整體來看，第 11 卷的字彙數、總句子數、句長和文言文虛字比例均高於第 7 卷。此外，第. 32.

(41) 7 卷和第 11 卷分類錯誤篇章分別用藍色線和綠色線在圖中表示。由圖可以發現，原屬於第 7 卷卻被分類為第 11 卷的文章可能是由於不同字個數、句長、文言文虛字比例等偏高，而原屬於第 11 卷卻被分類為第 7 卷的文章，可能是由於不同字個數、句數和句長等值偏低。. 立. 政治大. ‧. ‧ 國. 學. io. sit. y. Nat. n. al. er. 圖 5-1 第 7、11 卷四個文本特徵變數分配情況. i n U. v. 經過上述分析，可初步推斷五四白話和以「紅色中文」為特徵白話的差異，. Ch. engchi. 即，「紅色中文」為特徵的白話文使用字彙更豐富、句數更多、平均句子更長和文言虛字比例更高一點。. 第二節《聯合報》和《人民日報》文體偏向研究將上述所得的 LR 模型套用在《聯合報》和《人民日報》的文章上，如果機率預測數值接近“1”（即第七卷），表示文章偏向五四白話，偏向“0”（第十一卷）則表示語言有紅色中文的傾向。同樣，可以做兩種報刊的機率預測值的條形圖結果見圖 5-2。其中大多數《聯合報》的文章的預測值都高於 0.8 以上，而《人 33.

(42) 民日報》的文章預測值主要分佈在兩個類別上。. 立. 政治大. ‧ 國. 學 ‧. 圖 5-2 《聯合報》和《人民日報》分類預測機率值分配. sit. y. Nat. 此處，同樣以分類數值的中點（或是 0.5）為分界線，預測機率值大於 0.5. io. al. er. 表示模型判定為偏向第七卷（五四白話），小於 0.5 則表示模型判定文章偏向第. v. n. 十一卷（紅色中文）。結果顯示，《人民日報》的 534 篇測試文章中有 42.32%（226. Ch. engchi. i n U. 篇）被判定為五四白話類文章，而《聯合報》的 550 篇測試文章中有 89.64%（493 篇）被判為五四白話類文章。上述結果說明，《聯合報》的文章十分接近《新青年》的第七卷，而《人民日報》兼具第七卷和第十一卷兩種風格。進一步再將《人民日報》資料拆成兩時期：1971～1978 年以及 1979～1989 年，分別比較這兩段時期的分類結果，如表 5-4。改革開放前（1971～1978）的 288 篇文章中僅有 27.43%傾向於第七卷的五四白話，改革開放開始後（1979～ 1989）的 246 篇文章中有 59.76%被判定為五四白話。這一變化或許可解釋為中國改革開放後，《人民日報》中紅色中文的影響下降，而五四白話被更多的應用。 34.

(43) 表 5-4、《人民日報》改革前後文章分類預測結果文章數. “1”. “0”. “1”比例. 1971～1978. 288. 79. 209. 27.43%. 1979～1989. 246. 147. 99. 59.76%. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 35. i n U. v.

(44) 第六章結論及建議第一節. 研究結論. 近年，大數據正成為這個時代最為火熱的一個關鍵詞，相關議題在各領域都被不斷提及。對於佔數據總量最多的非結構化資料來說，面對它“自由散漫”的形式，我們該運用何種方法或工具去挖掘其中潛藏的、尚不為人所知且我們認為有價值的信息呢？本文以《新青年》雜誌為主，《聯合報》和《人民日報》為輔，探討了如何利用探索性資料分析的方法去挖掘文本語言變化的特點和機制，以作. 政治大為分析海量非結構化資料的參考。儘管學者對於文本分析相關的優秀論著很多，立. ‧ 國. 學. 但利用本文所示方法去探索《新青年》雜誌語言變換的成果甚少。因此，本文以下結論能夠在一定程度尚補足相關研究的空白。. ‧. 1、透過探索性分析方法，得以探察到《新青年》語言變化的一些模式及特. y. Nat. io. sit. 點。《新青年》雜誌所反映的語言變化，仿若一個物種的演化過程，既有自身不. er. 斷的演變，亦受外在客觀環境變化的影響，最後完成語言形式的更替。在演變過. al. n. v i n Ch 程中，根據各角度反映的語言相似程度和時間的先後，將《新青年》雜誌語言分 engchi U 為四大類：第 1、2、3 卷構成第一類，反映的是白話文剛開始萌芽的階段，此時仍然以文言文為主；第 4、5、6 卷可構成第二類，此時語言形式較為明顯地發生變化，白話語言形似愈來愈多地被使用；第 7、8、9 卷可構成第三大類，這類中，五四運動所倡導的白話已經形成了某種穩定狀態，並沒有明顯朝著哪個方向的變化現象；第 10、11 卷可構成第四大類，此類與最鄰近的第三大類明顯不同，但總體演變方向卻是和五四運動所倡導的白話精神一致，表明五四白話運動過渡到了另外一種類型的白話（以「紅色中文」為特徵）。. 36.

(45) 2、語言的變遷，往往反映的是語言使用者的文化習俗或思想觀念正在發生變化，進而可以反映時代的更替。透過語言變化的研究，我們可以透視語言使用當下社會環境正在發生的變革，而透過這些變革，我們亦可以探查其對於語言變遷的影響。《新青年》雜誌作為五四運動的一個戰地，其語言的變化也能反映當下社會運動的態勢。在研究時，結合語言模式的變化特點與對應時間點發生的歷史事件，可以助我們更深入了解文白變化的機制和背景。如，《新青年》改為同人刊物恰好從第 4 卷起，這時，此刊物刊登的文章討論的議題更為廣泛，思想更. 政治大. 自由、文學形式更多樣，作者對新的語言形式的探索更熱衷。而從第 7 卷起，《新. 立. 青年》逐漸成為機關刊物，由陳獨秀一人主編，直到第 9 卷，此間雜誌語言形式. ‧ 國. 學. 較為穩定。此外，第 10、11 卷為中共再刊，因而所使用語言又較為不一樣。. ‧. 3、經過文本初探結果，本文選取的 13 個文體相關變數在後續基於主成分分. sit. y. Nat. 析與羅吉斯迴歸結合的分類訓練上，對第 1、7 卷和對 7、11 卷的分類訓練準確. io. al. er. 率分別為 99.66%、87.5%。這說明這 13 個文體相關變數既能夠有效區別文言文. v. n. 和白話文兩種類型的語言形式，亦能夠有效區分五四白話與以「紅色中文」為特. Ch. engchi. i n U. 徵的白話。同時也顯示，在不涉內容的前提下，從語言的外在形式角度便能夠區分語言的改變。而從第 4 卷、《聯合報》和《人民日報》的分類預測結果，顯示主成分分析與羅吉斯迴歸分析相結合的文本分類方式在研究語言風格偏向問題上，可以取得不錯的效果。. 第二節. 後續研究建議. 本文在利用探索性資料分析方法於《新青年》文本研究上積累了一定的經驗。但礙於作者本人學術資歷尚淺，且並非中文系或語言文學系相關專業出身，背景 37.

(46) 知識存在不足，又因研究時間限制，本文尚存在許多可改進空間。故而針對後續相關研究，本文略提以下幾點建議： 1、本文在選取第 1 卷和第 7 卷作為區分文言文和白話文的訓練文本，第 7 卷和第 11 卷作為區分兩種類型白話文的訓練文本，不僅根據人文學者的判斷，也根據本文探索性研究結果，才確保分類訓練文本不同類別間具有較為相同的語言形式（均質）。建議後續分類訓練選取文本時，要結合主觀和客觀的意見，盡量保持訓練樣本均質特性，才能夠對文本做有效區分和預測。. 政治大. 2、在對《新青年》第四卷做分類預測時，將詩歌篇章從測試文本中去除後，. 立. 整體預測準確率提升至 84.81%。說明不同文學體裁對不同語言形式的區分有影. ‧ 國. 學. 響。建議未來對語言類別做分類研究時，對不同的文學體裁做一定區分，可提高. ‧. 文本分類精度。同時，第四卷正處於文白語言變化的關鍵時期，語言可能夾雜文. sit. y. Nat. 白兩種形式的語言。對於這部分的研究，建議從第四卷分類錯誤篇章以及分類預. io. al. er. 測機率值介於 0.2 於 0.8 之間的文章進行分析，可以深入了解文白轉換的機制。. v. n. 此外，也許可以對文言、白話混合的文章，拆成文言、白話分別分析。. Ch. engchi. i n U. 3、在本文中，第 1 卷和第 7 卷採用了主成分和羅吉斯迴歸相結合的分類方式，而第 7 卷和第 11 卷的分類則直接使用了羅吉斯迴歸方法，均獲得了不錯的分類預測效果。因此，文本分類中是否使用主成分應視變數貢獻性強弱和是否產生過強分類問題而定，若無上述問題，可以直接使用文本變數於分類模型中，若有上述問題，可通過主成分來避免。但同時，不可不考慮使用主成分帶來的解讀問題，即使得本文難以直接評估各文本變數對不同語言類別的區分作用。因此，如若對文本變數與不同語言類別之具體效應有興趣，可透過其它方式刪減變數，直接代入模型中進行分類訓練。如，可計算各文體變數與其它文體變數的變異數 38.

(47) 膨脹因子（VIF），依據決定係數（R Square）大小，刪減共線性嚴重的變數。如此，便可以直接依據羅吉斯迴歸模型，探查各文本相關變數對不同語言類別的影響。 4、近年，數位人文(Digital Humanities)這一新的研究領域正在興起。隨著歷史典藏資料的數位化，學者擁有更多的電子文本資源可進行直接分析且學者可用於研究的文本時間跨度進一步增大，這將有助於學者對於語言更迭的研究。本文已證實探索性資料分析方法在挖掘文本模式具有不可忽略的優勢，因而，未來可. 政治大. 借助此方法，從多角度對語言更迭做更深入的研究。. 立. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. 39. i n U. v.

(48) 參考文獻一、中文部分 1.丁守和、殷敘彝(1963)，從五四啓蒙運動到馬克思主義的傳播，生活·讀書·新知三聯書店。 2.王治敏(2010)，基於時間跨度的漢語教學常用詞表統計研究，華文教學與研究， 4，49-55。 3.何立行、余清祥、鄭文惠(2014)，從文言到白話：《新青年》雜誌語言變化統計研究，東亞觀念史集刊，7，427-454。. 治政大系統，計算機工程，vol. 27(2)，70-73。立 5.余清祥(1998)，統計在紅樓夢的應用，政大學報，76，303-327。. 4.朱華宇、孫正興、張福炎(2001)，一個基於向量空間模型的中文文本自動分類. ‧ 國. 學. 6.李新麗(2007)，《新青年》研究綜述，新聞大學，vol. 4，18-22。 7.李榮陸、王建會、陳曉雲、陶曉鵬、胡運發(2005)，使用最大嫡模型進行中文. ‧. 文本分類，計算機研究與發展，vol. 42(1)，94-101。. sit. y. Nat. 8.李美霞(2002)，語言變遷研究綜述，北京師範大學學報，vol. 4，128-133。. io. er. 9.辛剛(1991)，語言變異和語言系統，現代外語。. 10.莊森(2006)，飛揚跋扈為誰雄——作為文學社團的新青年社研究，東方出版中. al. n. 心。. Ch. engchi. i n U. v. 11.張寶明、王中江(1998)，回眸《新青年》，河南文藝出版社。 12.陳平原(2002)，思想史視野中的文學—《新青年》研究（上），中國現代文學研究叢刊，vol. 3，1-31。 13.陳斯華(2003)，《新青年》雜誌登載文學作品數量分析表，東岳論叢，vol. 24(3)， 39-41。 14.郭曙綸、馬玄思、李開拓（2014），基於《中國語言生活狀況報告》的字與詞的對比研究，北華大學學報，vol.15(3)，10-13。 15.趙岡、陳鍾毅(1980)，紅樓夢研究新編，聯經出版社。 16.鄭秋生、翟琳琳(2013)，基於改進 Rocchio 算法的短文本自動分類研究，中原工學院學報，vol. 24(1)，70-73。 40.

(49) 17.謝佳斌、金勇進(2009)，探索性數據分析中的統計圖形應用，統計與信息論壇， vol. 24(7)，13-17。. 二、英文部分 1. Agresti, A.(1990), Categorical Data Analysis, New York: Wiley. 2. Karlgren, B. (1952), “New Excursions in Chinese Grammar”, in Bulletin of the museum of Far Eastern Antiquities (Stockholm), 24:51-80. 3.Mosteller, F. and Wallace, D. (1964), Inference and Disputed Authorship: the. 政治大 4.Richard, A.J. and Dean W.W. (2007), Applied Multivariate Statistical Analysis 立 (6th), Pearson. Federalist. Addison-Wesley.. ‧ 國. 學. 5.Shannon, C.E. and Weaver W. (1948), A mathematical theory of communication, The Bell System Technical Journal, 27, 379–423 and 623–656.. ‧. 6.Simpson, E. H. (1949),"Measurement of diversity", Nature, 63: 688.. sit. y. Nat. 7.Thisted, R. and Efron, B. (1986), “Did Shakespeare Write a Newly-discovered. er. io. Poem?”, Biometrika, 74(3): 445-455.. al. n. v i n C hBig Data Analytics: 9.T.K.Das, P. Mohan Kumar(2013), e n g c h i U A Framework for Unstructured Data Analysis, International Journal of Engineering and Technology 8.Tukey, J.W. (1977), Exploratory data analysis, Addison-Wesley.. (IJET), Vol.5(1).. 41.

(50) 附表附表 1、《新青年》雜誌各卷基本數量表卷別. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 期數. 6. 6. 6. 6. 6. 6. 6. 6. 6. 4. 5. 篇數. 162. 155. 147. 112. 157. 161. 132. 171. 127. 64. 56. 附表 2、各卷字彙相關指標. 總字數不同字個數. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 政治大. 248833 291848 290038 305020 343519 389407 586942 461731 437748 342778 489223 4379. 4344. 立. 4227. 4298. 4125. 3848. 3850. 3753. 3745. 2980. 3093. 學. ‧ 國. 卷別. Simpson. 0.0046 0.0045 0.0050 0.0042 0.0047 0.0058 0.0061 0.0060 0.0056 0.0057 0.0057. Entropy. 6.6540 6.6495 6.5418 6.5394 6.4616 6.3486 6.3286 6.3204 6.3221 6.1773 6.2127. ‧. 最小值. 254. 253. 第一分位數. 370. 362. 中位數. 407. 395. io. 3. 4. 5. 6. 7. 205. 228. 238. 170. 198. al. n. 平均值. 2. sit. 1. 8. 324 306 291n C 318 U h 356g c341 h i 320 387 357e n 353. 406.3 393.2 382.5. 9. 10. 11. i v315. 182. 170. 222. 297. 309. 313. 343. 328. 332. 335. er. 卷別. y. Nat. 附表 3、各卷千字文本不同字個數(文本隨機選取次數 n=10000). 192. 359. 356. 341.6. 323. 342.8. 327.6 329.8 335.1. 第三分位數. 440. 426. 412. 396. 386. 378. 352. 369. 360. 354. 356. 最大值. 753. 557. 521. 610. 506. 486. 458. 495. 516. 428. 456. 5%. 324. 310. 305. 281. 287. 266. 256. 275. 246. 269. 278. 95%. 496. 481. 468. 461. 443. 427. 410. 429.025. 415. 399. 407. 42.