文獻回顧和研究方法 - 探索性資料分析方法在文本資料中的應用─以「新青年」雜誌為例

較早以數量角度考察文本語言的可見於 Mosteller and Wallace（1964）所著的關於聯邦憲法作者問題的研究，該書以數量分析角度考察了幾位作者的用詞風格，並分析了爭議篇章的可能作者。另外，Thisted and Efron（1986）根據其過往對莎士比亞作品集的研究，總結了這位文豪的用字規律，並利用貝氏技巧分析 1985 年莎翁故居新發現詩歌，推論作者為莎士比亞的可能性。

在中文文本方面，漢學大師高本漢（Karlgren，1952）藉由 38 個字對《紅樓夢》前 80 回和後 40 回進行數量對比，認為作者只有一個人。而後在《紅樓夢》

的研究上，趙岡與陳鍾毅（1975）對虛字做了統計分析，認為後四十回與前八十回的用字風格明顯不同；余清祥（1998）則利用 t 檢定、卡方檢定以及變動點分析方法對文本詩詞字數、虛字、結語用詞等進行多方面的探索性分析，認為作者至少有兩人。此外，學界也開始對其它文本資料，如報刊雜誌，進行分析。王治

‧

而在中文文本分類方法上，目前主要有 Rocchio 算法、樸素貝氏算法（Naive Bayesian Algorithm）、kNN（K-Nearest Neighbor）、向量空間模型、最大熵算法等，且這些算法越來越完善。朱華宇、孫正興與張福炎(2001)選取了《計算機世界報》、《微電腦世界》、《國際電子報》等不同語料庫，示範了如何運用 VSM（Vector Space Model）方法對文本進行分類訓練和預測，同時也探討了在一定數量類別下以字代詞構造 TF-IDF（Term Frequency–Inverse Document Frequency）中的向量矩陣的優越性，以及建議用 PCA（Principal Component Analysis）技術等來處理同義詞和蘊含詞。李榮陸、王建會、陳曉雲（2005）基於 20000 多篇涉及計算機、交通等 10 個類別的新聞網頁，較早證明了最大熵模型在中文文本分類的可行性，同時通過與貝氏、kNN、SVM（Support Vector Machine）進行了比較，也表明了它的應用前景。鄭秋生與翟琳琳（2013）對傳統 Rocchio 算法中的特徵項權重計算公式做了改進，並通過對搜狗語料庫、復旦大學語料庫的分類訓練和對

‧

2、主成份分析（Richard and Dean,2007）

主成分分析方法是多變量分析的一種方法，能夠幫助降低原來變數的維數並能盡量保留原來變數蘊含的訊息。它的主要思路是，通過線性組合的方式將原來的變數變換到另一個坐標系，並使得第一座標變數（第一主成分）保留著原始變數線性組合的最大變異，第二座標變數（第二主成分）保留著原始變數線性組合

‧

3、羅吉斯迴歸(Agresti,1990)

羅吉斯迴歸模型是一種對二分類變數（只有兩種分類，非 0 即 1）,經常採用的一種非線性方法，也屬於廣義線性模型的一種。它與我們常見的一般模型的形式非常相似，所不同的是，它的因變數是類別型的變數，而自變數則可以是類別

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

型的數據，也可以是連續型的數據。該模型一個很大的特點是，因變數和自變數不是線性的關係，故對自變數的分佈沒有要求。對於二分類變數的羅吉斯來說，

它的具體形式為：

Log_1−p^pⁱ

i= β₀+ β₁x_i1+ β₂x_i2+ ⋯ + β_𝑖𝑖x_ip （其中，p_i為第 i 個觀測值屬於類別 1 的機率）

通過公式變換可得pi＝ ^eβ0+β1xi1+β2xi2+⋯+β𝑖𝑖xip 1+eβ0+β1xi1+β2xi2+⋯+β𝑖𝑖xip

利用極大似然的估計方法，可以得模型的參數估計。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

在文檔中探索性資料分析方法在文本資料中的應用─以「新青年」雜誌為例 - 政大學術集成 (頁 13-18)

文獻回顧和研究方法

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

立政治大學

立政治大學