• 沒有找到結果。

較早以數量角度考察文本語言的可見於 Mosteller and Wallace(1964)所著 的關於聯邦憲法作者問題的研究,該書以數量分析角度考察了幾位作者的用詞風 格,並分析了爭議篇章的可能作者。另外,Thisted and Efron(1986)根據其過 往對莎士比亞作品集的研究,總結了這位文豪的用字規律,並利用貝氏技巧分析 1985 年莎翁故居新發現詩歌,推論作者為莎士比亞的可能性。

在中文文本方面,漢學大師高本漢(Karlgren,1952)藉由 38 個字對《紅樓 夢》前 80 回和後 40 回進行數量對比,認為作者只有一個人。而後在《紅樓夢》

的研究上,趙岡與陳鍾毅(1975)對虛字做了統計分析,認為後四十回與前八十 回的用字風格明顯不同;余清祥(1998)則利用 t 檢定、卡方檢定以及變動點分 析方法對文本詩詞字數、虛字、結語用詞等進行多方面的探索性分析,認為作者 至少有兩人。此外,學界也開始對其它文本資料,如報刊雜誌,進行分析。王治

而在中文文本分類方法上,目前主要有 Rocchio 算法、樸素貝氏算法(Naive Bayesian Algorithm)、kNN(K-Nearest Neighbor)、向量空間模型、最大熵算法 等,且這些算法越來越完善。朱華宇、孫正興與張福炎(2001)選取了《計算機世 界報》、《微電腦世界》、《國際電子報》等不同語料庫,示範了如何運用 VSM(Vector Space Model)方法對文本進行分類訓練和預測,同時也探討了在一定數量類別 下以字代詞構造 TF-IDF(Term Frequency–Inverse Document Frequency)中的向 量矩陣的優越性,以及建議用 PCA(Principal Component Analysis)技術等來處 理同義詞和蘊含詞。李榮陸、王建會、陳曉雲(2005)基於 20000 多篇涉及計算 機、交通等 10 個類別的新聞網頁,較早證明了最大熵模型在中文文本分類的可 行性,同時通過與貝氏、kNN、SVM(Support Vector Machine)進行了比較,也 表明了它的應用前景。鄭秋生與翟琳琳(2013)對傳統 Rocchio 算法中的特徵項 權重計算公式做了改進,並通過對搜狗語料庫、復旦大學語料庫的分類訓練和對

2、主成份分析(Richard and Dean,2007)

主成分分析方法是多變量分析的一種方法,能夠幫助降低原來變數的維數並 能盡量保留原來變數蘊含的訊息。它的主要思路是,通過線性組合的方式將原來 的變數變換到另一個坐標系,並使得第一座標變數(第一主成分)保留著原始變 數線性組合的最大變異,第二座標變數(第二主成分)保留著原始變數線性組合

3、羅吉斯迴歸(Agresti,1990)

羅吉斯迴歸模型是一種對二分類變數(只有兩種分類,非 0 即 1),經常採用 的一種非線性方法,也屬於廣義線性模型的一種。它與我們常見的一般模型的形 式非常相似,所不同的是,它的因變數是類別型的變數,而自變數則可以是類別

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

型的數據,也可以是連續型的數據。該模型一個很大的特點是,因變數和自變數 不是線性的關係,故對自變數的分佈沒有要求。對於二分類變數的羅吉斯來說,

它的具體形式為:

Log1−ppi

i= β0+ β1xi1+ β2xi2+ ⋯ + β𝑖𝑖xip (其中,pi為第 i 個觀測值屬於類 別 1 的機率)

通過公式變換可得pieβ0+β1xi1+β2xi2+⋯+β𝑖𝑖xip 1+eβ0+β1xi1+β2xi2+⋯+β𝑖𝑖xip

利用極大似然的估計方法,可以得模型的參數估計。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

相關文件