可讀性模型分析比較

第二章文獻探討

傳統可讀性公式多為線性迴歸模型，以納入不同的特徵為自變項，估算文章難度，或提供公式估算文本適合閱讀的年級。而其較大缺失則為無法考慮許多特徵，遠離可讀性是由眾多因素所共同決定的事實，導致不能反映文件之真實難易程度。

迴歸分析（Regression Analysis）是一種統計學上分析數據的方法，目的在於了解兩個或多個變數間是否相關，並建立數學模型以便觀察特定變數來預測研究者感興趣的變數[9]。

迴歸分析是建立依變數 Y 與自變數 X 之間關係的模型，期望找出一條最能夠代表所有觀測資料的函數（迴歸估計式）[9]，多元迴歸時即為探討一個依變數和多個自變數的關係，表示式如：Y = β0 + β1X1 + β2X2 + … + βnXn，其中 β0為常數，β1 … βn為迴歸係數[10]。

圖 4 線性迴歸分析實例[9]

近年來，研究者開始將可讀性議題視為一種機械學習的問題，藉由將已抽取完各類可讀性特徵之訓練資料集加以訓練，再透過 SVM 之模型來預測測詴資料集之正確性。

SVM 將原始資料轉換到更高的維度，利用在訓練資料集中所謂的小樣本資料（Support Vectors）找到超帄面，用以分類資料[1]。SVM 主要是在尋找具有最大邊界的超帄面，因為其具有較高的分類準確性[11]，如圖 5 中所示藍色箭頭所標示的範圍。

圖 5 SVM 之支持向量[12]

由於 SVM 模型可將線性不可分（Linear Nonseparable）的資料映射到多維度空間，當資料的分布形態為線性不可分時，便適合以 SVM 處理，分類結果亦能有較佳的準確率。

SVM 為二元分類器，故常利用「一對多」（One-against-Rest）或「一對一」

（One-against-One）策略來將原本的二元分類延伸成多元分類。一對一的分類器

是一種由下而上的樹狀淘汰賽機制，藉由一對一競賽到最後得到分類結果，如圖 7 所示。

圖 6 SVM 可將線性不可分資料映射至高維度空間[13]

圖 7 SVM 將二元分類延伸成多元分類[1]

目前 SVM 相關研究常使用由台大林智仁教授所開發的 LIBSVM[14]開放原始碼軟體為工具，經由準備資料集、訓練模型、預測新資料所屬之類別等步驟，

得到測詴之準確率。

假定在空間中標記了一堆以顏色分類的點，顏色即代表其類別，位置即資料

本身，SVM 可以找出區隔這些點的方程式，分出個別區域；等到新的點（資料）

進來此空間，只要對照該位置在哪一區就可以預測其應該屬於哪一顏色（類別）

了[15]。圖 8 為資料類別差異較大時之結果，圖 9 則反之。

圖 8 資料類別差異較大時 LIBSVM 分類結果

圖 9 資料類別差異較小時 LIBSVM 分類結果

在文檔中應用可讀性預測於中小學國語文教科書及優良課外讀物分類之研究 (頁 21-25)