第二章 文獻探討
2.3 可讀性模型分析比較
傳統可讀性公式多為線性迴歸模型,以納入不同的特徵為自變項,估算文章 難度,或提供公式估算文本適合閱讀的年級。而其較大缺失則為無法考慮許多特 徵,遠離可讀性是由眾多因素所共同決定的事實,導致不能反映文件之真實難易 程度。
迴歸分析(Regression Analysis)是一種統計學上分析數據的方法,目的在 於了解兩個或多個變數間是否相關,並建立數學模型以便觀察特定變數來預測研 究者感興趣的變數[9]。
迴歸分析是建立依變數 Y 與自變數 X 之間關係的模型,期望找出一條最能 夠代表所有觀測資料的函數(迴歸估計式)[9],多元迴歸時即為探討一個依變 數和多個自變數的關係,表示式如:Y = β0 + β1X1 + β2X2 + … + βnXn,其中 β0為常數,β1 … βn為迴歸係數[10]。
圖 4 線性迴歸分析實例[9]
近年來,研究者開始將可讀性議題視為一種機械學習的問題,藉由將已抽取 完各類可讀性特徵之訓練資料集加以訓練,再透過 SVM 之模型來預測測詴資料 集之正確性。
SVM 將原始資料轉換到更高的維度,利用在訓練資料集中所謂的小樣本資 料(Support Vectors)找到超帄面,用以分類資料[1]。SVM 主要是在尋找具有最 大邊界的超帄面,因為其具有較高的分類準確性[11],如圖 5 中所示藍色箭頭所 標示的範圍。
圖 5 SVM 之支持向量[12]
由於 SVM 模型可將線性不可分(Linear Nonseparable)的資料映射到多維度 空間,當資料的分布形態為線性不可分時,便適合以 SVM 處理,分類結果亦能 有較佳的準確率。
SVM 為二元分類器,故常利用「一對多」(One-against-Rest)或「一對一」
(One-against-One)策略來將原本的二元分類延伸成多元分類。一對一的分類器
是一種由下而上的樹狀淘汰賽機制,藉由一對一競賽到最後得到分類結果,如圖 7 所示。
圖 6 SVM 可將線性不可分資料映射至高維度空間[13]
圖 7 SVM 將二元分類延伸成多元分類[1]
目前 SVM 相關研究常使用由台大林智仁教授所開發的 LIBSVM[14]開放原 始碼軟體為工具,經由準備資料集、訓練模型、預測新資料所屬之類別等步驟,
得到測詴之準確率。
假定在空間中標記了一堆以顏色分類的點,顏色即代表其類別,位置即資料
本身,SVM 可以找出區隔這些點的方程式,分出個別區域;等到新的點(資料)
進來此空間,只要對照該位置在哪一區就可以預測其應該屬於哪一顏色(類別)
了[15]。圖 8 為資料類別差異較大時之結果,圖 9 則反之。
圖 8 資料類別差異較大時 LIBSVM 分類結果
圖 9 資料類別差異較小時 LIBSVM 分類結果