• 沒有找到結果。

第一章 前言

第四節 診斷式的適讀性系統

在適讀性研究的發展中,早期研究使用表層文本屬性預測文本的適讀性

(本章第一節);在閱讀的認知研究逐漸累積成果,深化人們對閱讀理解歷程的 認識(本章第二節),這時有研究者企圖將文本一致性指標納入適讀性模式中。

近年來受惠於自然語言處理與機器學習的發展(本章第三節),研究者可抽取出 更多樣的文本屬性,以開發出預測正確率較高的適讀性模式。這個趨勢似乎隱 含以計算預測為考量的取向和以認知解釋為考量的取向有若單維向度或光譜上 的兩個端點,而在不同時代中,適讀性的研究派典在這光譜中來回擺盪。然 而,本研究認為「認知解釋」以及「計算預測」此二取向不僅是在單軸向上互 相擷抗的兩種考量;而是研究者在另一脈絡的兩個軸向上做出選擇後,所形成 的表象。該脈絡至少包含二軸度,此兩個軸度分別是「輸入透明度」以及「參 數透明度」。

壹、輸入與參數透明度

此章節將回顧3 種常用來建構小學文本適讀性模式的取向,分別是:線性 迴歸(linear regression)、支持向量機(support vector machine, SVM)、深度學 習模式(deep leaning),以及一個和文本閱讀十分有關,但較少在適讀性文獻中 提及的主題模式(topic modeling)。

此4 種取向都可以建構適讀性模式,然而這些取向對如何達成預測文本適 讀性的做法大相徑庭。根據這四種適讀性模式所的輸入資料可看出它們的差 異。在以線性迴歸模式與支持向量機建構適讀性模式時,研究者需先透過特徵 工程(feature engineering),在文本中選擇出與文本難度相關的文本屬性,並以 這些屬性作為適讀性模式的輸入特徵(Domingos, 2012)。特徵的選擇需要研究 者對適讀性研究的背景知識,例如,他需要從過去的理論研究或自己的經驗 中,發掘哪些文本特徵可能和文本的適讀性有關,並能對這些特徵做出適當轉 換(例如統計出文本的詞頻中數、或計算詞類詞例比率等),使它們能成為模式 的輸入資料。因為特徵的選擇與轉換與過去研究者對適讀性的理論想法高度相 關,所以每個被選出的特徵都有豐富的實徵研究與文獻支持它與文本難度或與 閱讀認知歷程有關係,故本研究將此取向稱為「高輸入透明度」。

有些研究者則是認為特徵工程的準備過程太過勞力密集,而且可能存在一 些難以用口語描述,或現有知識理論中沒有涉及的特徵,這些特徵可以提升適 讀性模式的預測效度。所以,若特徵產生的過程也能由模式從原始資料(如構 成文本的詞彙)自行學習,則可大大簡化準備特徵的過程,甚至提升模式預測 結果(Bengio, Courville & Vincent, 2013)。這類想法可概括稱為特徵學習

(feature learning)或表徵學習(representational learning)。以主題模式和深度 學習模式建構適讀性模式時,對於輸入模式的文本資料就抱持著這樣的的想 法。因為在這種建構適讀性模式的取向中,模式能自行進行表徵學習(亦即,

能從文本所含詞彙學習到哪些特徵與文本的適讀性有關),所以這些模式的輸入 資料是原始的文本詞彙,而詞彙與文本適讀性的關係是由模式決定。在過去的 適讀性研究與理論中,從沒有提過「文本所用的所有詞彙會影響文本的適讀 性」,故本研究將之這種輸入模式的方式稱為「低輸入透明度」。

另一種看待這四個模式的方法則來自於Brieman(2001)的看法。Brieman 認為適讀性模式的背後,蘊含著兩類的「文化」(culture)。不同文化對於如何 從資料(x)導出預測值(y)的想法截然不同。第一種為「資料模式文化」

(Data modeling culture)。認同這種文化的研究者認為,預測模式需透過描述資 料與效標變項間的關係來達成預測。此關係可能是兩者之間在真實世界中的統 計關係、或資料產生機制。在適讀性研究中,以線性迴歸或主題模式建構適讀 性模式的取向可歸在此類別。另一種是「演算法模式文化」(Algorithmic modeling culture)。認同這種文化的研究者認為,x 與 y 之間的關係可能是一個 相當複雜的函數,這個函數本身不必然需符合真實世界中的x 與 y 的關係,只 要能從x 預測出 y 即可。在適讀性研究中,以支持向量機和深度學習建構適讀 性模式的取向可歸於此類別。

資料模式文化與演算法模式文化這兩類模式,其明顯差異在於模式的架構 與模式參數。線性迴歸和主題模式取向的模式架構與參數與資料模式文化一 致,本研究這兩種建構適讀性模式的取向分類為「高參數透明度模式」。基於同 樣的原因,本研究把與「演算法文化」一致的支持向量機和深度學習模式分類 為「低參數透明度模式」。因為本研究將實際的建構出這四種取向的適讀性模 式,所以本章節接下來將分別討論(一)這四種模式是如何將預測文本適讀性 的問題形式化的,(二)在這四種模式中,其輸入資料和輸出預測的關系,以及

(三)在形式化的過程中,模式中的參數如何扮演不同的角色。

一、線性迴歸模式

線性迴歸是過去適讀性研究中長久以來泛用的數學模式。在以線性迴歸建

構適讀性模式時,每個文本屬性都視作為獨立(independent)的解釋變項

(X),當文本的適讀年級被當作被預測的效標變項(y)時,它被視作為連續 的正整數。線性迴歸方程式可用矩陣方法表達如下(假設X 已包含截距項):

y = 𝐗β + e = 𝑦̂ + e

(1.1)

假設資料中有M 篇文本,則這些文本在課本的年級將構成在高維空間的一 組向量(其向量長度為M)。其中,解釋變項所構成的矩陣𝐗,其維度為 M × K

(K 為解釋變項個數)。在適讀性模式中,解釋變項的個數需小於文本個數,故 X 在 M 維度空間中,是由 K 個基底向量所構成的子空間。預測適讀性在線性迴 歸模式是將高維度的m 向量投影至由解釋變項(文本屬性)所形成的低維度空 間(例如,若研究中使用了77 個文本屬性,則構成 77 個維度的向量空間)。此 空間中的基底(bases)彼此不必然正交,但皆是獨立的基底。迴歸模式透過最 小方差法(least squared)尋找高維度空間在此低維度空間的最大投影量,其迴 歸係數為β,並由矩陣運算求得參數。

迴歸模式希望高維度空間(長度M)的向量投影至解釋變項所構成的低維 度空間的誤差要最小,亦即誤差向量(e)需正交於低維度空間(X)。藉由向 量正交的內積等於0 的屬性,β參數可用以下方法估計:

e = y − 𝑦̂

XT⋅ e = 0 XT⋅ (𝑦 − 𝐗β) = 0

β = (XTX)−1XT𝑦

(1.2)

式子1.2 顯示在迴歸模式中,迴歸係數是從矩陣運算中計算而得的。在預

測時,則以一篇文章的屬性乘上係數,得到預測的年級。由於效標變項是連續 的,故從預測年級到實際的適讀年級間需要將預測值轉換到最近的整數,當作 適讀年級預測。

在迴歸模式中,文本屬性與適讀年級的關係皆是矩陣運算,其特色是每個 屬性都會對應到明確的係數,此數值具明確的解釋意義。例如,文本中用字的 筆畫平均數在迴歸模式中對應的係數為0.08,則代表平均而言,在其他變項皆 不變的條件下,平均筆畫數多1,則文本的適讀年級會上升 0.08。除了迴歸模 式的截距項(若不對解釋變項做其他轉換處理的條件下)可能不具備直覺上的 意義外,模式中的每個係數都具備上述可述說的表達方式。

由於一旦經由線性迴歸建構出適讀性模式後,模式架構和參數就固定了,

故研究者多致力於尋找能表徵文本難度的文本屬性,將這些屬性納入適讀性的 迴歸模式。例如,從早期適讀性公式採用的表層屬性,到受認知心理學影響的 Coh-Metrix 屬性,甚至本研究為了操作語法複雜度所計算的罕見語式頻率屬性 等,都是在這個脈絡下提出的。各種文本屬性都只是表達文本難度的一條取 徑。在線性迴歸模式裡,各種不同的屬性或許只分別指涉表層難度、句法難 度、或詞彙語意等層面的訊息,但研究者希望這些變項經由線性組合後,盡可 能逼近「適讀性」的概念。

二、支持向量機

支持向量機和線性迴歸模式都是用文本屬性當作輸入資料,故兩者都是對 文本屬性所構成的高維度空間做運算。然而,相較於線性迴歸模式是將高維度 的向量,經由矩陣運算投影至低維度子空間,支持向量機是透過文本事例

(instances)當作支持向量(support vectors),並藉由這些支持向量的線性組 合,計算出可將文本正確歸類的分類平面。

假設輸入模式的訓練資料共有M 筆(亦即 M 篇文章),每筆資料分別是一

組 𝑢⃗⃗⃗ 向量,其中包括 K 個數字(每篇文章皆有 K 個文本屬性),每個數字皆代𝑖 表一個文本屬性的數值;每筆資料亦包含1 個範圍在 1 至 6 的正整數,代表該 篇文章所在之課本年級。支持向量機試圖在這群文本中找到一組方法,盡可能 正確地將文本分成這6 個類別。在此多重分類(multiclass)的問題中,研究者 通常會用「一對其他」(one-vs-rest)的方法,將 6 個多重類別的分類問題,轉 變為6 個二元分類問題。每個二元分類問題的本質,都是將 m 篇文章分成屬於

(或不屬於)某特定年級(如5 年級)之兩類別。如果這二元分類問題是線性 可分的(linear separable),亦即此空間中存在一個超平面(hyperplane)可區分 這兩類別的事例。

在支持向量機中,該分類超平面可由超平面的法向量(normal vector)𝑤⃗⃗ , 和截距項𝑏來代表。此超平面將空間中的向量分成兩群:所有在超平面「以上」

的事例都會大於0,所有在超平面「以下」的事例都會小於 0。

的事例都會大於0,所有在超平面「以下」的事例都會小於 0。