研究背景與動機

第一章緒論

第一節研究背景與動機

由於網路的發達和電腦的普及，學生接觸電腦的比例也大幅提高，在處處是電腦及網路的環境下，學生很熟悉透過網路瀏覽資料，學生只要輕鬆的輸入一個關鍵字就可以找到許多筆資料，但往往搜尋結果龐大且複雜，且內容涵蓋各個面向，導致學生浪費許多時間在搜尋結果中反覆檢閱才得以找出適合程度及目標的文章資訊。

適讀性(leveling)是一種提供讀者適合自身閱讀能力的文本的作法，Fonutas 和 Pinnell(1999)認為教師在進行教學時，應該了解學生的知識背景和經驗，再推薦合適的教材給學生，才能達到有效的教學。然而研究已顯示太過簡單的資料會讓學生覺得無聊，而太困難的資料會讓學生閱讀充滿障礙(Miltsakaki and Troutt, 2007)。因此，針對不同的學生，提供適合他們能力或程度的教材，是老師在進行教學前的重要準備工作。然而在提供資料給學生進行閱讀與學習之前，必須先對教材文本進行難易度的區分，因此需要一個可以分析教材文本難易度的工具。

可讀性評估(readability assessment)是一種量化文本難易度的方法。過去研究認為透過可讀性評估的方式，可以量化讀者對文本的理解程度，以提供適當的閱讀教材供不同能力的讀者閱讀(Feng, Jansche, Huenerfauth, and Elhadad, 2010)。當學生已經漸漸習慣使用網路蒐集資料並進行學習時，我們應該建立一個良好的文本可讀性評鑑系統，來幫助學生增加他們的自我學習效率與動機，因為有一個良好的文本分析工具，不但可以幫助學生找到適合自己程度的資料，讓學生在搜尋的同時不會因為對內容感到過於艱深而導致無法理解，或因內容太過簡單而感到無聊，導致學習動機的降低，也可以讓使用者在面對龐大的搜尋結果時，能夠迅速得到符合其能力可以理解的資料，以減輕使用者的負擔與時間的浪費。

西方很早就開始對文本的可讀性進行研究與分析，過去很多研究(Flesch, 1979; Gunning, 1952)在可讀性預測多半使用簡單的表面特徵來計算 (如：字數、

平均句長、平均詞長、平均段落數)，利用這些表面特徵，提出許多不同的可讀性公式，這些公式主要是計算文本的表面特徵所呈現的數值代入已知的方程式內，

得到一個分數來當做文本可讀性的指標。有些公式會用常用詞表來計算常用詞比率或者是利用難字表計算難字比例，加入上述表面特徵的公式，如 Gray 和 Leary(1935)以及 Lorge 公式(1939)都使用 Dale-Chall 的 769 個英文常用詞彙表量化文本的可讀性。可讀性發展至今，大部分的學者多以公式來預測可讀性，公式的參數包括詞彙難易度、句子難易度、文體格式與連貫性等，雖然先前的公式多可以得到不錯的預測效果，但是許多學者(Si and Callan, 2001; Petersen and Ostendorf, 2006; Feng et al., 2009)均認為採用簡單的表面特徵變數於判別文本難度可能不是可靠的，在文本的分析上仍不夠周全以及特徵選取上不夠廣泛。例如許多公式認為句長及音節數越長的文本越不容易理解，因此文章中出現越多長句或多音節詞彙則會得到較難的可讀性分數，但 Petersen 和 Ostendorf(2006)認為較長的句子與較長音節的單字並不一定較難理解，學生可能對其平常有在接觸或者是較為興趣的長音節字彙如：Tyrannosaurus(霸王龍)較為熟悉。Feng 等學者(2009) 也認為傳統可讀性的表面特徵變數在分析複雜的科學文本時容易產生混淆。

再者，文本理解的過程除了文本淺層語言特徵的接收，文本的深層語意在閱讀理解的過程中也扮演著重要的角色(Graesser, et al., 2004; McNamara, et al., 2010)。此外，許多心理語言學研究更指出對於某些語言，語意特徵的重要性更大於表面特徵，如西方語言與中文因為語言結構上的差異，使得語言使用者在處理語言訊息也有所不同(Valaki, Maestu, Simos, Zhang, Fernandez, Amo, et al., 2004)。英語使用者在處理英語時，依賴較多來自於句法結構的資訊；而中文使用者在處理中文時，語意扮演著重要的角色，句法的重要性則相對較弱(Su, 2003;

2004; MacWhinney ,1993)。因此在計算中文文本可讀性時，應該更加注重語意特

然而，找出文章中潛藏的語意是一個相當困難的問題 (Yan, Bracewell, Kuroiwa & Ren, 2007; Màrquez, Carreras, Litkowski & Stevenson, 2008)。語意分析包括對文句歧異性的處理，也包含對文本知識內涵的分析。而文本的知識內涵在難易度上的差異無法單從表面特徵區別，因而需要仰賴語意分析的技術。

潛在語意分析是目前廣泛用來進行語意分析的技術，因為具有以下的特色，

使其更適合成為分析文本內涵知識的工具：第一，擷取字句間的意義與人類看法類似，第二，從文章中提取的知識如同人類之理解(Landauer, Foltz & Laham, 1998)。

而潛在語意分析是擷取文本中的語意特徵建構出一個語意空間，再將文本轉換成語意空間中的向量，向量中的數值即代表文本的語意參數，透過語意參數即可了解文本的語意資訊，也可以計算兩文本的內容是否相似。過去研究(Landauer, Dumais, 1997; Landauer, Laham, Rehder, Schreiner, 1997)也指出潛在語意分析對於文章所要表達的概念有一定程度的分辨能力，以往利用潛在語意分析對文章進行相似度的比較結果都十分成功，因此本研究嘗試使用潛在語意分析擷取不同可讀性文本的語意，再整合這些語意資訊進行文本可讀性的分類。

可讀性問題可視為一種文本分類問題，文本分類的相關研究在資訊擷取領域中相當廣泛，Lam 等人(1999)指出在資訊檢索中透過自動化文本分類，可以改善檢索文件的品質。Moens 及 Dumortier(2000)將文本分類應用在推薦期刊雜誌給有興趣的讀者，以節省讀者自行尋找資料及閱讀摘要的時間。其中自動化文本分類所使用的方法是擷取已知類型文本中的特徵，將這些特徵以機器學習的技術，建立模型，來對文本進行分類。由上可知，自動化文本分類方法與可讀性分類方法是類似的，兩者皆是透過擷取文本的特徵，利用機器學習的方式來預測文本的分類。因此可讀性的問題也可視為利用文本特徵透過一個預測的方法將文本進行不同可讀性難度的分類，故本研究嘗試採用文本分類的方法去處理可讀性問題。

然而，如何取得已知可讀性程度的文本是相當困難的。本研究使用國小社會科為文本可讀性分類方法的訓練與測試文本。理由有二：第一，過去許多研究

的適讀年級設為依變項，表面特徵值設為自變項，對文本進行一個分類的處理，

因此本研究也採用教材的學期分類當做可讀性的難易度指標；第二，在社會學科中，各個學期所要敘述的主題皆有其獨特性，從國民教育司制定的國小社會科九年一貫課程綱要（見附錄三）可以發現不同的階段下所敘述的主題皆有不同，因此很適合用來作為分類的標準。藉此本研究透過自動文本分類擷取特徵後建立模型的方法，以潛在語意分析擷取語意特徵，並建立一個國小社會科的語意空間模型，對國小社會科進行可讀性的分類，今天如果有一篇文章的語意與某學期的語意相近，即可以認為此文章難度屬於其相近的學期難度。

本研究採用國小社會科進行分析，為了探討國小社會科每個學期課文所敘述的主題與傳達的知識有所區別，本研究整理三個民間版本教科書各個學期涵蓋的單元名稱如附錄四，擷取其中部分內容如表 1-1。

表 1-1 翰林版社會科四五年級單元名稱

翰林四上翰林四下翰林五上翰林五下

家鄉的地名與位置家鄉的人口臺灣在哪裡追尋先民足跡家鄉的自然環境與生活家鄉的行業臺灣的自然環境國際勢力的競逐

家鄉的開發鄉民的生活臺灣的資源移民的新故鄉家鄉的節慶與民俗活動家鄉的機構人口和聚落變遷現代化的開端家鄉的名勝古蹟與特產家鄉的發展臺灣的區域與交通日本統治下的臺灣

家鄉走透透家鄉的願景關懷臺灣中華民國時期

表 1-1 為國小社會科翰林版本四五年級的個單元名稱，觀察後可發現四年級上學期所敘述的主題與「家鄉的風土民情」有關，四年級下學期的敘述主題與「家鄉的人文生活」有關，五年級上學期的內容則在探討「台灣地理」，五年級下學期所探討的主題則是「台灣歷史」。本研究發現國小社會科在其他的學期也都有教學主題的區別，因此更適合透過潛在語意分析進行以學期為單位的文本分類。

透過上述潛在語意分析可以從文本中的語意資訊計算兩文本的相似度、可讀性問題可視為文本分類問題，及國小社會科課文每學期主題獨立的特性，本研究建構出一套國小社會科的語意空間，透過將文章投影至語意空間中所得的向量，

內所有文本融合後的學期綜合文本進行相似度比對，以了解未定義難度的文本與哪個學期的文本最為類似，進而將此未定義難度的文本分類至該學期。未來若是有一篇未知學期難度的社會科文章，即可以透過潛在語意分析的處理，推測此文章與哪個學期的文章最為接近，來幫助學生選擇最適合自己程度的資料來閱讀。

潛在語意分析透過計算兩文章於語意向量空間中的向量內積值，瞭解兩文章是否相似，但是在潛在語意分析分類的過程，是透過向量維度的轉換，僅能從數

在文檔中使用潛在語意分析建構文本分類模型- 以國小社會科課文為例 (頁 10-15)

第一章 緒論

第一節 研究背景與動機

第一節 研究背景與動機

第一章緒論

第一節研究背景與動機

第一節研究背景與動機