國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
1
第一章 緒論
第一節 研究背景與動機
全球化的影響,英文已經變成非母語國家的第二外語,也是現在多數人以此 來進行溝通的媒介。從英語資源方面來看,世界各知名期刊、研討會及學術機構 之研究結果也大都以英文來發表或出版;從現在台灣教育制度方面來看,從國小、
國中、高中到大學,甚至向下延伸從幼稚園開始或向上到研究所都在學習英文;
各種英文檢定:全民英檢、多益、托福、雅思等都很盛行。學習英語的重要性可 以 從 我 們 可 以 獲 得 的 資 源 多 寡 以 及 學 習 階 段 中 英 語 課 程 佔 的 比 例 得 知 。 Revell(2007)也表示學習英文不僅是商務人士用來加強其溝通技能與增加國際競 爭力的必要元素,也是研究人員及學者用來汲取新知的工具。
英文學習不可以只靠背單字、記文法與考試的方式進行,聽、說、讀、寫四 方面都是非常重要。但以英語學習來說,閱讀是一切基礎,學習者要先熟悉詞彙 並了解其含義。在閱讀過程當中,要先透過朗讀將字彙轉換成語音,再由大腦熟 記;最後,則能以適當的詞彙表達內心情緒構思出文情並茂的文章。透過大量的 閱讀,則能將英文能力變成知識擷取工具。所以,閱讀英文文章在學習英文當中,
是非常重要的階段(Ionin et al., 2008)。
在學習的過程當中,除了主動積極的學習態度外,選擇良好的學習教材也很 重要,因為教材的難易度對學習者而言,有非常大的影響力(Chiang & Kuo, 2005)。
在電腦、智慧型手機等設備普及與網際網路早已成熟的這個階段,想要在網路上 找英文資源(文章)並不難,但資訊過量到已經讓想要挑選適合英文文章給自己閱 讀的人感到困擾,或說是自己無法判斷英文文章難易度適不適合自己閱讀。有的 人找到的英文文章對他而言已經超出可以負荷甚至是打擊信心;而有些找到的文 章對於他而言又覺得沒有挑戰性。
在適讀性這個研究上,最早可以推回 1880 年代,L. A. Sherman 英語教授發 現在較短的句子與較具體的文字能夠幫助讀者理解文本內容;文本如果能夠更像 演講說詞,會讓人更容易理解。因為 1920 年代就開始發展適讀性公式,而英文 文章適讀性公式從以前到現在累積了各式各樣的算法,認真說起來,英文文章的
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
2
難度其實牽涉到許多領域,包括語言學、認知心理學、教育學與資訊科學等都對 這一領域有所貢獻(黃昭憲,2010)。每個人覺得英文文章難度判斷標準也都不盡 相同,例如有的人覺得單字是他最大的罩門,文法還不錯,有人卻相反,此差異 隨著每個人在不同的教育背景、環境之下都會有所不同。
而較最近對於英文文章難易度分類的研究中,為了要達到準確度的提升,針 對不同的英文難易度特徵與不同的分類方法下去做研究。難易度特徵包含了不在 以往適讀性公式裡的因素,例如全民英檢初、中、中高級各占比例、句子結構、
字詞頻率等;而分類方法從 kNN、貝氏網路到決策樹等。利用許多的難度特徵 以及不同方法對於準確度上是會有幫助,但是有沒有一個較簡單、過程較不繁複,
並且準確度有一定水準以上的方法,可以幫助分類。而文字探勘這個方法是用來 比較半結構化或非結構化的文章之間的相關性,本論文所要研究的在於可否利用 文字探勘的方法與文字、語文難易度的因素來幫助難易度相似的文章分類,並且 達到較高準確度的效果。
第二節 研究目的
依照研究背景與動機,在這邊說明本研究的目的如下:
1. 找出具公信力的英文文章並建立詞庫。
2. 蒐集英文文章並利用文字探勘的方法來幫助英文文章在難易度上的歸 類。
3. 比較利用語文難易度特徵所歸類出來的結果,是否可以藉由文字特徵加 入後提高準確度。
4. 找出歸類英文文章難易度時使用的 k 值在何時有最好的準確度。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
3
第三節 研究架構
一、緒論
說明本篇論文的研究背景與動機、研究目的,最後為整篇論文的研究架構。
二、文獻探討
說明研究相關的文獻資料。包括從台灣學習英語狀況與英語學習的方式開始,
到較早對於英文文章適讀性的分析作探討外,再探討本論文所使用到的相關技術:
資料探勘與文字探勘。
三、研究方法與設計
首先提出本論文的研究架構、研究範圍,接著針對細部的研究方法做說明,
包括從資料來源的收集到如何利用特徵向量來表示每篇文章;之後,則說明如何 利用這些英檢文章向量使用 kNN 方法來幫助英文文章歸類。
四、研究結果
此部分將會依據自己的研究架構、方法針對所歸類出來的結果做說明。過程 中將會嘗試各種 kNN 中的 k 值,並做各種分析與比較,最後提出往後可以如何 幫助預測英文文章難度的建議以及 k 值使用的推薦。
五、結論與未來研究方向
根據研究結果,整理出本研究的結論與應用於何處之建議,並提出未來研究 方向,以作為此方面研究者的參考。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
4