第五章 結論與未來研究方向
第二節 未來研究方向
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
49
第二節 未來研究方向
本研究利用文字探勘的技術應用於英文文章歸類,針對此研究議題以及研究 中些許不足以及想法,提出未來可以繼續研究的三個部分。
1. 針對文字特徵與語文難易度特徵研究,提升準確度
本論文利用 2005 年賴世雄所編輯的全真模擬試題以及實戰模擬試題來做為 斷詞、建立字庫與特徵詞選取的來源,並作為歸類的依據。在文字特徵方面本論 文所收集的 165 篇英檢模擬試題所選出作為特徵詞彙的有 6002 個,因此,可以 收集更多的英檢文章來建立更完整的辭庫,以利在文字特徵本身的預測準度;而 在語文難易度方面,本論文所選擇的是以往計算文章適讀性時公式裡最常出現的 語文因素,但是以往的公式裡所包含的影響語文難易度的因素還有很多,可以針 對不同的語文難易度特徵下去研究。
在以語文難易度特徵歸類出來的結果為標準答案來測試文字特徵歸類出來 的結果(可以視為兩者之間的相似度)時,僅達五成四,但只代表本論文的文字特 徵歸類結果僅能預測利用平均句長、句數、平均音節數、平均單字長度、不同字 彙數比例以及介係詞片語,六種語文難易度因素,歸類出來的結果,只有五成四 的準度,並不代表不能以文字特徵來預測其他種英文語文難易度或是其他影響英 文文章難易度因素互相搭配後歸類的結果。未來可以針對文字特徵與語文難易度 特徵之間的相似度,看文字特徵是否可以取代語文難易度特徵,更進一步節省歸 類過程的時間。
2. 針對英文新聞的分類做研究
因為英文新聞為大眾可以取得最方便的英文資源,在未來的研究當中,可以 以英文新聞為實驗對象,將此研究架構套用在英文新聞上。但是在這樣的研究當 中,因為英文文章類型與寫作內容並不相似,所做的難易度分類規範也有差異,
也就是說,全民英檢文章與新聞文章可能有用字遣詞以及寫作方式上的差異。嚴 格說起來的話,全民英檢是針對檢測受試者所設計的英文文章,內容包含書信、
廣告等文章;而英文新聞則是寫給一般民眾可以閱讀的文章。他們之間的差異點 在於前者的用字是利用每個級別中不同程度單字,也可以說是在各階段需要習得、
最常使用的單字,作為分類的標準其中之一;後者則是有另一套新聞英文的用字 遣詞的分類標準。另外,前者文章長度、平均單字長度等語文因素也都有經過設
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
50
計;相較之下,後者的語文因素也是依照另一套標準。因此,如何減少中間實驗 時的偏誤,增加實驗結果的準確度、效果,也是一個研究議題。
3. 如何推薦符合讀者程度的英文文章
本論文僅研究利用語文難易度特徵以及文字特徵如何歸類英文文章與測試 準確度,並探討兩者之間的相關性,並未研究如何才能準確推薦讀者適合程度的 英文文章進行閱讀。這牽涉到讀者本身英文程度以及個人興趣因素,因此若朝向 此方向研究,則必須考慮的是如何能夠較快速測試出讀者的英文程度,並推薦讀 者有興趣的英文文章,來達到大量閱讀提升英文能力的目的。
‧
[1]. Berry, M. J., & Linoff, G. (1997). Data mining techniques: For marketing, sales, and customer support.
[2]. Berson, A., Smith, S., & Thearling, K. (1999). Building Data Mining Applications for CRM.
[3]. Chiang, H. K., and Kuo, F. L. (2005). “Promoting Active Learning: Finding Right Articles for Right Learners,” Paper presented at the Fifth International Conference on AsiaCALL, Korea.
[4]. Fayyad, U., Piatetsky-Shapiro, G., & Smyth, P. (1996). The KDD process for extracting useful knowledge from volumes of data. Communications of the ACM, 39(11), 27-34.
[5]. Frawley, W. J., Piatetsky-Shapiro, G., & Matheus, C. J. (1992). Knowledge discovery in databases: An overview. AI magazine, 13(3), 57.
[6]. Grupe, F. H., & Owrang, M. M. (1995). DATA BASE MINING discovering new knowledge and competitive advantage. Information System Management, 12(4), 26-31.
[7]. Han, J., & Kamber, M. (2006). Data mining: concepts and techniques. Morgan Kaufmann.
[8]. Hart, P. (1967). Nearest neighbor pattern classification. IEEE Transactions on Information Theory, 13(1), 21-27.
[9]. Ionin, T., Zubizarreta, M. L., & Maldonado, S. B. (2008). Sources of linguistic knowledge in the second language acquisition of English articles. Lingua, 118(4), 554-576.
[10]. Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data clustering: a review. ACM computing surveys (CSUR), 31(3), 264-323.
[11]. Jeng, C. C. (2001). Chinese readability analysis using artificial neural networks.
Northern Illinois University.
[12]. Makhoul, J., Kubala, F., Schwartz, R., & Weischedel, R. (1999). Performance measures for information extraction. In Proceedings of DARPA Broadcast News Workshop (pp. 249-252).
[13]. McLaughlin, G. H. (1968). Proposals for British readability measures. Paper presented at the The Third International Reading Symposium, London.
[14]. McLaughlin, G. H. (1969). SMOG grading: A new readability formula. Journal
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
52
of Reading, 12(8), 639-646.
[15]. Nagy, W. E. Herman. PA (1987). Breadth and depth of vocabulary knowledge:
Implications for acquisition and instruction. the nature of vocabulary acquisition, 19-35.
[16]. Nie, J. Y., Brisebois, M., & Ren, X. (1996). On Chinese text retrieval. In Proceedings of the 19th annual international ACM SIGIR conference on Research and development in information retrieval (pp. 225-233). ACM.
[17]. Painter, Mark P. (2004). The Legal Writer #24, It's Not Only Lawyers and Judges.
Ohio Lawyers Weekly, 6-14-2004
[18]. Reeve, L., & Han, H. (2005, March). Survey of semantic annotation platforms.
In Symposium on Applied Computing: Proceedings of the 2005 ACM symposium on Applied computing (Vol. 13, No. 17, pp. 1634-1638).
[19]. Rogerson-Revell, P. (2007). Using English for international business: A European case study. English for specific purposes, 26(1), 103-120.
[20]. Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information processing & management, 24(5), 513-523.
[21]. Salton, G., McGill, M. (1983). Introduction to Modern Information Retrieval, New York: McGraw-Hill.
[22]. Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613-620.
[23]. Sebastiani, F. (2002). Machine learning in automated text categorization. ACM computing surveys (CSUR), 34(1), 1-47.
[24]. Simoudis, E. (1996). Reality check for data mining. IEEE Expert: Intelligent systems and their applications, 11(5), 26-33.
[25]. Van Rijsbergen, C. J. (1979). Information Retrieval (2nd ed.). London:
Butterworths.
[26]. Witten, I. H., & Frank, E. (2000). Data mining: practical machine learning tools and techniques with Java implementations. CHEN, Z.
[27]. Zakaluk, B. L., & Samuels, S. J. (Eds.). (1988). Readability: Its Past, Present, and Future. Newark, DE: International Reading Association.
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
53
中文
[1]. 宋佩貞(2009)。台灣審定版國小英語教科書適讀性公式建置與評估(碩士論 文)。國立台東大學。台東縣
[2]. 張瓊霙。英語廣泛閱讀。南投縣國教輔導團英語領域定期會議。
[3]. 陳柏均(2011)。文件距離為基礎 kNN 分群技術與新聞事件偵測追蹤之研究(碩 士論文)。國立政治大學。台北市
[4]. 喻欣凱(2008)。運用支援向量機與文字探勘於股價漲跌趨勢之預測(碩士論 文)。輔仁大學。台北市
[5]. 黃孝文(2010)。雲端運算服務環境下運用文字探勘於語意註解網頁文件分析 之研究(碩士論文)。國立政治大學。台北市
[6]. 黃宣範(1993)。語言、社會與族群意識—台灣語言社會學的研究。台北:文 鶴。
[7]. 黃昭憲(2010)。以語文特徵為基之中學閱讀測驗短文分級。第廿二屆自然語 言與語音處理研討會論文集(頁 98‒112)。 臺灣,南投
[8]. 廖柏森(2004)。英語全球化脈絡裡的台灣英語教育。英語教學,29(1),
107-121。
[9]. 賴伯勇(2005)。論英文教材適讀性之研究與應用。人文及社會學科教學通訊,
16(4),97-120。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
54
網路
[1]. “100 年「全民英檢」考生人數成長,101 年將新增服務.” 網站來源:
http://www.lttc.ntu.edu.tw/gept1/101GEPTnews.htm
[2]. Jesse Dawson.“How To Choose The Best Readability Formula For Your Document.” 網站來源:
http://www.streetdirectory.com/travel_guide/15675/writing/how_to_choose_the_
best_readability_formula_for_your_document.html
[3]. Timothy Bell(1998) .“Extensive Reading: Why? and How?” 網站來源:
http://iteslj.org/Articles/Bell-Reading.html
[4]. 李振清(2009). “閱讀是提升高中生英文能力的致勝關鍵.” 網站來源:
http://cc.shu.edu.tw/~cte/gallery/ccli/abc/abc_127_20090204.htm
‧
‧
‧
14 21 16 11 0.255813953 0.461421256 0.465116279 0.436798297 15 21 24 11 0.255813953 0.47021655 0.395348837 0.393744304 16 22 1 11 0.255813953 0.472508957 0.418604651 0.37993131 17 22 2 11 0.255813953 0.472508957 0.418604651 0.37993131 18 22 8 8 0.186046512 0.46833274 0.418604651 0.407717718 19 22 10 11 0.255813953 0.486491841 0.441860465 0.430952381‧
22 25 10 15 0.348837209 0.500369789 0.441860465 0.438694639 23 27 1 10 0.23255814 0.466523168 0.348837209 0.342476489 30 27 24 11 0.255813953 0.536883739 0.465116279 0.454451346 31 27 25 13 0.302325581 0.487346791 0.441860465 0.439316239 32 27 26 11 0.255813953 0.480212668 0.418604651 0.415873016 33 28 8 8 0.186046512 0.491261899 0.395348837 0.3952455591 23 29 0.674418605 0.680519507 0.674418605 0.593464052 2 32 24 0.558139535 0.636380351 0.558139535 0.560430748 3 33 24 0.558139535 0.608712599 0.558139535 0.465160324 4 28 24 0.558139535 0.604494712 0.558139535 0.510130719 5 29 23 0.534883721 0.588572407 0.534883721 0.491993102 6 30 22 0.511627907 0.572348155 0.511627907 0.473214286 7 18 22 0.511627907 0.567660992 0.511627907 0.428823115 8 17 22 0.511627907 0.567660992 0.511627907 0.428823115 9 1 22 0.511627907 0.567660992 0.511627907 0.428823115 10 19 22 0.511627907 0.567660992 0.511627907 0.428823115 11 20 22 0.511627907 0.567660992 0.511627907 0.428823115 12 21 22 0.511627907 0.567660992 0.511627907 0.428823115 13 22 22 0.511627907 0.567660992 0.511627907 0.428823115
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
59
(A 欄:用於歸類文字特徵加上語文難易度特徵向量之 k 值;
B 欄:歸類為相同的篇數;
C 欄:歸類為相同類別的文章比例;
此處僅列出前 34 筆 F-measure 較好的資料)
14 16 22 0.511627907 0.567660992 0.511627907 0.428823115 15 15 22 0.511627907 0.567660992 0.511627907 0.428823115 16 14 22 0.511627907 0.567660992 0.511627907 0.428823115 17 4 22 0.511627907 0.567660992 0.511627907 0.428823115 18 5 22 0.511627907 0.567660992 0.511627907 0.428823115 19 6 22 0.511627907 0.567660992 0.511627907 0.428823115 20 2 22 0.511627907 0.567660992 0.511627907 0.428823115 21 3 22 0.511627907 0.567660992 0.511627907 0.428823115 22 7 22 0.511627907 0.567660992 0.511627907 0.428823115 23 8 22 0.511627907 0.567660992 0.511627907 0.428823115 24 13 22 0.511627907 0.567660992 0.511627907 0.428823115 25 12 22 0.511627907 0.567660992 0.511627907 0.428823115 26 11 22 0.511627907 0.567660992 0.511627907 0.428823115 27 10 22 0.511627907 0.567660992 0.511627907 0.428823115 28 9 22 0.511627907 0.567660992 0.511627907 0.428823115 29 26 23 0.534883721 0.561929317 0.534883721 0.449494949 30 31 22 0.511627907 0.528718076 0.511627907 0.45977955 31 24 20 0.465116279 0.526333445 0.465116279 0.392485906 32 27 20 0.465116279 0.498641521 0.465116279 0.393939394 33 25 18 0.418604651 0.477935825 0.418604651 0.363810269 34 34 19 0.441860465 0.447848299 0.441860465 0.380952381