• 沒有找到結果。

使用潛在語意分析建構文本分類模型- 以國小社會科課文為例

N/A
N/A
Protected

Academic year: 2021

Share "使用潛在語意分析建構文本分類模型- 以國小社會科課文為例"

Copied!
81
0
0

加載中.... (立即查看全文)

全文

(1)國立台灣師範大學資訊教育研究所 碩士論文. 指導教授:張國恩. 博士. 宋曜廷. 博士. 張道行. 博士. 使用潛在語意分析建構文本分類模型以國小社會科課文為例 Text Classification Model Based on Latent Semantic Analysis: A Case Study of Textbook for Social Studies in Elementary School. 研究生:黃幀祥 撰 中華民國一百年十二月.

(2)

(3) II.

(4) 摘要 使用潛在語意分析建構文本分類模型-以國小社會科課文為例 黃幀祥 由於網路的發達和電腦的普及,學生常常透過網路來尋找資料,但往往 搜尋結果龐大,且內容涵蓋各個面向,導致學生浪費許多時間在結果中反覆 檢閱才得以找出適合程度及目標的文章資訊。可讀性文本分類可以分辨文本 所屬的難易層級,讓學生可以選擇適合自己程度的文本,以節省學生尋找適 合自己程度的文本的時間。過去可讀性研究多將文本表面特徵代入線性公式 求得一個難易度的分數,但是在中文環境底下,語意特徵就比表面特徵來的 重要,因此本研究利用潛在語意分析技術分析文本的語意特徵,再以語意特 徵作為分類依據對文本進行可讀性的分類。本研究資料採用國小社會科課文, 利用每個學期不同主題的特性,透過潛在語意分析技術建置一個社會科的語 意空間模型,利用建構好的語意空間模型將未知程度的社會科文章分類至所 屬的層級。 本研究在國小社會科以學期為分類 的分類結果,在分析的準確率達 79.06%,在分類上可達到不錯的效果。潛在語意分析提供可讀性研究另一個 角度的思維,以文本所傳達的「語意」為分析依據,特別適用重視語意的中 文環境。 關鍵字:潛在語意分析、可讀性、文本分類. iv.

(5) ABSTRACT Text Classification Model Based on Latent Semantic Analysis: A Case Study of Textbook for Social Studies in Elementary School By Chen-Hsiang Huang Due to the well-developed internet and widely usage of computers, internet becomes the tool for student to mine the information they need. But the results are often complex and huge, students waste a lot of time to review the results again and again to find out the text which is suitable to their ability. Readability text classification can identify the difficulty of the text and students can choose the text which is suitable for them in order to save their time. Many studies of readability put surface features into linear formula to obtain a readability score, but in Chinese, the semantic information is more important than in English. By using Latent Semantic Analysis to analyze the semantic features of text, and classify the readability of text by the semantic information. In this study, elementary Social Study textbook has been used as our data. By utilizing the characteristics of the different themes in each semester, we have constructed the semantic space model of elementary Social Study textbook by Latent Semantic Analysis, and apply the model to classify the unknown readability level texts to the class which they should be classified. In this study, the accuracy of classification is 79.06%. Latent Sementic Analysis inspires us another point of view on readability of text classification, especially for Chinese text whom importance semantic information more. Keywords: Latent Semantic Analysis, Readability, Text Classification. v.

(6) 致謝 從進入師大資訊教育研究所就讀到現在論文完成,我受到了許多人的幫 忙,首先感謝三位指導老師,張國恩老師總是帶著親切的笑容,讓我感到師 生間沒有距離;宋老師嚴謹且積極的研究精神讓我在研究的過程中學到許多 做研究應有的態度;張道行老師細心的批改論文並給予我許多專業的建議, 三位老師皆是我論文完成的最大推手。 再來謝謝可讀性團隊的各位夥伴,尤其是日龢、宜憲、堯暾、茹玲老師, 平常的書報討論總是讓我獲益良多,並且能激發我更多有關於研究的想法, 許多問題也是因為有你們的協助才得以完成。另外特別感謝陳柏琳教授與陳 冠宇學長在潛在語意分析系統上的幫忙。 感謝我的研究所同學及學長姊學弟妹們,謝謝大家大大小小的幫忙,不 管是生活上、學業上、玩樂上,都有你們的足跡。謝謝育琳,在我任何有關 學業上的困難時給我許多提點;謝謝慧萱,在我熬夜寫程式的時候幫忙我蒐 集許多實用的資料;謝謝舒嵐,常常不遺餘力的幫助我許多事情,謝謝宥尹, 偶爾在我感到疲憊的時候陪我放鬆心情;謝謝學弟妹們,我當然沒有忘記你 們幫我整理許多研究上的資料,再次十分感謝! 最後,謝謝家人不時的給予幫助與關愛,讓我在做研究之餘沒有任何的 後顧之憂。還有這一路陪伴我,給我最多的支持與鼓勵的夢珂,論文沒有妳 無法完成,謝謝妳。. vi.

(7) 目錄 表目錄 ........................................................ viii 圖目錄 .......................................................... ix 第一章 緒論 ..................................................... 1 第一節 研究背景與動機 ....................................... 1 第二節 研究目的 ............................................. 6 第三節 研究限制 ............................................. 6 第二章 文獻探討 ................................................. 7 第一節 可讀性 ............................................... 7 第二節 分類問題研究 ........................................ 13 第三節 潛在語意分析 ........................................ 18 第四節 綜合分析 ............................................ 20 第三章 研究方法 ................................................ 22 第一節 資料前處理階段 ...................................... 25 第二節 訓練與測試階段 ...................................... 28 第三節 學期概念重要詞彙建置方法 ............................ 34 第四章 實驗設計 ................................................ 36 第一節 實驗工具 ............................................ 36 第二節 實驗資料 ............................................ 36 第三節 實驗流程 ............................................ 37 第四節 實驗結果 ............................................ 39 第五節 實驗結果之討論 ...................................... 42 第五章 結論與未來發展 .......................................... 50 第一節 結論 ................................................ 50 第二節 未來發展 ............................................ 50 參考文獻 ........................................................ 52 一、中文部分 ................................................ 52 二、英文部分 ................................................ 52 附錄一 各 folds 隨機選取課文之結果 .............................. 57 附錄二 各學期概念重要詞彙 ...................................... 62 附錄三 九年一貫國小社會科能力指標 .............................. 67 附錄四 三版本各學期單元名稱 .................................... 71. vii.

(8) 表目錄 表 1-1 翰林版社會科四五年級單元名稱 ............................... 4 表 2-5 可讀性公式常用特徵表...................................... 11 表 3-2 利用表 2-1 建立的共生矩陣.................................. 29 表 3-3 利用 SVD 分解後的三個矩陣.................................. 30 表 3-4 利用 SVD 分解後降維的三個矩陣.............................. 31 表 3-5 利用 singular value 重建的矩陣............................. 31 表 4-1 各版本教科書課文數........................................ 36 表 4-2 表 4-3 表 4-6 表 4-7 表 4-8. 各 folds 於各維度之準確率.................................. 40 以 LSA 分析各篇課文之結果.................................. 41 分類錯誤之課文表.......................................... 43 四年級上學期被分至五年級上學期的課文...................... 44 五年級上學期部分課文...................................... 44. 表 4-11 康軒版教科書三年級下學期被分錯課文....................... 46 表 4-12 三版本四年級上下學期之單元名與課名....................... 47 表 4-13 分錯課文於各學期概念重要詞彙中的詞彙使用量............... 49. viii.

(9) 圖目錄 圖 2-1 超平面示意圖.............................................. 16 圖 3-1 潛在語意分析概念圖 ........................................ 22 圖 3-2 系統架構圖................................................ 24 圖 3-3 斷詞範例.................................................. 26 圖 3-4 詞性標記範例.............................................. 26 圖 4-1 實驗流程圖................................................ 37 圖 4-2 各維度之準確率............................................ 40. ix.

(10) 第一章. 緒論. 第一節 研究背景與動機 由於網路的發達和電腦的普及,學生接觸電腦的比例也大幅提高,在處處是 電腦及網路的環境下,學生很熟悉透過網路瀏覽資料,學生只要輕鬆的輸入一個 關鍵字就可以找到許多筆資料,但往往搜尋結果龐大且複雜,且內容涵蓋各個面 向,導致學生浪費許多時間在搜尋結果中反覆檢閱才得以找出適合程度及目標的 文章資訊。 適讀性(leveling)是一種提供讀者適合自身閱讀能力的文本的作法,Fonutas 和 Pinnell(1999)認為教師在進行教學時,應該了解學生的知識背景和經驗,再推 薦合適的教材給學生,才能達到有效的教學。然而研究已顯示太過簡單的資料會 讓學生覺得無聊,而太困難的資料會讓學生閱讀充滿障礙(Miltsakaki and Troutt, 2007)。因此,針對不同的學生,提供適合他們能力或程度的教材,是老師在進 行教學前的重要準備工作。然而在提供資料給學生進行閱讀與學習之前,必須先 對教材文本進行難易度的區分,因此需要一個可以分析教材文本難易度的工具。 可讀性評估(readability assessment)是一種量化文本難易度的方法。過去研究 認為透過可讀性評估的方式,可以量化讀者對文本的理解程度,以提供適當的閱 讀教材供不同能力的讀者閱讀(Feng, Jansche, Huenerfauth, and Elhadad, 2010)。當 學生已經漸漸習慣使用網路蒐集資料並進行學習時,我們應該建立一個良好的文 本可讀性評鑑系統,來幫助學生增加他們的自我學習效率與動機,因為有一個良 好的文本分析工具,不但可以幫助學生找到適合自己程度的資料,讓學生在搜尋 的同時不會因為對內容感到過於艱深而導致無法理解,或因內容太過簡單而感到 無聊,導致學習動機的降低,也可以讓使用者在面對龐大的搜尋結果時,能夠迅 速得到符合其能力可以理解的資料,以減輕使用者的負擔與時間的浪費。. 1.

(11) 西方很早就開始對文本的可讀性進行研究與分析,過去很多研究(Flesch, 1979; Gunning, 1952)在可讀性預測多半使用簡單的表面特徵來計算 (如:字數、 平均句長、平均詞長、平均段落數),利用這些表面特徵,提出許多不同的可讀 性公式,這些公式主要是計算文本的表面特徵所呈現的數值代入已知的方程式內, 得到一個分數來當做文本可讀性的指標。有些公式會用常用詞表來計算常用詞比 率或者是利用難字表計算難字比例,加入上述表面特徵的公式,如 Gray 和 Leary(1935)以及 Lorge 公式(1939)都使用 Dale-Chall 的 769 個英文常用詞彙表 量化文本的可讀性。可讀性發展至今,大部分的學者多以公式來預測可讀性,公 式的參數包括詞彙難易度、句子難易度、文體格式與連貫性等,雖然先前的公式 多可以得到不錯的預測效果,但是許多學者(Si and Callan, 2001; Petersen and Ostendorf, 2006; Feng et al., 2009)均認為採用簡單的表面特徵變數於判別文本難 度可能不是可靠的,在文本的分析上仍不夠周全以及特徵選取上不夠廣泛。例如 許多公式認為句長及音節數越長的文本越不容易理解,因此文章中出現越多長句 或多音節詞彙則會得到較難的可讀性分數,但 Petersen 和 Ostendorf(2006)認為較 長的句子與較長音節的單字並不一定較難理解,學生可能對其平常有在接觸或者 是較為興趣的長音節字彙如:Tyrannosaurus(霸王龍)較為熟悉。Feng 等學者(2009) 也認為傳統可讀性的表面特徵變數在分析複雜的科學文本時容易產生混淆。 再者,文本理解的過程除了文本淺層語言特徵的接收,文本的深層語意在閱 讀理解的過程中也扮演著重要的角色(Graesser, et al., 2004; McNamara, et al., 2010)。此外,許多心理語言學研究更指出對於某些語言,語意特徵的重要性更 大於表面特徵,如西方語言與中文因為語言結構上的差異,使得語言使用者在處 理語言訊息也有所不同(Valaki, Maestu, Simos, Zhang, Fernandez, Amo, et al., 2004)。英語使用者在處理英語時,依賴較多來自於句法結構的資訊;而中文使 用者在處理中文時,語意扮演著重要的角色,句法的重要性則相對較弱(Su, 2003; 2004; MacWhinney ,1993)。因此在計算中文文本可讀性時,應該更加注重語意特 徵的重要性。 2.

(12) 然 而 , 找 出 文 章 中 潛 藏 的 語 意 是 一 個 相 當 困 難 的 問 題 (Yan, Bracewell, Kuroiwa & Ren, 2007; Màrquez, Carreras, Litkowski & Stevenson, 2008)。語意分析 包括對文句歧異性的處理,也包含對文本知識內涵的分析。而文本的知識內涵在 難易度上的差異無法單從表面特徵區別,因而需要仰賴語意分析的技術。 潛在語意分析是目前廣泛用來進行語意分析的技術,因為具有以下的特色, 使其更適合成為分析文本內涵知識的工具:第一,擷取字句間的意義與人類看法 類似,第二,從文章中提取的知識如同人類之理解(Landauer, Foltz & Laham, 1998)。 而潛在語意分析是擷取文本中的語意特徵建構出一個語意空間,再將文本轉換成 語意空間中的向量,向量中的數值即代表文本的語意參數,透過語意參數即可了 解文本的語意資訊,也可以計算兩文本的內容是否相似。過去研究(Landauer, Dumais, 1997; Landauer, Laham, Rehder, Schreiner, 1997)也指出潛在語意分析對 於文章所要表達的概念有一定程度的分辨能力,以往利用潛在語意分析對文章進 行相似度的比較結果都十分成功,因此本研究嘗試使用潛在語意分析擷取不同可 讀性文本的語意,再整合這些語意資訊進行文本可讀性的分類。 可讀性問題可視為一種文本分類問題,文本分類的相關研究在資訊擷取領域 中相當廣泛,Lam 等人(1999)指出在資訊檢索中透過自動化文本分類,可以改善 檢索文件的品質。Moens 及 Dumortier(2000)將文本分類應用在推薦期刊雜誌給有 興趣的讀者,以節省讀者自行尋找資料及閱讀摘要的時間。其中自動化文本分類 所使用的方法是擷取已知類型文本中的特徵,將這些特徵以機器學習的技術,建 立模型,來對文本進行分類。由上可知,自動化文本分類方法與可讀性分類方法 是類似的,兩者皆是透過擷取文本的特徵,利用機器學習的方式來預測文本的分 類。因此可讀性的問題也可視為利用文本特徵透過一個預測的方法將文本進行不 同可讀性難度的分類,故本研究嘗試採用文本分類的方法去處理可讀性問題。 然而,如何取得已知可讀性程度的文本是相當困難的。本研究使用國小社會 科為文本可讀性分類方法的訓練與測試文本。理由有二:第一,過去許多研究 (Lorge, 1939; Kincaid, Fishburn, Rogers and Chisson, 1975)對可讀性的計算將文本 3.

(13) 的適讀年級設為依變項,表面特徵值設為自變項,對文本進行一個分類的處理, 因此本研究也採用教材的學期分類當做可讀性的難易度指標;第二,在社會學科 中,各個學期所要敘述的主題皆有其獨特性,從國民教育司制定的國小社會科九 年一貫課程綱要(見附錄三)可以發現不同的階段下所敘述的主題皆有不同,因 此很適合用來作為分類的標準。藉此本研究透過自動文本分類擷取特徵後建立模 型的方法,以潛在語意分析擷取語意特徵,並建立一個國小社會科的語意空間模 型,對國小社會科進行可讀性的分類,今天如果有一篇文章的語意與某學期的語 意相近,即可以認為此文章難度屬於其相近的學期難度。 本研究採用國小社會科進行分析,為了探討國小社會科每個學期課文所敘述 的主題與傳達的知識有所區別,本研究整理三個民間版本教科書各個學期涵蓋的 單元名稱如附錄四,擷取其中部分內容如表 1-1。 表 1-1 翰林版社會科四五年級單元名稱 翰林四上. 翰林四下. 翰林五上. 翰林五下. 家鄉的地名與位置. 家鄉的人口. 臺灣在哪裡. 追尋先民足跡. 家鄉的自然環境與生活. 家鄉的行業. 臺灣的自然環境. 國際勢力的競逐. 家鄉的開發. 鄉民的生活. 臺灣的資源. 移民的新故鄉. 家鄉的節慶與民俗活動. 家鄉的機構. 人口和聚落變遷. 現代化的開端. 家鄉的名勝古蹟與特產. 家鄉的發展. 臺灣的區域與交通. 日本統治下的臺灣. 家鄉走透透. 家鄉的願景. 關懷臺灣. 中華民國時期. 表 1-1 為國小社會科翰林版本四五年級的個單元名稱,觀察後可發現四年級 上學期所敘述的主題與「家鄉的風土民情」有關,四年級下學期的敘述主題與「家 鄉的人文生活」有關,五年級上學期的內容則在探討「台灣地理」,五年級下學 期所探討的主題則是「台灣歷史」。本研究發現國小社會科在其他的學期也都有 教學主題的區別,因此更適合透過潛在語意分析進行以學期為單位的文本分類。 透過上述潛在語意分析可以從文本中的語意資訊計算兩文本的相似度、可讀 性問題可視為文本分類問題,及國小社會科課文每學期主題獨立的特性,本研究 建構出一套國小社會科的語意空間,透過將文章投影至語意空間中所得的向量, 來計算兩兩文章的相似程度。本研究利用此特性將未定義難度的文本與整個學期 4.

(14) 內所有文本融合後的學期綜合文本進行相似度比對,以了解未定義難度的文本與 哪個學期的文本最為類似,進而將此未定義難度的文本分類至該學期。未來若是 有一篇未知學期難度的社會科文章,即可以透過潛在語意分析的處理,推測此文 章與哪個學期的文章最為接近,來幫助學生選擇最適合自己程度的資料來閱讀。 潛在語意分析透過計算兩文章於語意向量空間中的向量內積值,瞭解兩文章 是否相似,但是在潛在語意分析分類的過程,是透過向量維度的轉換,僅能從數 據上瞭解為何該文本會被分類至某學期,單看這些數據難以從文字的角度解釋文 本被分類的原因,故本研究利用原本計算兩文章相似度的方式計算各個詞彙與各 學期的相似程度,以求得與各學期教材主題最相關的詞彙,未來可以進一步用來 了解各學期概念的重要詞彙,但如何使用個學期概念的重要詞彙進行運用,已超 過本論文研究範圍,故不在本論文中討論。 本研究預期能增強中文可讀性評鑑的功能,融入由潛在語意分析技術所建構 的學科難易度的語意空間模型,使學生在選取資料時可以參考該知識於該領域的 難易度的分級,藉此找到自己所需要的資料,增進自己的知識。另外透過瞭解各 學期文本與詞彙的相似關係,也可瞭解社會科各學期的重要詞彙。. 5.

(15) 第二節 研究目的 本研究希望可以使用國小社會科的語料透過潛在語意分析技術,對國小社會 科課文進行語意的分析,並且建置一個社會科的語意空間模型,利用建構好的模 型將未知程度的社會科文章分類至所屬的可讀性層級,並且透過語意空間計算學 期綜合文本與各個詞彙間的相似度,以了解各學期概念的重要詞彙。並將透過潛 在語意分析的可讀性分類結果與傳統使用表面特徵套入可讀性線性公式的結果 進行比較,最後針對潛在語意分析分類錯誤的文章進行錯誤分析,以校正系統的 準確性。. 第三節 研究限制 本研究的文本資料因受限於人力、物力,取自由課程專家編撰,經國家編審 單位審定的三個民間版本教科書(翰林版、康軒版、南一版),國小三年級至六年 級社會科課文共計 320 篇。因此實驗只局限於國小社會科的課文分析,日後若要 將研究結果應用到其他科目或年級,須再擴大實驗之文本資料、樣本,並作更深 入且嚴謹的分析。. 6.

(16) 第二章. 文獻探討. 本研究的相關文獻可以分為兩大部分,第一節探討可讀性,敘述可讀性在西 方研究的成果,常用可讀性公式介紹,及在中文環境下可讀性的研究,並討論是 否能以語意為出發,利用潛在語意分析,將語意的因素融入可讀性之研究。第二 節探討潛在語意分析的基本定義及運作過程,並且討論過去西方研究之結果,以 及在中文環境下的使用可能,探討是否能以潛在語意分析對文章的可讀性進行分 析。. 第一節 可讀性 一、可讀性研究的基本介紹 可讀性(readability)之研究由西方英文體系開始,最早可追溯自 1880 年內布 拉斯加大學的英文文學教授 Lucius Adelno Sherman,他利用統計的觀點去觀察過 去與當時寫作的方式,發現每一百句完整句中,平均一個句子所包含的字數有隨 著年代逐漸下降的趨勢,此一研究開啟了可讀性研究之先例。 不同的學者對可讀性的見解略有不同,Edgar Dale and Jeanne Chall’s (1949) 認為可讀性的定義是「一個文本中所有元素影響讀者用最快的速度看完文本並產 生理解及興趣的程度」 。而 George Klare (1963)則定義可讀性為「對於寫作風格的 了解或理解之容易性」,此一定義跳脫傳統可讀性討論的議題如詞彙內容、文章 連貫性與組織,以寫作的風格為討論的重點。發明 SMOG 可讀性公式的 G. Harry McLaughlin (1969)認為可讀性是「某一特定讀者對於文章內容理解及引起興趣的 程度」。此一定義點出讀者所具備的先備知識、閱讀能力,都與文本的可讀性有 著相互的關係。Gretchen Hargis 和她的同事(1998)則認為可讀性指的是「文章中 詞彙與句子的易懂程度」。此一定義考慮的觀點與 George Klare 類似,兩者都以 讀者對語意內容的理解為討論方向。 可讀性藉由評估文本對閱讀者的易讀性,提供文本一個難易度的評估,而可 讀性的精神也延伸出許多可讀性的公式,透過引入數學模型的計算,對文本的表 7.

(17) 面特徵(如:平均句長、平均音節數…等)進行量化的評估,以求得文本的適讀年 齡或適讀年級。有些學者認為除了計算公式以外,使用詞彙的難易度也影響著讀 者對文本的理解,如 Thorndike(1921)出版了一本教師詞彙書(Teacher’s Word Book),透過觀察英文讀物的詞頻,列出了 10000 個常用的英文詞彙,提供教師 在觀察或測量文本詞彙的難易度時一個客觀且平均的指標,也從此有了「常用字」 的概念。 自十九世紀末開始至今,可讀性已經衍生出許多不同的定義,影響閱讀的任 何可能因素,也都陸續被拿來進行研究與分析,但是各個研究者對可讀性的定義 不外乎都是從閱讀者與文本內容兩個方面來切入探討。唯一不變的就是所有的研 究都承認閱讀的素材有難易之分,選擇適合讀者閱讀層級的讀物,可以得到最大 的閱讀成效。 二、西方可讀性公式介紹 西方可讀性研究一開始是為了替閱讀教材進行適度年級的計算,大多將文本 的表面特徵透過線性回歸的方式求得一個公式,本研究列舉較為著名的公式如 下: 1.. Gray and Leary (1935)歸納出四個影響可讀性的類別:內容、描述風格、編 排、結構,他們也透過計算一段字數約 100 自的文章於 Dale-Chall 的 769 個 英文常用詞表外的難字數、人稱代名詞數目、字數等自變項,計算出一個以 理解成績為依變項的公式,如下: 理解成績 = −0.01029 難字數 + 0.009012 人稱代名詞數 − 0.02094 每句平均字數 − 0.03313 不同詞彙之百分比 − 0.1485 介係詞片語數 + 3.774. 2.. Washburne and Morphett(1938)認為適讀級別的難度隨著不同詞彙數及在 Thorndike 的 1500 詞彙表之外罕見詞彙數的增加而提高,他們也考慮文法 的難易度,認為文法簡單句的數量越多,會使文章越容易閱讀,公式如下:. 8.

(18) 閱讀級別 = 0.00255 不同詞彙數 + 0.0458 罕見詞彙數 − 0.0307 文法簡單句數 + 1.294 3.. Lorge (1939)認為考慮越多的可讀性因素,可以使可讀性公式的預測能力提 高,但是計算的過程相對的較為麻煩,他以每句平均字數、每百字中介係詞 片語數、每百字難字數(Dale-Chall 的 769 個英文常用詞表外之字數)來預測 文本的適讀年級,公式如下: 年級 = 0.07 每句平均字數 + 0.1301 介係詞片語數 0.1073 難字數 + 1.6126. 4.. Dale and Chall(1948)的公式最常被使用在教育的領域,他們僅採用兩個指標 來計算可讀性的分數,分別為難字比例(Dale 的 3000 個英文常用詞彙表以 外的詞彙)與每句平均字數,公式如下: 難易度分數 = 0.1579 難字比例 + 0.0496 每句平均字數 + 3.6365. 5.. Flesch Reading Ease 公式(Flesch, 1948)將文章的可讀性分數定義為「閱讀舒 適度」,為 0 到 100 分之區間,分數越高越易讀,他認為詞彙的音節數代表 著詞彙的難度,音節數較多的詞彙相對較難,導致可讀性分數降低,與以往 使用常用字表來辨認詞彙的難易度有所不同,除了音節數以外 Flesch(1948) 還考慮了每句的平均字數,公式如下: 閱讀舒適度 = 206.835 − 0.846 每百字平均音節數 − 1.015 每句平均字數. 6.. Flesch Kincaid 公式(Kincaid, Fishburn, Rogers and Chisson, 1975)改自 Flesch Reading Ease 公式。輸出的數值可以對應到美國學校的年級程度,其數值越 高,表示需要越高年級程度的讀者才能讀懂。若分數為 8.5 分則表示該文本 適合八年級的美國學生來閱讀。公式如下: 年級 = 0.39 每句平均句長 + 11.8 每字平均音節數 − 15.59. 9.

(19) 三、中文可讀性公式介紹 1.. 楊孝濚(1978)利用單字超過十劃的百分比、平均句長、難字百分比三個指標 透過迴歸分析發展出一套中文的可讀性公式,公式如下: 年級 = 0.1788 單字超過十劃的百分比 + 0.1432 平均句長 + 0.6375 難字百分比. 2.. 楊孝濚(1978)之後又將其公式進行修正,利用詞彙數、句數、平均筆劃數, 來對文章進行分類,公式如下: 年級 = 14.95961 + 39.07746 × 詞彙數 − 2.48491 × 平均筆劃數 + 1.11506 × 句數. 3.. 荊溪昱(1995)分別以「文句長度」及「用字難度」兩個角度去探討課文的可 讀性,荊溪昱又將文句長度分為「文章長度」與「平均句長」,透過計算上 述兩特徵於文章中的值而得,而用字難度則透過計算常用字比率去得到文章 的用字難度。利用以上三個自變項,透過迴歸分析計算出依變項為年級及學 期的可讀性公式,分別如下: 年級 = 17.52547988 + 0.00242523 課文長度 + 0.04414527 平均句長 − 18.33435443 常用字比率 學期 = 34.53858379 + 0.00491625 課文長度 + 0.08996394 平均句長 − 36.73710603 常用字比率. 四、表面特徵之不足 西方從很早就開始進行可讀性的研究,而可讀性的重要性對於中文來說也是 不可或缺的。但是有學者指出可讀性雖然被很多學者所研究,但是這些研究中所 提到的 readability formula 都偏向美式英文,對於非美式英文的篇章寫法可能不 是很恰當 (Klare, 1963)。 觀察過往可讀性所探討的變項,發現所有公式都是以文本的表面特徵進行計 算,根據 Dubay, W.H.(2004)整理可讀性公式常用特徵表,對可讀性公式常用之文 本特徵進行整理,觀察常用的文本特徵如下: 10.

(20) 表 2-5 可讀性公式常用特徵表 文本特徵. 文本指標. 研究學者 Flesch(1948、1975). 平均音節數. 詞彙. 單音節數. McLaughlin(1969) Farr、Jenkins 和 Paterson(1951). 人稱代名詞數. Gray 和 Leary(1935). 介係詞片語數. Gray 和 Leary(1935) Washburne 和 Morphett(1938). 不同詞彙數. Gray 和 Leary(1935) Gray 和 Leary(1935) Lorges(1939) Flesch(1948、1975). 句子. 平均句長. Farr、Jenkins 和 Paterson(1951) Gunning(1952) Bormuth(1966) McLaughlin(1969). 平均句數. Fry(1977) Gray 和 Leary(1935). Dale-Chall 769 字表 字表. Lorges(1939) Dale 和 Challs(1948). Dale-Chall 3000 字表. Bormuth(1966) Washburne 和 Morphett(1938). Thorndike 1500 字表. 由表 2-5 可以發現西方可讀性公式通常以詞彙難易度及句子難易度兩個方向 去進行文本難易度的計算。句子難易度的計算通常以平均句長及平均句數來進行 分析,而詞彙在難易度的計算會以音節數的長短、部分詞性及常用詞比率來做分 析,例如過去研究認為人稱代名詞在文章中使用過多的話容易造成指涉上的混淆 以及閱讀理解上的困難(Graesser, McNamara, Louwerse, & Cai, 2004)。而在音節數 的分析也有研究者認為詞彙的音節數代表著詞彙的難度,音節數較多的詞彙相對 較難,導致可讀性分數降低(Flesch, 1948)。常用詞比率則是透過計算文本中使用 之常用詞數求得,Bormuth(1966)認為使用越多 Dale-Chall 常用詞彙表的詞彙, 文章越易閱讀,因此使用越多常用詞表的詞彙在理解的難易度上會比使用較少的 更簡單。 11.

(21) 中文在可讀性的研究一開始是仿照西方的方式,將文本內容直接套入公式進 行可讀性的計算,如于宗先(1960)應用 Flesch 的公式發表了「臺灣報紙可讀性之 研究」,開啟了英文可讀性公式應用於中文文本分析的首例,該研究者也指出將 英文可讀性公式應用在中文環境的效果會有所偏差。荊溪昱(1995)觀察西方可讀 性常用之變項,以國小至高中的國文科課文為建模之資料,將「文章長度」 、 「平 均句長」及「常用字比率」三個自變項利用線性回歸的方式,推導出一個適合中 文環境的可讀性公式,其公式能解釋超過 84%的年級變異量,具有國文教材或 一般中文讀物適讀年級值之效用。 觀察中西方的可讀性公式,都是以表面特徵套入線性方程式對可讀性進行一 個量化的評估,但是也有學者認為,傳統的表面特徵雖然容易求得,但是仍有它 的缺陷,例如句子的長度並不總是能表現語法的困難程度,音節數的計算也不完 全代表著詞彙的難易程度(Petersen and Ostendorf, 2006)。表面特徵在計算科學文 本時也較容易失去其正確性(Feng et al., 2009)。僅使用表面特徵來計算文本可讀 性的方法,反而忽略了文本真正所要表達的內涵知識及語意。過去研究也指出, 文本理解的過程除了文本淺層語言特徵的接收,文本的深層語意在閱讀理解的過 程中也扮演著重要的角色(Graesser, et al.,2004,McNamara, et al., 2010)。英語使用 者在處理英語時,依賴較多來自於句法結構的資訊;而中文使用者在處理中文時, 語 意 扮 演 著 重 要 的 角 色 , 句 法 的 重 要 性 則 相 對 較 弱 (Su, 2003; 2004; MacWhinney ,1993)。而潛在語意分析因為擁有以下的特色:(1)擷取字句間的意 義與人類看法類似(2)從文章中提取的知識如同人類之理解,使之更適合成為分 析文本內涵知識及語意的工具。故本研究以分析文本內涵知識及語意為出發,藉 由不同學習階段所接收的知識有所分別的特色,將國小各學期之文本進行分析與 分類,以文本內涵知識及語意關聯為分類依據進行可讀性之文本分類。. 12.

(22) 第二節 分類問題研究 分類問題在各個領域中皆有所應用,如在生物學領域中利用物種的特徵作物 種的分類,醫學領域中利用不同症狀的特徵進行疾病診斷的區分,工程領域如人 臉辨識、語音辨識等系統,在資訊檢索領域中利用文本特徵進行新聞或者垃圾郵 件的分類。然而本研究所探討的可讀性問題屬資訊擷取領域中的文本分類領域, 而過去研究在不同的文本分類問題上採用許多分類方式,以下整理過去研究者針 對不同分類問題依照資料特性進行分類的結果,並討論幾種常見的文本分類方 法。 一、文本分類實例 Androutsopoulos 等人(2000)使用 KNN 及簡單貝氏分類的方法進行垃圾郵件 的過濾,他們使用的語料庫包含 2893 個郵件,其中有 481 個是垃圾郵件。在兩 種分類的過程中,皆是以文本中的詞彙為特徵參數,再利用 KNN 和簡單貝氏分 類的方法進行分類。結果顯示兩種分類方法皆可以有效的對垃圾郵件進行過濾, 在準確率上不相上下,但是他們也發現 KNN 的參數配置與準確率有相當大的關 係。 Zhijie 等人(2010)曾探討不同分類方法(SVM、KNN、簡單貝氏分類)在分四 種主題文本(自然環境、運動、政治、藝術)的準確率為何,他們以文本中的詞彙 為特徵參數,對一個 7400 篇文本的語料庫進行分析,分類的結果顯示三種分類 方法皆有不錯的效果,其中 SVM 的分類方法效果優於另外兩種分類方法。 Yang 和 Liu(1999)也曾對不同的分類方法進行比較,他們用線性最小平方 (Linear Least Squares Fit, LLSF)、簡單貝氏分類、ANN、SVM、KNN,針對路透 社的 Reuters-21578 新聞語料進行分析,最後他們發現 SVM、KNN、LLSF 在每 一種類別的訓練樣本低於 10 篇的情況時,分類準確率顯著優於 ANN 與簡單貝 氏分類,若是每一種類別的訓練樣本 300 篇,這五種方法沒有顯著的差異。 Si 和 Callan(2001)將可讀性問題視為文本分類問題,他們利用統計語言模型. 13.

(23) 結合表面特徵中的句長資訊分析網路上的自然科學文本,並和傳統使用表面特徵 的線性公式 Flesch-Kincaid 進行比較,他們對網路上的自然科學文本進行高、中、 低三個程度的分類,訓練資料共計 30 篇,每一種分類底下皆有 10 篇資料,以此 建立分類模型,測試資料為網路上的文本共計 61 篇,結果發現統計語言模型分 類與表面特徵結合的分類結果準確率達 75.4%,比以往使用表面特徵資訊的線性 公式 Flesch-Kincaid 的分類準確率(21.3%)還要好。 Liu 等人(2004)也將可讀性問題是為文本分類問題,他們利用 SVM,以詞彙 資訊分析讀者透過搜尋引擎找到的文本,意圖幫助讀者找到屬於他們閱讀程度的 資料,他們僅針對這些文本進行兩種粗略的分類,第一種是分三類,為國小、國 中、高中三類,第二種是分兩類,為在學、非在學兩類,結果顯示兩種分類的準 確率皆可以達到 80%以上,雖然在類別的選取上不夠細緻,但是該研究也證實了 利用非表面特徵的詞彙資訊對文本進行分類,在分類上的效果也是不錯的。 二、文本分類模型 以下整理上述分類實例中常見的文本分類模型,並且探討其優缺點。 1.. 向量空間模型 向量空間模型(Vector Space Model, VSM)最早由 Gerard 於 1975 年提出。在. 此模型中,任何一個文本被描述成「由一系列關鍵詞組成的向量」,而關鍵詞的 單位可以是字、詞,甚至是句子。如果今天關鍵詞單位為詞,那在辭典中任何一 個詞都被定義為向量空間中的一維,因此一任何一個文本都可以被定義成一個多 維的向量。 透過上述的作法,任何一個文本都可定義一為一個向量值,便可利用此特性 計算兩文本向量夾角的餘弦值,得到兩文本的相似度。今天若是有一篇未分類的 文本向量,就可以透過計算與已分類文本的向量求得未分類文本的所屬類別。假 ⃑ 為未分類的文本向量,則兩文本的相關性可以透過以 ⃑ 為已分類文本向量,𝑄 設𝐷 下式子計算兩向量餘弦值:. 14.

(24) ⃑ ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝐷 ⃑)= ⃑ ,𝑄 ⃑ ,𝑄 𝑠𝑖𝑚(𝐷. ⃑ ⃑ ∙𝑄 𝐷 ⃑| ⃑ ||𝑄 |𝐷. 傳統向量空間模型由於各個維度之間缺乏相關性,因此如果文章中出現許多 同義詞或者是一詞多義的狀況,會嚴重影響文本分類的結果,例如文章中若是使 用許多同義詞,則計算相似度時縱使文章的意義相同,也會因為使用不同的詞彙 而造成相似度低估的情況發生,反觀若是文章中使用許多多義詞,在計算相似度 時縱使文章的意義不同,也會因為使用相同的詞彙而造成相似度高估的情況發生。 從廣義來看此種分類方式僅僅是以關鍵詞出現的資訊來進行分類,在分類的效果 上並不理想。 2.. 支援向量機 支援向量機(Support Vector Machine)是一種分類方法,由波蘭數學家 Vapnik. 根據統計學習理論所提出的一種機器學習方法。SVM 的主要概念是擷取資料特 徵參數,並在高維特徵空間中尋找類別間的超平面(hyperplane),以進行類別的 分類。 以下圖 2-1 之二維特徵空間為例,SVM 試圖找到一條線能夠將白點與黑點 兩類的資料分開,且兩個類別界線間的空間越大越好,在高維模式下,H1 與 H2 稱為區分超平面(separating hyperplane),而與兩區分超平面的邊界(margin)距離最 的的平面則稱為目標區分超平面(optimal separating hyperplane),SVM 的目標就 是求得具有最大邊界區間的超平面。. 15.

(25) H2: separating hyperplane. margin. H1: separating hyperplane. optimal separating hyperplane 圖 2-1 超平面示意圖. 然而,由於 SVM 必須事先擷取資料的特徵參數,導致 SVM 的準確率會受 到特徵參數選擇的影響,當資料量大時計算的時間非常耗時。此外 SVM 也無法 直接解釋特徵參數與分類結果的關係。 3.. K 個最近鄰居法 K 個最近鄰居法(K-Nearest Neighbor, KNN)採用向量空間模型來進行分類,. 將已知分類的大量文本當做訓練資料集,在進行分類預測時,會先計算未知類別 文本與以訓練資料集中所有文本的相似度,並設定一個相似度門檻值,留下高於 相似度門檻值的結果,並且統計剩下結果中各類別的文本數,依多數決判定未知 文本的所屬類別。今已知類別訓練資料集 D 中包含 k 個已知 NN 類別文本,利 用 KNN 計算未知文本 Q 可能的類別,步驟如下: (1) 依向量空間模型計算 Q 與𝐷1、𝐷2、𝐷3、…、𝐷𝑘 之相似度,得到𝑠𝑖𝑚(𝑄, 𝐷1 )、 𝑠𝑖𝑚(𝑄, 𝐷2 )、𝑠𝑖𝑚(𝑄, 𝐷3 )、…、𝑠𝑖𝑚(𝑄, 𝐷𝑘 )。 (2) 將𝑠𝑖𝑚(𝑄, 𝐷1 )、𝑠𝑖𝑚(𝑄, 𝐷2 )、𝑠𝑖𝑚(𝑄, 𝐷3 )、…、𝑠𝑖𝑚(𝑄, 𝐷𝑘 )進行排序,若是超 過相似度門檻值則放入各類別集合 NN。 (3) 從各類別集合 NN 中依多數決,判斷未知文本屬於何 NN 類別。 然而,KNN 的分類方法必須記憶所有訓練資料集,待分類文本也必須與訓 16.

(26) 練資料集中的所有文本進行相似度的計算,在處理時十分耗費資源及時間,因此 不適合處理大量或高維度的資料。 4.. 貝氏分類法 貝氏分類法(Bayesian Classifier)最大的特色是利用已知的事件發生之機率來. 推測未知資料的類別,是以機率、統計學為基礎的分類方法。貝氏分類法最大的 優點在於其具有漸增性的特色,所謂漸增性就是當分類模型建立好以後,若是新 增了新的訓練資料,貝氏分類法不需要重新建立模型,相較於其他方法如 SVM, 漸增性的優點可以節省模型重建的時間。但是由於貝氏分類法是基於條件機率的 理論進行分類,必須滿足各個變數之間互為獨立的假設,然而文本在各個變數間 的關聯十分緊密,例如字數與詞數皆會影響文章長度的變數,因此難以滿足變數 間互為獨立的條件。 文本分類的技術主要是依據已知類別資料的特徵資訊進行分析,得到個分類 的分類規則後,在將未知類別資料透過分類規則分類。其中依照不同資料的特性, 擷取特徵資訊的方式也有所不同。基於本研究所採用的國小社會科資料在個學期 主題有所不同的特性,本研究使用潛在語意分析擷取社會科的語意特徵資訊,在 透過計算未知文本與已知文本在語意資訊上的相似程度,來對文本進行分類。. 17.

(27) 第三節. 潛在語意分析. 潛在語意分析(Latent Semantic Analysis, LSA)最早是由 Deerwester 等人 (Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990)所提出的一個提取語意 的演算模式。潛在語意分析假設一個字的字義是由此字出現的文章中同時出現的 其他字義所共同決定的,在它的演算法中利用文章與文章間詞彙出現的頻率及詞 彙間彼此之間的頻率關聯性來表徵出文章的語意或概念。其方法是利用 m*n 維 的矩陣空間表示 m 個「詞彙」與 n 篇「文件」的關係,再將此 m*n 維矩陣利用 奇異值分解(Singular Value Decomposition, SVD)的方式,將語料庫中的語意結構 建立出來。此技術的特色就是可以把原本從文件淺層字面上無法直接發現的深層 「語意關係」甚至是「知識」分離出來,大幅提昇了資訊擷取的有效性,而這也 是 Deerwester 將此分析方式稱之為「潛在」語意分析的原因。 潛在語意分析透過建置語意空間來計算每個詞彙、段落,甚至整篇文章的相 似關係,而這些被計算的詞彙、段落、文章,都是以向量的方式呈現其位於語意 空間的相對位置。當我們要計算兩個段落或者文章的相似度時,我們可以利用兩 個向量夾角的餘弦值(cosine value)來表示,餘弦值愈大,表示兩個向量夾角愈小, 兩個文件的語意愈相似,反之餘弦值愈小,兩向量夾角愈大,兩個文件的語意愈 不相同。因此,詞彙、句子、段落三者彼此之間語意相似性的評估,都可以透過 計算任何兩組合位於語意空間中兩兩向量夾角之餘弦值求得(Landauer et al., 1998)。 Landauer 和 Dumais(1997)曾將此技術引進心理語言分析的研究領域。他們認 為如果有一個大型的語料來源能夠反映人們所擁有的知識,即可以利用潛在語意 分析的技術分析此語料,建置出一個能表現此語料中所有詞彙關係的語意空間。 他們以葛羅里學術百科全書(Grolier's Academic American Encyclopedia)做為他們 建置語意空間的語料來源。首先,他們建立了一個有 60,768 個詞(term)*30,473 個段落的共生矩陣(term-to-document co-occurrence matrix)。此一共生矩陣中的每. 18.

(28) 一個值都可以對應到一個「詞彙」與一個「段落」,而這個值即代表某「詞彙」 於某「段落」中出現的次數。接著透過奇異值分解來進行維度的約化,將原本的 「詞彙」*「文件」的共生矩陣化簡,使原本的矩陣簡化成一個 300 維度大小的 矩陣,此矩陣即代表葛羅裡學術百科全書的語意空間,而該語意空間就可以把隱 藏在百科全書中所有詞彙背後的語意關連性計算出來。 Landauer、Laham、Rehder 及 Schreiner(1997)曾探討不考慮語法結構的潛在 語意分析所理解的文章語意是否因為忽略了文句間的語法結構而與人類的認知 有所不同,他們設計了一個實驗,利用潛在語意分析去計算學生的測驗卷與課本 間的相似性,與課本相似度愈高的測驗卷得到愈高的分數,相似度愈低的則否, 結果顯示潛在語意分析所評斷的分數與人工評斷的分數沒有顯著的差異,他們推 論不考慮語法結構的潛在語意分析技術對文章語意的理解與人類對文章語意的 理解有相當高的一致性。Foltz(2007)則是利用潛在語意分析去計算文章中詞彙對 於整篇文章的語意關聯性,研究發現詞彙與辭彙之間的關聯性隨著其距離的增加 而下降,這個結果也再度證明潛在語意分析對辭彙的分析結果與人類對文章的理 解相符。 Kireyev 與 Landauer(2011) 提 出 每 個 單 字 在 字 義 上 都 有 其 成 熟 度 (word meaning maturity),他們利用潛在語意分析的技術建立兩個語意空間,分別為中 級程度的單字與成人程度的單字,在將此兩個語意空間透過普氏分析(Procrustes analysis,PA)進行整合,透過計算文章中出現的單字與中級程度單字或成人程 度單字的餘弦值來進行可讀性的分析,結果顯示採用潛在語意分析計算的字義成 熟度比採用傳統特徵指標採用字詞頻率(Word Frequency),在有效性上皆來得 高。 潛在語意分析還有一個很大的特色,就是可以跳脫語言環境之限制,因為潛 在語意分析計算一個詞所表達的意思的方式是計算該詞彙與其他詞彙出現的向 量關係,不需要使用文法架構或者事先定義詞彙意思,對於文字的理解方式與人 類依賴背景知識、經驗而有所不同(Landauer et al., 1998),所以可以適用於任何 19.

(29) 的語言。也就是說,無論是任何語言,只要能預先建立好「詞彙」*「文件」的 共生矩陣,都可以利用潛在語意分析的技術建置出該語系的語意空間。 在中文的環境底下,陳明蕾,王學誠,柯華葳(民 98)利用中央研究院 2006 年發售之語料庫建立一個有 49,021 關鍵詞與 9,277 篇文章的矩陣,將這個矩陣建 立一個中文的語意空間進行詞彙與句子、詞彙與文件之間語意關聯性的比對。實 驗結果顯示,以潛在語意分析技術所建置的中文語意空間,能反應中文讀者內在 心理詞彙表徵間之語意關聯性。 張國恩與宋曜廷(2005)曾利用潛在語意分析技術建立一個可以自動評量小 六學生閱讀摘要寫作的系統,評量的主題分別為:族群與群落、端午節。而主題 「族群與群落」的語意空間詞彙量為 488、901 及 1557 個詞,主題「端午節」 則是 1340、2176 及 2921 個詞。利用這兩個主題的語意空間對小學六年級的學生 進行閱讀摘要的評分計算,結果發現以向量餘弦值為計算標準的評分結果,與老 師人工評量的分數,在相關性上都有達到顯著水準。 觀察上述研究發現,潛在語意分析對於文章所要表達的概念有一定程度的分 辨能力,過去利用潛在語意分析對文章進行分類或比對相似度的結果都十分成功。 故本研究擬採用潛在語意分析對國小社會科課文進行分析,建構出一個國小社會 科的語意空間模型,並驗證其有效性。. 第四節. 綜合分析. 透過上述的說明,我們了解了潛在語意分析的特性,在未經過處理的共生矩 陣中,詞與詞之間語意的相關程度沒有辦法明顯的表現出來,但是透過奇異值分 解將矩陣拆解,並且選擇適當的維度將原本的共生矩陣重建過後,就可以把文章 中出現過的語意擷取出來,透過建構潛在語意空間,我們可以將任兩篇文章投影 至空間中進行相似度的計算及比對。 潛在語意分析是透過詞彙與詞彙彼此共同出現的關聯建立出語意空間,在知 識學科上,由於每個學期課文所敘述的主題與傳達的知識有所區別,這種現象在. 20.

(30) 社會科十分明顯,觀察國小社會科各個學期的課程綱要(附錄四),發現個學期 中各單元底下的課文所描述的內容都有一定程度的聚焦,此種課文的特性尤其適 合透過潛在語意分析的技術進行分類,因為在同一主題下,既使是不同的課文, 採用詞彙的意涵都會與主題相關而有所相似。透過潛在語意分析可以從文章中提 取知識及國小社會科課文每學期主題獨立的特性,本研究擬先利用語料庫中百分 之八十的資料當做訓練資料建構出一套國小社會科的語意空間,再將訓練資料中 八個學期的課文分別進行融合,並且投影至語意空間中得到八個向量。接著將語 料庫中百分之二十的資料當做測試資料,將測試資料的文本投影至語意空間,與 八個學期綜合課文的向量進行相似度的計算,進而了解未知程度文本應歸類至哪 一個學期。. 21.

(31) 第三章. 研究方法. 潛在語意分析將大量的高維(m 維)的文本透過奇異值分解建立出低維(k 維)的語意空間,再將任意 m 維的文本向量經過數學轉換降維至 k 維,我們可 以將這個概念理解成一個本來由 m 個詞彙組成的文本,經過轉換以後成為一個 由 k 個詞彙組合表示的文本,每個詞彙組合都有一個參數值,這 k 個參數值即表 現出該文本於 k 維語意空間中的向量位置,透過計算兩向量之間的餘弦值即可比 較兩文本間的相似程度,可以用下圖 3-1 來表示。 圖 3-1 潛在語意分析概念圖 高維向量文本(m維). 高維向量文本(m維). 語意空間中 低維向量(k維). 語意空間中 低維向量(k維). 潛在語意分析. 相似度計算. 語意空間中 低維向量(k維). 高維向量文本(m維). 本研究提出使用潛在語意分析建構可讀性分類模型之方法,包含了資料前處 理階段、訓練階段與測試階段及學期概念重要詞彙建置方法。資料前處理階段包 含三個模組,為斷詞模組、詞性篩選模組與 TF-IDF 模組。訓練階段包含了兩個 模組,分別為建立共生矩陣模組與 SVD 維度約化模組。而測試階段則包含三個 模組,分別為建立共生矩陣模組、矩陣重建模組,及 cosine 相似度計算模組。學 期概念重要詞彙建置方法則敘述建置學期概念重要詞彙的三個步驟。 資料前處理階段、訓練及測試階段中各模組間的關係圖如圖 3-2 所示。在資 料前處理階段中,本研究先利用斷詞模組將文本內的各個詞彙斷開並進行詞性的 標記,在透過詞性篩選模組將部分詞性予以排除,最後再透過 TF-IDF 模組正規 化各個詞彙的詞頻,以保留各個詞彙的重要性。.在訓練階段中,將訓練資料透 過資料前處理階段所產出的斷詞文件透過建立共生矩陣模組進行共生矩陣的建. 22.

(32) 置,並且透過 SVD 維度約化模組對共生矩陣進行維度約化,以產生語意空間模 型。在測試階段中,先利用建立共生矩陣模組產出未知難度文章的共生矩陣,再 利用語意空間模型的資訊,將未知難度文章的共生矩陣透過矩陣重建模組進行矩 陣重建,以求的相同維度之矩陣,最後再透過 cosine 相似度計算模組將未知難度 文章與已知難度的訓練資料文章進行 cosine 相似度計算,以求得未知難度文章所 屬之分類。 學期概念重要詞彙建置方法中包含三個步驟,分別為計算單一詞彙於語意空 間中的向量、計算學期綜合文本於語意空間中的向量、計算學期綜合文本向量與 單一詞彙向量之 cosine 值。主要是透過潛在語意分析中的矩陣重建模組,將單一 詞彙與學期綜合文本轉換成語意空間中的向量,再利用 cosine 相似度計算模組計 算學期綜合文本與單一詞彙的 cosine 值,可求得個學期的詞彙分布,並將詞彙依 照 cosine 值進行排序,得到各學期中詞彙的重要排名。. 23.

(33) 社會科課文 (320筆資料). 斷詞模組. 詞性篩選模組. TF-IDF模組 訓練階段. 測試階段. 訓練資料. 測試資料. 建立共生矩陣模組. 建立共生矩陣模組. SVD維度約化模組. 語意空間模型. 矩陣重建模組. cosine相似度計算模組. 文本預測結果. 圖 3-2 系統架構圖 24.

(34) 以下各小節將一一介紹各模組的運作情形,第一節敘述於資料前處理階段中 的三個模組,第二節起敘述資料於訓練及測試階段的處理情形,並且以一個實例 (表 3-1)來說明潛在語意分析的運作方式。. 第一節 資料前處理階段 本節將敘述資料前處理階段中各個模組的運作情形,包含斷詞模組、詞性篩 選模組及 TF-IDF 模組,詳細內容如下說明: 一、斷詞模組 本系統所使用的中文斷詞系統是由高雄應用科技大學資訊工程系張道行老 師所主持的智慧型系統實驗室提供。斷詞系統所依賴的語料庫是參考中央研究院 提供的中文詞庫、漢語平衡語料庫及中文句結構樹資料庫所建置而成。此斷詞系 統使用的斷詞方法為「正向常詞優先法(Forward Maximum Matching)」再加上貝 氏機率來實作。系統語言使用 Borland C++撰寫。 本研究所使用到斷詞程式中兩個主要的功能,分別是斷詞功能與詞性標記功 能,詳述如下: 1. 斷詞功能 中文的句法(syntactic)和語意(semantic)基本單位是「詞」而非「字」(許菱祥, 1986),單獨的中文字未必是語句分析的最小單位。由此可知,在處理中文文本 時,應以詞為單位對文本進行斷詞的處理,然而,從過去的經驗發現,英文與中 文在書寫的過程中有明顯的差異,英文的句子在書寫的過程中,每個單字中間都 有一個空白做區隔,可以容易的擷取文句中的所有詞彙。但是在中文的環境底下, 在撰寫文句的過程中除了句子間的標點符號外,不需要再用任何符號或者空白來 區隔各個詞彙。因此在處理中文文本時,資料的前處理(斷詞)就顯得更加重要。 斷詞功能提供將文本內容的詞彙一一斷開的功能,由於本研究所使用的潛在 語意分析是以詞為單位進行語意空間的建構,所以需要事先把文本的詞彙一一斷 開,以供潛在語意分析系統進行處理,建立共生矩陣。. 25.

(35) 以下以一個範例來說明斷詞結果,如圖 3-2 所示,句子「今天天氣很好」輸 入斷詞系統後,透過斷詞功能,會將句子斷成「今天 今天天氣很好. 天氣. 很好」三個詞彙。 今天 天氣 很好. 斷詞功能. 圖 3-3 斷詞範例 2.詞性標記: 中文斷詞系統在把文章的詞彙都斷開以後,接下來會開始進行詞性標記的工 作,目的在把各個詞彙的詞性標記出來。然而中文在書寫的過程中彈性非常大, 一個詞彙的詞性可能會因為使用者用法的不同而有不同的詞性,造成判斷上的困 難,而本研究採用的中文斷詞系統在面對同一個詞彙擁有多種詞性時的解決方式, 是透過記錄過去各詞彙於語料庫中出現的頻率與各詞性間彼此共同出現的頻率, 再利用條件機率的方式去計算該詞彙於目前詞彙組合中最有可能的詞性。 以下以一個範例來說明斷詞結果,如圖 3-3 所示,句子「今天天氣很好」輸 入斷詞系統後,會利用斷詞功能產出的結果(「今天. 天氣. 很好」三個詞彙)透. 過詞性標記功能,會將三個詞彙標記所屬的詞性「Nd Na Vh」。 今天天氣很好. 詞性標記功能. Nd Na Vh. 圖 3-4 詞性標記範例 二、詞性篩選模組 LSA 針對文章中所有的詞進行分析,透過詞與詞相互出現的位置,找到詞 彙之間的相似關係,進而建構出一個有效的語意空間,可以將不同的詞彙投影到 一個向量空間進行計算。因此詞彙的篩選就顯得非常重要,本研究依照中央研究 院資訊科學研究所中文詞知識庫小組 1993 年 6 月出版的中文詞類分析(三版)一 書的介紹,將在文章中比較沒有意義的詞性排除,包括:副詞(D)、介詞(P)、連 接詞(C)、語助詞(T)和感嘆詞(I),以增加資料的可靠性。 三、TF-IDF 模組 26.

(36) TF-IDF(term frequency – inverse document frequency)常被使用於資訊檢索與 文本挖掘,用以評估一個文件集或語料庫中任何一個詞彙的重要程度,然而一個 詞彙的重要程度,與該詞彙於單一文件中的出現次數成正比增加,但是又會與整 個文件集中該詞彙的次數增加而成反比下降。因此本研究在計算詞頻時,透過 TF-IDF 的方式對原始的詞頻進行一個正規化的處理。 在一份文件中,詞頻(term frequency,TF)所指的是一個詞彙在一個文件中出 現的個數,可以視為單一文件內部詞彙的分佈特性。然而一個詞彙在一個較長的 文件中出現的機會相對於較短的文件來說一定會比較高,因此詞頻通常都要先透 過一個正規化的機制,防止詞頻受到文章長度的影響。對於在某一個特定文件𝑑𝑗 中的詞彙t i 來說,該詞彙的重要性𝑡𝑓𝑖,𝑗 可以被表示為: 𝑡𝑓𝑖,𝑗 = ∑. 𝑛𝑖,𝑗. (1). 𝑘 𝑛𝑘,𝑗. 如以式(1)所述,分子𝑛𝑖,𝑗 代表詞彙𝑡𝑖 於文件𝑑𝑗 中出現的次數,而分母∑𝑘 𝑛𝑘,𝑗 則 是代表文件𝑑𝑗 中所有的詞彙個數的總和。 逆向文件頻率(inverse document frequency,IDF)則可以視為全域資料中詞彙 的分佈特性,一般來說,一個詞彙如果在一個文件集或語料庫中出現的篇數越多, 此詞彙相對的重要性就越低,某一個特定詞彙𝑡𝑖 的 IDF,可以由文件集或語料庫 的總文件數目除以包含該詞語之文件的數目得到的商數,再取對數得到: |𝐷|. 𝑖𝑑𝑓𝑖 = log 1+|{𝑗:𝑡 ∈𝑑 }| 𝑖. 𝑖. (2). 其中|𝐷|代表的是文件集或語料庫中所有的文章數,|{𝑗: 𝑡𝑖 ∈ 𝑑𝑖 }|則是所有文 章中有出現詞彙𝑡𝑖 的文章數,分母加一的原因是防止𝑡𝑖 從未出現在文件集或語料 庫中導致分母為 0 的情況發生。 將上述式(1)與(2)相乘,即可求得某一特定詞彙於整個語料庫中的重要性。 𝑡𝑓𝑖𝑑𝑓𝑖,𝑗 = 𝑡𝑓𝑖,𝑗 × 𝑖𝑑𝑓𝑖. (3). 本研究中處理完文章的斷詞後,建立 LSA 所需的共生矩陣,再將共生矩陣 內全部的元素值進行 TF-IDF 正規化的轉換,以求得一個公平的詞彙出現頻率。 27.

(37) 第二節 訓練與測試階段 本節透過一個實例(表 3-1)來說明潛在語意分析訓練及測試階段的運作方式, 包含建立共生矩陣模組、SVD 維度約化模組、矩陣重建模組、cosine 相似度計算 模組。此例子中包含兩個領域(Human-Computer Interface 和 Mathematical Graph Theory)的九篇文件(c1、c2、c3、c4、c5、m1、m2、m3、m4),其中 c1 至 c5 為 Human-Computer Interface 的相關文件,m1 至 m4 為 Mathematical Graph Theory 的相關文件。 表 3-1 有關人機介面與電腦繪圖的文件標題 Example of text data: Titles of Technical Memos c1: Human machine interface for ABC computer applications c2: A survey of user opinion of computer system response time c3: The EPS user interface management system c4: System and human system engineering testing of EPS c5: Relation of user perceived response time to error measurement m1: The generation of random, binary, ordered trees m2: The intersection graph of paths in trees m3: Graph minors IV: Widths of trees and well-quasi-ordering m4: Graph minors: A survey 資料來源:出自(Landauer, 1998) 1. 建立共生矩陣模組 在進行潛在語意分析之前,必須先了解個文章與各個詞彙的相對關係,透過 建立文章與詞彙的共生矩陣,可以清楚的看到每一篇文章中各個詞彙的出現個數 及每個詞彙於不同文章中出現的次數,透過詞彙與文章間的共生關係,建立出共 生矩陣,以利後續作業執行。 從表 3-1 中挑選至少出現兩次的關鍵詞來建構共生矩陣的{𝑋},而像「a」、 28.

(38) 「the」 、 「and」等字 Landauer 將這些時常出現但是較沒意義的高頻字列入「stop list」 中,所以在表 3-2 的共生矩陣並沒有看到這些字的出現。表 3-2 中{𝑋}的每一列 代表所有文件中出現兩次以上的關鍵詞,而每一行則代表範例中的每一篇文章, {𝑋}內每個元素的值則代表該列關鍵詞於該行文章中出現的次數。 表 3-2 利用表 2-1 建立的共生矩陣 ℎ𝑢𝑚𝑎𝑛 𝑖𝑛𝑡𝑒𝑟𝑓𝑎𝑐𝑒 𝑐𝑜𝑚𝑝𝑢𝑡𝑒𝑟 𝑢𝑠𝑒𝑟 𝑠𝑦𝑠𝑡𝑒𝑚 {𝑋} = 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒 𝑡𝑖𝑚𝑒𝑠 𝐸𝑃𝑆 𝑠𝑢𝑟𝑣𝑒𝑦 𝑡𝑟𝑒𝑒𝑠 𝑔𝑟𝑎𝑝ℎ [ 𝑚𝑖𝑛𝑜𝑟𝑠. 𝑐1 1 1 1 0 0 0 0 0 0 0 0 0. 𝑐2 𝑐3 0 0 0 1 1 0 1 1 1 1 1 0 1 0 0 1 1 0 0 0 0 0 0 0. 𝑐4 𝑐5 𝑚1 𝑚2 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 2 0 0 0 0 1 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0. 𝑚3 𝑚4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 1 1 1 1 ]. r(ℎ𝑢𝑚𝑎𝑛. 𝑢𝑠𝑒𝑟) = −.38 r(ℎ𝑢𝑚𝑎𝑛. 𝑚𝑖𝑛𝑜𝑟𝑠) = −.29 資料來源:出自(Landauer, 1998) 從表 3-2 的共生矩陣可以清楚的了解各個文章中關鍵字出現的次數,再將此 共生矩陣進行 SVD 維度約化,SVD 維度約化模組之詳細內容於下節敘述。 2. SVD 維度約化模組 共生矩陣僅能表示文件與關鍵字出現的關係,還沒有辦法直接觀察關鍵詞彙 間彼此的語意關係,必須透過奇異值分解及維度約化的方式,才能將詞彙之間背 後的語意擷取出來,以下敘述奇異值分解的結果。將共生矩陣放入奇異值分解的 工具之後可以得到三個矩陣,如表 3-3 所示:. 29.

(39) 表 3-3 利用 SVD 分解後的三個矩陣 {𝑋} = {𝑊}{𝑆}{𝑃}𝑇. 0.22 0.20 0.24 0.40 0.64 {𝑊} = 0.27 0.27 0.30 0.21 0.01 0.04 [0.03. −0.11 −0.07 0.04 0.06 −0.17 0.11 0.11 −0.14 0.27 0.49 0.62 0.45. 3.34 0 0 0 {𝑆} = 0 0 0 0 [ 0 0.20 −0.06 0.11 −0.95 {𝑃} = 0.05 −0.08 0.18 −0.01 [−0.06. 0.29 0.14 −0.16 −0.34 0.36 −0.43 −0.43 0.33 −0.18 0.23 0.22 0.14. −0.41 −0.55 −0.59 0.10 0.33 0.07 0.07 0.19 −0.03 0.03 0.00 −0.01. −0.11 0.28 −0.11 0.33 −0.16 0.08 0.08 0.11 −0.54 0.59 −0.07 −0.30. −0.34 0.50 −0.52 0.38 −0.21 −0.17 −0.17 0.27 0.08 −0.39 0.11 0.28. 0 0 0 0 0 2.54 0 0 0 0 0 2.35 0 0 0 0 0 1.64 0 0 0 0 0 1.50 0 0 0 0 0 1.31 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0. 0.61 0.17 −0.50 −0.03 −0.21 −0.26 −0.43 0.05 0.24. 0.46 −0.13 0.21 0.04 0.38 0.72 −0.24 0.01 0.02. 0.54 0.28 −0.23 0.11 0.57 −0.51 0.27 0.15 −0.21 0.33 −0.37 0.03 0.26 0.67 −0.02 −0.06 −0.08 −0.26. 0.52 −0.07 −0.30 0.00 −0.17 0.28 0.28 0.03 −0.47 −0.29 0.16 0.34. −0.06 −0.01 0.06 0.00 0.03 −0.02 −0.02 −0.02 −0.04 0.25 −0.68 0.068. −0.41 −0.11 0.49 0.01 0.27 −0.05 −0.05 −0.17 −0.58 −0.23 0.23 0.18 ]. 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0.85 0 0 0 0.56 0 0 0 0.36]. 0.00 0.01 0.02 0.08 0.19 0.44 0.62 0.53 0.10 0.19 0.25 0.08 0.02 0.02 0.01 −0.03 0.39 0.35 0.15 −0.60 −0.30 −0.21 0.00 0.36 −0.34 −0.15 0.25 0.04 0.45 −0.76 0.45 −0.07 −0.62 0.02 0.52 −0.45]. 資料來源:出自(Landauer, 1998) 透過 SVD 的分解得到三個矩陣,分別為{𝑊}、{𝑆}、{𝑃}𝑇,其中{𝑆}為對角矩 陣,而{𝑃}𝑇 為{𝑃}的轉置矩陣,{𝑋} = {𝑊}{𝑆}{𝑃}𝑇。而降維的方式不但可以減少資 料的儲存量,也可以去除文件中的雜訊,若今天要將維度降至 k 維(k<m,n) ,即 {𝑊}保留前 k 個行向量得到{𝑊′}𝑚×𝑘 ,{𝑆}保留前 k 大的值得到{𝑆′}𝑘×𝑘 ,{𝑃}保留 30.

(40) 前 k 個行向量得到{𝑃′}𝑘×𝑛 ,本例降維以維度二維為示範,得到的矩陣如下: 表 3-4 利用 SVD 分解後降維的三個矩陣. {𝑊′}𝑚×𝑘. 0.22 0.20 0.24 0.40 0.64 0.27 = 0.27 0.30 0.21 0.01 0.04 [0.03. −0.11 −0.07 0.04 0.06 −0.17 0.11 0.11 −0.14 0.27 0.49 0.62 0.45 ]. 0 {𝑆′}𝑘×𝑘 = [3.34 ] 0 2.54. {𝑃′}𝑘×𝑛. 0.20 −0.06 0.11 −0.95 = 0.05 −0.08 0.18 −0.01 [−0.06. 0.61 0.17 −0.50 −0.03 −0.21 −0.26 −0.43 0.05 0.24 ]. 3. 矩陣重建模組 矩陣重建的目的是利用 SVD 產出的結果求得文字間的語意關係,首先要利 用降維的結果重建原始的{𝑋}矩陣。本例以維度二維為示範:在表 3-3 的矩陣{𝑆}, 為一個對角矩陣,而其對角線上非 0 的值即是 singular value,本例選取 singular value 中最大的兩個值給予保留,其他的值皆捨棄(reduce dimension),得到如表 3-4 的{𝑆′}矩陣,再將表 3-4 的{𝑊′}矩陣、{𝑆′}矩陣與{𝑃′}𝑇 矩陣相乘,即可以得到 新的{𝑋̂}矩陣,此矩陣即稱為 Reduced matrix。 表 3-5 利用 singular value 重建的矩陣 31.

(41) {𝑋̂} ℎ𝑢𝑚𝑎𝑛 𝑖𝑛𝑡𝑒𝑟𝑓𝑎𝑐𝑒 𝑐𝑜𝑚𝑝𝑢𝑡𝑒𝑟 𝑢𝑠𝑒𝑟 𝑠𝑦𝑠𝑡𝑒𝑚 = 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑒 𝑡𝑖𝑚𝑒𝑠 𝐸𝑃𝑆 𝑠𝑢𝑟𝑣𝑒𝑦 𝑡𝑟𝑒𝑒𝑠 𝑔𝑟𝑎𝑝ℎ [ 𝑚𝑖𝑛𝑜𝑟𝑠. 𝑐1 0.16 0.14 0.15 0.26 0.45 0.16 0.16 0.22 0.10 −0.06 −0.06 −0.04. 𝑐2 0.40 0.37 0.51 0.84 1.23 0.58 1.58 0.55 0.53 0.23 0.34 0.25. 𝑐3 𝑐4 𝑐5 0.38 0.47 0.18 0.33 0.40 0.16 0.36 0.41 0.24 0.61 0.70 0.39 1.05 1.27 0.56 0.38 0.42 0.28 0.38 0.42 0.28 0.51 0.63 0.24 0.23 0.21 0.27 −0.14 −0.27 0.14 −0.15 −0.30 0.20 −0.10 −0.21 0.15. 𝑚1 −0.05 −0.03 0.02 0.03 −0.07 0.06 0.06 −0.07 0.14 0.24 0.31 0.22. 𝑚2 −0.12 −0.07 0.06 0.08 −0.15 0.13 0.13 −0.14 0.31 0.55 0.69 0.50. 𝑚3 −0.16 −0.10 0.09 0.12 −0.21 0.19 0.19 −0.20 0.44 0.77 0.98 0.71. 𝑚4 −0.09 −0.04 0.12 0.19 −0.05 0.22 0.22 −0.11 0.42 0.66 0.85 0.62 ]. r(ℎ𝑢𝑚𝑎𝑛. 𝑢𝑠𝑒𝑟) = .94 r(ℎ𝑢𝑚𝑎𝑛. 𝑚𝑖𝑛𝑜𝑟𝑠) = −.83 資料來源:出自(Landauer, 1998) 透過 SVD 可以發現新的{𝑋̂}矩陣與原本共生矩陣{𝑋}的各個元素值有所不同, 經過相關係數的計算,在原本表 3-2 中,human 與 user 的相關係數為-0.38,human 與 minors 的相關係數為-0.29,但是經過 SVD 的轉換後,表 3-4 中 human 與 user 的相關係數則變為 0.94,human 與 minors 的相關係數則變為-0.83。從文字的理 解來看,同屬於人機介面領域底下的 human 與 user 兩個詞,其語意是相近的, 而屬於人機介面領域底下的詞 human 與屬於數學圖形理論領域底下的詞 minors, 由於位於不同的領域,因此在語意上的相關性也有所差異。另外還可以觀察到{𝑋} 與{𝑋̂}在文件 m4 中關鍵字 survey 與 tree 的值,在還沒有維度約化之前,m4 底下 survey 與 tree 的值分別為 1 與 0,經過維度約化以後,m4 底下 survey 與 tree 的 值分別為 0.42 與 0.66,原本 m4 中並未出現的 tree,因為 m4 包含了 graph 與 minors, 且這兩個詞與 trees 在數學圖形理論領域中有語意的相關性,因此 trees 的值從原 本的 0 變成 0.66,而原本 survey 的值為 1,經過維度約化以後降為 0.42,代表 survey 一詞在數學圖形理論領域中與其他詞的相關性較低,即使在原文中有出現過一次, 但是在語意上並沒有和該領域底下的專有名詞有所相依。經過上述的例子發現到,. 32.

(42) 透過 SVD 的降維,可以把文字間的隱藏關係給挖掘出來,進行潛在語意的分析。 4. cosine 相似度計算模組 透過建立共生矩陣,可以了解文章中各個關鍵詞的分布,再利用 SVD 進行 矩陣的降維,找出關鍵字之間的語意關係,而每個關鍵詞和每篇文章都是透過向 量來表示,因此可以透過新的矩陣{𝑋̂}中列向量與行向量,來計算兩個文件或者 是關鍵詞的向量(此例中文件之向量為行向量,關鍵詞之向量為列向量)夾角的內 積值,當內積值越大,代表兩向量的夾角越小,該關鍵詞(或文章)的相關程度就 越高,反之,向量夾角越大,該關鍵詞(或文章的)相關程度就越低。 如果今天有一篇未知的文章,可以先求得該文章的共生矩陣。今假設未知文 章的共生矩陣為{𝑞}𝑚×1 ,透過 SVD 降維求得的{𝑊′}𝑚×𝑘 與{𝑆′}𝑘×𝑘 ,可以利用(4) 式求得{𝑞}𝑚×1 在語意空間中的向量值{𝑞̂}1×𝑘 ,如下: 𝑞̂1×𝑘 = (𝑞 𝑇 )1×𝑚 𝑊′𝑚×𝑘 𝑆′−1 𝑘×𝑘. (4). 透過以上的式子所得到的[𝑞̂]1×𝑘 ,我們可以和任何已知難易度層級的文章進 行相似度的驗證,透過計算𝑞̂與已知難易度層級的文章向量𝑝̂ 的內積值(已知難易 度層級文章向量𝑝̂ 的求法同𝑞̂之求法),我們可以了解𝑞̂與𝑝̂ 的向量夾角大小,而內 積值越大,代表兩向量在語意空間中的夾角越小,相似程度也就越高,計算相似 度的方法如(5)式: 2. 𝑞̂𝑆 ′ 𝑝̂. 𝑠𝑖𝑚(𝑞̂, 𝑝̂ ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑞̂𝑆 ′ , 𝑝̂ 𝑆 ′ ) = |𝑞̂𝑆′ ||𝑝̂𝑆′ |. (5). 綜合上述,透過未知文章向量與已知文章向量在語意空間中的夾角,求得的 各個內積值中,可以找到一個最大的內積值,而此內積值是由未知文章向量與相 似度最高的已知文章向量求得,即可知道此未知文章與該已知文章有最大的相似 關係。. 33.

(43) 第三節. 學期概念重要詞彙建置方法. 透過潛在語意分析,可以讓任一篇未定義的文本和已定義的學期文章進行 cosine 相似度計算,以求得未定義文本的所屬學期。然而各個學期所潛藏的「語 意」為何,依舊難以探知,故本研究利用詞彙與以定義文章的 cosine 相似度計算, 意圖求得與各個學期最具相關的詞彙,以了解個學期所潛藏的語意為何,計算步 驟如下: 一、將單一詞彙投影至語意空間取得其向量值 單一詞彙一樣可以用原本未降維的 m 維向量表示,以{𝑡}𝑚×1 表示,為了將 {𝑡}𝑚×1 投影至語意空間並求得其位於語意空間中的向量值{𝑡̂}1×𝑘 ,可以利用本章 第三節 cosine 相似度計算模組中的(4)式計算,方式如下: ̂ 𝑡1×𝑘 = (𝑡 𝑇 )1×𝑚 𝑊′𝑚×𝑘 𝑆′−1 𝑘×𝑘. (6). 透過(6)式,我們可以將單一詞彙的 m 維向量,投影至語意空間中得到 k 維 的向量,藉此計算與學期文章的相似度。 以本研究為例,本研究的詞庫中包含了 78496 個詞,維度選取為 100,今假 設每一篇文件都只包含一個詞彙,共 78496 篇文件,則可得共生矩陣{𝑡}78496×78496 , 透過(6)式轉換結果如下: −1 𝑡̂78496×100 = (𝑡 𝑇 )78496×78496 𝑊′78496×100 𝑆′100×100. (7). {𝑡̂}78496×100每一個列向量代表的是詞庫中 78496 個詞在語意空間中的向量, 本研究將再進一步求得國小社會科各學期綜合文本於語意空間中的向量值。 二、將學期綜合文本投影至語意空間取得其向量值 本研究將國小社會科自三年級上學期(國小自三年級上學期開始編列社會科) 至六年級下學期的課文依照學期為單位,將同一學期內的課文融合成一學期綜合 文本,得到一未降維的 m 維向量,以{𝑑}𝑚×1 表示,為了將{𝑑}𝑚×1 投影至語意空 間求得其位於語意空間中的向量值{𝑑̂ }1×𝑘,可以利用本章第三節 cosine 相似度計 算模組中的(4)式計算,方式如下: 34.

(44) 𝑑̂1×𝑘 = (𝑑 𝑇 )1×𝑚 𝑊′𝑚×𝑘 𝑆′−1 𝑘×𝑘. (8). 透過(8)式,我們可以將各個學期的 m 維向量,投影至語意空間中得到 k 維 的向量,藉此計算與學期文章的相似度。 以本研究為例,國小社會科共有八個學期,將每個學期的課文融合後視為一 個文本,建立的共生矩陣為{𝑑}78496×8,透過(8)式轉換結果如下: −1 𝑑̂8×100 = (𝑑𝑇 )8×78496 𝑊′78496×100 𝑆′100×100. (9). {𝑑̂}8×100中的八個列向量代表的是八個學期在語意空間中投影向量,藉由這 八個列向量,將與 78496 個詞彙的向量進行 cosine 相似度的計算,詳述於後。 三、計算學期綜合文本與單一詞彙的 cosine 值 透過上面兩個步驟,我們從式(7)求得了 78496 個詞彙於語意空間中的投影 向量{𝑡̂}78496×100 ,及從式(9)求得國小社會科八個學期綜合文本在語意空間中的 投影向量{𝑑̂ }8×100 ,我們可以將{𝑡̂}78496×100 與{𝑑̂ }8×100 的列向量分別做內積,可 求得各個學期與各個詞彙的相似關係,以了解個學期的重要詞彙資訊。作法如 下: 假設{𝑑̂}的列向量為{𝑑̂𝑖 }(1 ≤ 𝑖 ≤ 8),{𝑡̂}的列向量為{𝑡𝑗̂ }(1 ≤ 𝑗 ≤ 78496),代 入第三節 cosine 相似度計算模組中的(5)式計算,相似度計算(10)式如下: ̂ ̂. 𝑑𝑡 𝑠𝑖𝑚(𝑑̂𝑖 , 𝑡𝑗̂ ) = 𝑐𝑜𝑠𝑖𝑛𝑒(𝑑̂𝑖 , 𝑡𝑗̂ ) = |𝑑̂ 𝑖||𝑡𝑗̂ | 𝑖. 𝑗. (10). 透過式(10)我們可以求得 8*78496 個內積值,為八個學期內各個詞彙的相似 度,以學期為單位將相似度進行排序,可得到各個學期詞彙的重要程度排名。. 35.

參考文獻

相關文件

「 「小學中國語文評估系列 小學中國語文評估系列 小學中國語文評估系列 小學中國語文評估系列: : :課堂追問 : 課堂追問 課堂追問 課堂追問」 」 」 」研討會

The phrase-based vector space model for automatic retrieval of free-text medical documents, Data &amp; Knowledge Engineering, 61, 76-92,.. Pedersen, and Chen F., “A

The objective of this study is to analyze the population and employment of Taichung metropolitan area by economic-based analysis to provide for government

The study was based on the ECSI model by Martensen et al., (2000), combined with customer inertia as a mediator in the hope of establishing a customer satisfaction model so as

(英文) In this research, we will propose an automatic music genre classification approach based on long-term modulation spectral analysis on the static and dynamic information of

Based on a sample of 98 sixth-grade students from a primary school in Changhua County, this study applies the K-means cluster analysis to explore the index factors of the

Based on the Technology Acceptance Model (TAM), the study was undertaken to understand whether the characteristics of social networking, which are defined as external variables

Leung, Shuk-Kwan S.; Chou, Hui-Chi(2012).A Survey Study on Parental Involvement in Mathematics Learning for Elementary School Children. Proceedings of the 36th Conference of