第四章 研究結果與討論
第一節 中文兒童文本特徵萃取
本研究目的為統整過去所發展的中文兒童文本分析指標,並從中萃取出重要 的文本特徵,故本節將闡述特徵萃取的結果及特徵的命名。
壹、特徵萃取
中文文本自動化分析系統中已建置之指標共計 65 項,但考慮某些指標間的 相關過高,故將部分指標予以篩選,最後保留 40 項指標作為文本特徵萃取之用。
其中刪除的 26 個指標說明如下:字元數與詞彙數間刪除字元數;低筆畫數比佔 全文比例達六成以上,與平均筆畫數共線性過高故刪除低筆畫數比;一字詞比及 疑問代詞佔全文比例過低故予以刪除;第一人稱單數代詞、第一人稱複數代詞、
第二人稱單數代詞、第二人稱複數代詞、第三人稱單數代詞、第三人稱複數代詞 等六個指標,與第一人稱代詞、第二人稱代詞及第三人稱代詞等三個指標重疊性 過高,故將前六者予以刪除;句子結構相似度、詞性最小編輯距離、詞彙最小編 輯距離等三個句子結構相關指標中,以相鄰句的結果較全文句子具有意義故僅保 留相鄰句的三個指標;實詞 TTR 與所有詞彙 TTR 亦有重疊性過高的問題,故僅 選取所有詞彙 TTR;關聯詞的九個分類如並列關聯詞、遞進關聯詞、選擇關聯詞、
承接關聯詞、轉折關聯詞、假設關聯詞、因果關聯詞、條件關聯詞、目的關聯詞 以整體關聯詞一個指標替代之;實詞詞頻、所有詞詞頻、每句詞頻最小值等三項 詞頻相關指標,均保留原始指標刪除取對數的三個指標。
本研究利用兒童語料庫中國小教科書的 874 篇文本計算上述保留之 40 項指
36
標分數進行因素分析。採取適切性量數(Kaiser-Meyer-Olkin, KMO)及巴氏球形 考驗(Bartlett’s test of sphericity)進行因素分析的適切性考驗。結果發現因素分 析後顯示其 KMO 值為 0.658 且巴氏球型檢定值為 0.000,顯示本研究選用之文 本指標適合進行因素分析。因素分析後結果整理如下表 4-1-1,透過主軸因子分 析法取得構面,以特徵值大於 1 作為篩選具有意義因素之標準,一共取得八個構 面,再運用最大變異數法進行直交轉軸後,以因素負荷量大於 0.3 者做為歸納構 面之依據。此八個因子共可解釋文本變異達 56.41%之變異量。
表 4-1-1
中文文本自動化分析系統之各類指標因素分析 因子
F1 F2 F3 F4 F5 F6 F7 F8
人稱代詞 .966
代詞 .908
實詞詞頻 .730
第一人稱代詞 .711
所有詞彙詞頻 .530
第二人稱代詞 .469
第三人稱代詞 .360
每句詞頻最小值 .296
指示代詞 .290
實詞整體重複詞 .851
名詞整體重複詞 .850
整體潛在語意關係 .735
37
名詞相鄰重複詞 .693 .376
實詞相鄰重複詞 .661 .535
平均詞彙數 .552 -.336
平均筆畫數 .815
二字詞比 -.465 .631
具體度 .611 .344
中筆畫數比 .574
名詞出現率 .470 .336 -.448
高筆畫數比 .357
四字以上詞比 -.320
所有詞彙TTR -.867
句間新舊訊息潛在語意關係 .821
詞彙數 .686
詞彙密度 .327 -.402
相鄰句詞性最小編輯距離 -.624 .320
相鄰句詞彙最小編輯距離 -.308 .314 -.622
相鄰句潛在語意關係 .564
相鄰句結構相似度 .494 .309
動詞相鄰重複詞 .416 .762
動詞整體重複詞 .626 .637
句間重複動詞潛在語意關係 .597
動詞出現率 .475 .296
MTLD .689
詞彙習得年齡 -.432 .314 .599
38
副詞出現率 .543
關聯詞出現率 .354 .462
形容詞出現率 -.409
三字詞比 -.405
可解釋變異量(%) 11.15 10.76 7.64 6.79 6.58 5.33 4.12 4.04 累積解釋變異量(%) 11.15 21.91 29.55 36.34 42.92 48.25 52.37 56.41 註:僅列出因素負荷量>.3 者。
貳、特徵命名
一、描述性
此構面係由九個指標所組成,因素負荷量介於.966 到.290 之間,其可解釋文 本特徵變異量達 11.15%。這九個指標主要分成代詞及詞頻兩大類。代詞包含代詞、
人稱代詞、指示代詞、第一人稱代詞、第二人稱代詞、第三人稱代詞等六項指標。
詞頻則包含實詞詞頻、所有詞彙詞頻與每句詞頻最小值等三項指標。其中代詞出 現率越高,表示文章可能為記敘文或者是故事體,而詞頻指標值越高亦顯示此文 章使用的詞彙較為讀者所熟悉。此兩個特色都較容易出現於描述性高的文章中,
故本研究命名此文本特徵為描述性。
二、參照凝聚力
此構面係由六個指標所組成,因素負荷量介於.851 到.552.之間,其可解釋文 本特徵變異量達 10.76%。這六個指標分別為:實詞整體重複詞指標、實詞相鄰重 複詞指標、名詞整體重複詞指標、名詞相鄰重複詞指標、整體潛在語意關係指標 及平均詞彙數(句長)。重複詞指標,故本研究命名此文本特徵為參照凝聚力。
三、字詞複雜度
此構面係由七個指標所組成,因素負荷量介於.815 到.320 之間,其可解釋文
39
本特徵變異量達 7.64%。這七個指標分別為:平均筆畫數、中筆畫數比、高筆畫 數比、二字詞比、四字以上詞比、名詞出現率及具體度。筆畫數及詞長指標值越 高,顯示字彙及詞彙的複雜度越高,則文章越不易理解,故本研究命名此文本特 徵為字詞複雜度。
四、詞彙凝聚力
此構面係由四個指標所組成,因素負荷量介於.867 到.402 之間,其可解釋文 本特徵變異量達 6.79%。這四個指標分別為:所有詞彙 TTR、詞彙數、詞彙密度
與句間新舊訊息潛在語意關係。此四個指標皆顯示出文章中所使用的詞彙多樣性、
詞彙量、句間詞彙所提供的新舊訊息比例對文章的影響,故本研究命名此文本特 徵為詞彙凝聚力。當 TTR 越低、詞彙量越多、詞彙舊訊息比例越高,詞彙的凝 聚力就高,文章就越容易被理解。
五、句法相似度
此構面係由四個指標所組成,因素負荷量介於.624 到.494 之間,其可解釋文 本特徵變異量達 6.58%。這四個指標分別為:相鄰句詞性最小編輯距離、相鄰句 詞彙最小編輯距離、相鄰句潛在語意關係及相鄰句結構相似度。因相鄰句詞性及 詞彙最小編輯距離的指標值越大,表示相鄰句間的差異性就越大,文章難度也跟 著提高,又此兩個指標與本構面呈現負相關而相鄰句結構相似度與本構面成現正 相關,故本研究命名此文本特徵為句法相似度。
六、動詞凝聚力
此構面係由四個指標所組成,因素負荷量介於.762 到.475 之間,其可解釋文 本特徵變異量達 5.33%。這四個指標分別為:動詞相鄰重複詞、動詞整體重複詞、
句間重複動詞潛在語意關係及動詞出現率。此四項指標皆與文章中動詞的使用息 息相關,故本研究命名此文本特徵為動詞凝聚力。
七、詞彙難度
此構面係由 MTLD 及詞彙習得年齡等兩個指標所組成,因素負荷量介於.689
40
到.599 之間,其可解釋文本特徵變異量達 4.12%。詞彙習得年齡指標越大表示此 詞彙較為深難,也較不易理解,而 MTLD 的指標值越高亦顯示此文章包含的詞彙 種類越多,故本研究命名此文本特徵為詞彙難度。
八、句法連貫性
此構面係由四個指標所組成,其因素負荷量介於.543 到.405 之間,其可解釋 文本特徵變異量達 4.04%。此四個指標分別為:副詞出現率、整體關聯詞出現率、
形容詞出現率及三字詞比。副詞與形容詞為負相關的原因為形容詞多用於修飾名 詞而副詞多用於修飾動詞,又在國小課文中,名詞與形容詞有隨者年級增加而增 加的趨勢,而動詞與副詞則相反(陳建宏,2013)。又形容詞出現率高於副詞,
故三字詞比與副詞也呈現反向的關係。因副詞、形容詞及關聯詞的使用在中文文 章中有修飾及承先啟後的作用,故本研究命名此文本特徵為句法連貫性。