中文兒童文本特徵萃取

第四章研究結果與討論

第一節中文兒童文本特徵萃取

本研究目的為統整過去所發展的中文兒童文本分析指標，並從中萃取出重要的文本特徵，故本節將闡述特徵萃取的結果及特徵的命名。

壹、特徵萃取

中文文本自動化分析系統中已建置之指標共計 65 項，但考慮某些指標間的相關過高，故將部分指標予以篩選，最後保留 40 項指標作為文本特徵萃取之用。

其中刪除的 26 個指標說明如下：字元數與詞彙數間刪除字元數；低筆畫數比佔全文比例達六成以上，與平均筆畫數共線性過高故刪除低筆畫數比；一字詞比及疑問代詞佔全文比例過低故予以刪除；第一人稱單數代詞、第一人稱複數代詞、

第二人稱單數代詞、第二人稱複數代詞、第三人稱單數代詞、第三人稱複數代詞等六個指標，與第一人稱代詞、第二人稱代詞及第三人稱代詞等三個指標重疊性過高，故將前六者予以刪除；句子結構相似度、詞性最小編輯距離、詞彙最小編輯距離等三個句子結構相關指標中，以相鄰句的結果較全文句子具有意義故僅保留相鄰句的三個指標；實詞 TTR 與所有詞彙 TTR 亦有重疊性過高的問題，故僅選取所有詞彙 TTR；關聯詞的九個分類如並列關聯詞、遞進關聯詞、選擇關聯詞、

承接關聯詞、轉折關聯詞、假設關聯詞、因果關聯詞、條件關聯詞、目的關聯詞以整體關聯詞一個指標替代之；實詞詞頻、所有詞詞頻、每句詞頻最小值等三項詞頻相關指標，均保留原始指標刪除取對數的三個指標。

本研究利用兒童語料庫中國小教科書的 874 篇文本計算上述保留之 40 項指

標分數進行因素分析。採取適切性量數（Kaiser-Meyer-Olkin, KMO）及巴氏球形考驗（Bartlett’s test of sphericity）進行因素分析的適切性考驗。結果發現因素分析後顯示其 KMO 值為 0.658 且巴氏球型檢定值為 0.000，顯示本研究選用之文本指標適合進行因素分析。因素分析後結果整理如下表 4-1-1，透過主軸因子分析法取得構面，以特徵值大於 1 作為篩選具有意義因素之標準，一共取得八個構面，再運用最大變異數法進行直交轉軸後，以因素負荷量大於 0.3 者做為歸納構面之依據。此八個因子共可解釋文本變異達 56.41%之變異量。

表 4-1-1

中文文本自動化分析系統之各類指標因素分析因子

F1 F2 F3 F4 F5 F6 F7 F8

人稱代詞 .966

代詞 .908

實詞詞頻 .730

第一人稱代詞 .711

所有詞彙詞頻 .530

第二人稱代詞 .469

第三人稱代詞 .360

每句詞頻最小值 .296

指示代詞 .290

實詞整體重複詞 .851

名詞整體重複詞 .850

整體潛在語意關係 .735

名詞相鄰重複詞 .693 .376

實詞相鄰重複詞 .661 .535

平均詞彙數 .552 -.336

平均筆畫數 .815

二字詞比 -.465 .631

具體度 .611 .344

中筆畫數比 .574

名詞出現率 .470 .336 -.448

高筆畫數比 .357

四字以上詞比 -.320

所有詞彙TTR -.867

句間新舊訊息潛在語意關係 .821

詞彙數 .686

詞彙密度 .327 -.402

相鄰句詞性最小編輯距離 -.624 .320

相鄰句詞彙最小編輯距離 -.308 .314 -.622

相鄰句潛在語意關係 .564

相鄰句結構相似度 .494 .309

動詞相鄰重複詞 .416 .762

動詞整體重複詞 .626 .637

句間重複動詞潛在語意關係 .597

動詞出現率 .475 .296

MTLD .689

詞彙習得年齡 -.432 .314 .599

副詞出現率 .543

關聯詞出現率 .354 .462

形容詞出現率 -.409

三字詞比 -.405

可解釋變異量（%） 11.15 10.76 7.64 6.79 6.58 5.33 4.12 4.04 累積解釋變異量（%） 11.15 21.91 29.55 36.34 42.92 48.25 52.37 56.41 註：僅列出因素負荷量>.3 者。

貳、特徵命名

一、描述性

此構面係由九個指標所組成，因素負荷量介於.966 到.290 之間，其可解釋文本特徵變異量達 11.15%。這九個指標主要分成代詞及詞頻兩大類。代詞包含代詞、

人稱代詞、指示代詞、第一人稱代詞、第二人稱代詞、第三人稱代詞等六項指標。

詞頻則包含實詞詞頻、所有詞彙詞頻與每句詞頻最小值等三項指標。其中代詞出現率越高，表示文章可能為記敘文或者是故事體，而詞頻指標值越高亦顯示此文章使用的詞彙較為讀者所熟悉。此兩個特色都較容易出現於描述性高的文章中，

故本研究命名此文本特徵為描述性。

二、參照凝聚力

此構面係由六個指標所組成，因素負荷量介於.851 到.552.之間，其可解釋文本特徵變異量達 10.76%。這六個指標分別為：實詞整體重複詞指標、實詞相鄰重複詞指標、名詞整體重複詞指標、名詞相鄰重複詞指標、整體潛在語意關係指標及平均詞彙數（句長）。重複詞指標，故本研究命名此文本特徵為參照凝聚力。

三、字詞複雜度

此構面係由七個指標所組成，因素負荷量介於.815 到.320 之間，其可解釋文

本特徵變異量達 7.64%。這七個指標分別為：平均筆畫數、中筆畫數比、高筆畫數比、二字詞比、四字以上詞比、名詞出現率及具體度。筆畫數及詞長指標值越高，顯示字彙及詞彙的複雜度越高，則文章越不易理解，故本研究命名此文本特徵為字詞複雜度。

四、詞彙凝聚力

此構面係由四個指標所組成，因素負荷量介於.867 到.402 之間，其可解釋文本特徵變異量達 6.79%。這四個指標分別為：所有詞彙 TTR、詞彙數、詞彙密度

與句間新舊訊息潛在語意關係。此四個指標皆顯示出文章中所使用的詞彙多樣性、

詞彙量、句間詞彙所提供的新舊訊息比例對文章的影響，故本研究命名此文本特徵為詞彙凝聚力。當 TTR 越低、詞彙量越多、詞彙舊訊息比例越高，詞彙的凝聚力就高，文章就越容易被理解。

五、句法相似度

此構面係由四個指標所組成，因素負荷量介於.624 到.494 之間，其可解釋文本特徵變異量達 6.58%。這四個指標分別為：相鄰句詞性最小編輯距離、相鄰句詞彙最小編輯距離、相鄰句潛在語意關係及相鄰句結構相似度。因相鄰句詞性及詞彙最小編輯距離的指標值越大，表示相鄰句間的差異性就越大，文章難度也跟著提高，又此兩個指標與本構面呈現負相關而相鄰句結構相似度與本構面成現正相關，故本研究命名此文本特徵為句法相似度。

六、動詞凝聚力

此構面係由四個指標所組成，因素負荷量介於.762 到.475 之間，其可解釋文本特徵變異量達 5.33%。這四個指標分別為：動詞相鄰重複詞、動詞整體重複詞、

句間重複動詞潛在語意關係及動詞出現率。此四項指標皆與文章中動詞的使用息息相關，故本研究命名此文本特徵為動詞凝聚力。

七、詞彙難度

此構面係由 MTLD 及詞彙習得年齡等兩個指標所組成，因素負荷量介於.689

到.599 之間，其可解釋文本特徵變異量達 4.12%。詞彙習得年齡指標越大表示此詞彙較為深難，也較不易理解，而 MTLD 的指標值越高亦顯示此文章包含的詞彙種類越多，故本研究命名此文本特徵為詞彙難度。

八、句法連貫性

此構面係由四個指標所組成，其因素負荷量介於.543 到.405 之間，其可解釋文本特徵變異量達 4.04%。此四個指標分別為：副詞出現率、整體關聯詞出現率、

形容詞出現率及三字詞比。副詞與形容詞為負相關的原因為形容詞多用於修飾名詞而副詞多用於修飾動詞，又在國小課文中，名詞與形容詞有隨者年級增加而增加的趨勢，而動詞與副詞則相反（陳建宏，2013）。又形容詞出現率高於副詞，

故三字詞比與副詞也呈現反向的關係。因副詞、形容詞及關聯詞的使用在中文文章中有修飾及承先啟後的作用，故本研究命名此文本特徵為句法連貫性。

在文檔中中文兒童文本特徵分析 (頁 45-50)

第四章 研究結果與討論

第一節 中文兒童文本特徵萃取

壹、特徵萃取

貳、特徵命名

第四章研究結果與討論

第一節中文兒童文本特徵萃取