特徵向量

第三章研究方法與設計

第二節資料來源及特徵向量

3.2.2 特徵向量

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

以下整理各類文章抓取總數(表 3-2)。

表 3-1 資料來源篇數

(資料來源：本研究自行整理)

3.2.2 特徵向量

一、英文語文難易度特徵向量

(一)、適讀性公式之英文難度特徵值選取

第一部份的特徵值選取是從第二章所探討的適讀性公式當中，除了考慮到個人因素的人稱代名詞與較久以前所建立的各種英文字表不列入特徵外，其他基本的語文難度因素都是本研究假設能夠正確分出英文文章難易度的特徵。特徵值計算公式如下：

1. 平均句長

平均句子長度= 文章總字數文章總句數 2. 句數

每篇文章中總共有多少句子。

3. 平均音節數

平均音節數= 文章總音節數文章總字數 4. 平均單字長度

平均單字長度= 文章總字母數文章總字數 5. 不同字彙數比例

(篇數) 初級(學習 1-3 年) 中級(學習 4-6 年) 中高級 (學習 6 年以上) 賴世雄全真與實

戰模擬試題 46 56 63

官方模擬試題 10 19 14

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

不同字彙數比例= 不同字彙個數文章總字數

舉例來說，下面這段文字當中，紅色的字(灰色的字)是在這個字以前就出現過一次，所以不列入不同字彙數。所以這段文字所不同字彙數是 40，總字數是 60，不同字彙數比例為 0.67。

Harlem Shakes are a big hit. It is a hit on the internet. Many people film videos with Harlem Shakes. But a Harlem Shake on a World War II tank wasn’t a good idea. Russian police didn’t like this idea.

Five people are at the police station now because they danced on a tank and put the video on YouTube.

6. 介係詞片語比例

介係詞片語比例= 介係詞片語數目文章總字數

二、文字特徵向量 (一)、文章斷詞

全民英檢提供國內一套完整並具公信力的英語能力分級檢定系統，

是由教育部核准財團法人語言訓練測驗中心(LTTC)辦理。自 89 年開辦以來，考生人次已達 530 萬人次。LTTC 也表示成績除了獲得公民營機構採認外，也獲得各大學/高中採用做為學習成果的依據；目前更受各國：日本、香港、美國、英國、德國、法國、荷蘭等各地的外國大學採認 GEPT，學生因此可用 GEPT 成績申請出國進修。(全民英檢網站，2013) 由這些資料顯示出全民英檢所做的分級制度是受到重視的，因此我將以全民英檢來作為斷詞、建立詞庫以及特徵詞挑選的依據。

1. 斷詞處理

本研究在這個部分是需要將全民英檢各級裡的英文文章做斷詞。

而前面文獻探討的部分提到不考慮像是“demand deposit(活期存款)”

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

這樣的專有名詞，因此是以詞與詞中間的空白與標點符號作為斷詞的依據。

目前在處理英文文章的工具上，主要有兩個：openNLP 與 Stanford CoreNLP ，兩者都有提供 API 給需要處理英文文章中像是斷詞 (tokenization)與詞類標記(part-of-speech tagging)等用途的工具。此研究選擇 openNLP，它是基於機器學習的自然語言文本處理的開發工具，

裡面的工具包括前面所說的斷詞、詞類標記，以及斷句 (sentence detection)、文法剖析(parsing)、人名辨識(name entity extraction)等。

斷詞部分主要是針對句子中空白的部分去斷詞，例如“A lot of men helped a small girl. She was in a washing machine. She couldn’t get out.”這個句子會被分成“A”,“lot”,“of”,“men”等獨立的字與標點符號分開。值得注意的是“couldn’t”這個字會被分成“could”與“n’t”兩個字。

這也是 openNLP 斷詞工具好處之一。

2. 字詞處理與辭庫建立

將英文斷好詞後，接下來所要做的事情是詞類標記。詞類標記的部分主要是要知道某字詞在這個句子當中的這個位置是屬於什麼詞性，記錄此字是什麼詞性主要目的在於相同的字詞在不同位置或是不同字詞變化型態都有不同的詞性，因此當相同的字出現在不同句子、

不同的位置時，有可能因為前後詞性的變化而有不同詞性，例如，

“This is a book.”與“I want to book a ticket.”，前者“book”是名詞，“書”

的意思，後者“book”是動詞，是“預定”的意思。隨著不同級別的文章當中，有可能會有相同的詞出現，卻是不同詞性，例如，“book”

是名詞時，是在初級當中較常出現；“book”是動詞時，是在中級較常出現。由 openNLP 的詞類標記工具所標出的例子如“This is a book.”

會被標記成“This_DT is_VBZ a_DT book._NN”；“I want to book a ticket.” 會被標記成 “I_PRP want_VBP to_TO book_VB a_DT ticket._NN”。詞類對照表如表 3-2 所示。

‧

CC Coordinating conjunction PRP$ Possessive pronoun (prolog version PRP-S)

CD Cardinal number RB Adverb

DT Determiner RBR Adverb, comparative EX Existential there RBS Adverb, superlative FW Foreign word RP Particle

IN Preposition or subordinating

conjunction SYM Symbol

JJ Adjective TO to

JJR Adjective, comparative UH Interjection JJS Adjective, superlative VB Verb, base form LS List item marker VBD Verb, past tense

MD Modal VBG Verb, gerund or present participle NN Noun, singular or mass VBN Verb, past participle

NNS Noun, plural VBP Verb, non-3rd person singular present

NNP Proper noun, singular VBZ Verb, 3rd person singular present NNPS Proper noun, plural WDT Wh-determiner

PDT Predeterminer WP Wh-pronoun

POS Possessive ending WP$ Possessive wh-pronoun (prolog version WP-S)

PRP Personal pronoun WRB Wh-adverb

(資料來源：整理自 http://bulba.sdsu.edu/jeanette/thesis/PennTags.html)

在本研究建立辭庫的階段，所儲存進資料庫的詞主要是“字詞_

詞類”，例如“I_PRP want_VBP to_TO book_VB a_DT ticket._NN”會以

“I_PRP”、“want_VBP” 、“to_TO” 、“book_VB” 、“a_DT” 、“ticket_NN”

各別存入。此處會保留所有字詞在句子中的原型態，不會處理掉像是

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

挑選越多詞彙作為文章的特徵詞，則越能凸顯文章的特性；但若是能夠把大部分文章中都出現過的字詞去掉，不納入特徵詞當中，則能夠節省在分類時所需運算的時間；因此，若某字詞佔了初級、中級與中高級這些所有文章當中的 80%，則不納入特徵詞當中。

在進行文件之間相似度比對之前，要將文章的特徵值轉換成向量空間模型表示。每個向量中的每個維度的特徵值都影響著這篇文章在空間中的位置，而特徵值本研究所使用的是 TF-IDF 詞彙權重計算方式所算出的，因為可以同時顧慮到每個詞在文章當中的重要程度以及在全部文章當中的普遍性，也就是說 TF-IDF 值會與詞彙在文章中出現的頻率成正比，與詞彙在所有文章集中出現的文章數成反比。為了不因為文章長度而影響文章中某些詞彙的權重比較，本論文將向量做正規化的處理。相關特徵值計算公式如下：

1. 詞彙頻率(Term Frequency, TF)

𝑡𝑓_𝑖,𝑗 = 𝑛_𝑖,𝑗

∑ 𝑛_𝑘 _𝑘,𝑗

𝑛_𝑖,𝑗代表詞彙 i 在文章 j 中的出現次數；∑_𝑘𝑛_𝑘,𝑗則代表文章 j 中所有詞彙出現的次數總和。

2. 反向文件頻率(Inverse Document Frequency, IDF)

idf_𝑖 = log|𝑁|

𝑑𝑓_𝑖

|𝑁|代表整個文章集中的文章總數；𝑑𝑓_𝑖則代表詞彙 i 出現在整個文章集中的文章數。

3. TF-IDF

TF– IDF = 𝑡𝑓_𝑖,𝑗× idf_𝑖 4. TF-IDF 正規化之權重值

𝑊_𝑖,𝑗 =𝑇𝐹– 𝐼𝐷𝐹_𝑖,𝑗

‖𝑑⃑⃑⃑ ‖_𝑗

‧

(資料來源：本研究改自 Salton & McGill, 1983)

‧

在文檔中應用文字探勘技術於英文文章難易度分類 - 政大學術集成 (頁 33-39)

第三章 研究方法與設計

第二節 資料來源及特徵向量

3.2.2 特徵向量

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

第三章研究方法與設計

第二節資料來源及特徵向量

立政治大學

立政治大學

立政治大學

立政治大學