• 沒有找到結果。

第三章 研究方法與設計

第二節 資料來源及特徵向量

3.2.2 特徵向量

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

25

以下整理各類文章抓取總數(表 3-2)。

表 3-1 資料來源篇數

(資料來源:本研究自行整理)

3.2.2 特徵向量

一、英文語文難易度特徵向量

(一)、適讀性公式之英文難度特徵值選取

第一部份的特徵值選取是從第二章所探討的適讀性公式當中,除 了考慮到個人因素的人稱代名詞與較久以前所建立的各種英文字表 不列入特徵外,其他基本的語文難度因素都是本研究假設能夠正確分 出英文文章難易度的特徵。特徵值計算公式如下:

1. 平均句長

平均句子長度= 文章總字數 文章總句數 2. 句數

每篇文章中總共有多少句子。

3. 平均音節數

平均音節數= 文章總音節數 文章總字數 4. 平均單字長度

平均單字長度= 文章總字母數 文章總字數 5. 不同字彙數比例

(篇數) 初級(學習 1-3 年) 中級(學習 4-6 年) 中高級 (學習 6 年以上) 賴世雄全真與實

戰模擬試題 46 56 63

官方模擬試題 10 19 14

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

26

不同字彙數比例= 不同字彙個數 文章總字數

舉例來說,下面這段文字當中,紅色的字(灰色的字)是在這個字以 前就出現過一次,所以不列入不同字彙數。所以這段文字所不同字 彙數是 40,總字數是 60,不同字彙數比例為 0.67。

Harlem Shakes are a big hit. It is a hit on the internet. Many people film videos with Harlem Shakes. But a Harlem Shake on a World War II tank wasn’t a good idea. Russian police didn’t like this idea.

Five people are at the police station now because they danced on a tank and put the video on YouTube.

6. 介係詞片語比例

介係詞片語比例= 介係詞片語數目 文章總字數

二、文字特徵向量 (一)、文章斷詞

全民英檢提供國內一套完整並具公信力的英語能力分級檢定系統,

是由教育部核准財團法人語言訓練測驗中心(LTTC)辦理。自 89 年開辦 以來,考生人次已達 530 萬人次。LTTC 也表示成績除了獲得公民營機 構採認外,也獲得各大學/高中採用做為學習成果的依據;目前更受各 國:日本、香港、美國、英國、德國、法國、荷蘭等各地的外國大學採 認 GEPT,學生因此可用 GEPT 成績申請出國進修。(全民英檢網站,2013) 由這些資料顯示出全民英檢所做的分級制度是受到重視的,因此我將以 全民英檢來作為斷詞、建立詞庫以及特徵詞挑選的依據。

1. 斷詞處理

本研究在這個部分是需要將全民英檢各級裡的英文文章做斷詞。

而前面文獻探討的部分提到不考慮像是“demand deposit(活期存款)”

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

27

這樣的專有名詞,因此是以詞與詞中間的空白與標點符號作為斷詞的 依據。

目前在處理英文文章的工具上,主要有兩個:openNLP 與 Stanford CoreNLP , 兩者都 有 提供 API 給 需 要 處 理 英 文 文章中 像是斷詞 (tokenization)與詞類標記(part-of-speech tagging)等用途的工具。此研 究選擇 openNLP,它是基於機器學習的自然語言文本處理的開發工具,

裡面的工具包括前面所說的斷詞、詞類標記,以及斷句 (sentence detection)、文法剖析(parsing)、人名辨識(name entity extraction)等。

斷詞部分主要是針對句子中空白的部分去斷詞,例如“A lot of men helped a small girl. She was in a washing machine. She couldn’t get out.”這個句子會被分成“A”,“lot”,“of”,“men”等獨立的字與標點符號分 開。值得注意的是“couldn’t”這個字會被分成“could”與“n’t”兩個字。

這也是 openNLP 斷詞工具好處之一。

2. 字詞處理與辭庫建立

將英文斷好詞後,接下來所要做的事情是詞類標記。詞類標記的 部分主要是要知道某字詞在這個句子當中的這個位置是屬於什麼詞 性,記錄此字是什麼詞性主要目的在於相同的字詞在不同位置或是不 同字詞變化型態都有不同的詞性,因此當相同的字出現在不同句子、

不同的位置時,有可能因為前後詞性的變化而有不同詞性,例如,

“This is a book.”與“I want to book a ticket.”,前者“book”是名詞,“書”

的意思,後者“book”是動詞,是“預定”的意思。隨著不同級別的文 章當中,有可能會有相同的詞出現,卻是不同詞性,例如,“book”

是名詞時,是在初級當中較常出現;“book”是動詞時,是在中級較常 出現。由 openNLP 的詞類標記工具所標出的例子如“This is a book.”

會被標記成“This_DT is_VBZ a_DT book._NN”;“I want to book a ticket.” 會 被 標 記 成 “I_PRP want_VBP to_TO book_VB a_DT ticket._NN”。詞類對照表如表 3-2 所示。

CC Coordinating conjunction PRP$ Possessive pronoun (prolog version PRP-S)

CD Cardinal number RB Adverb

DT Determiner RBR Adverb, comparative EX Existential there RBS Adverb, superlative FW Foreign word RP Particle

IN Preposition or subordinating

conjunction SYM Symbol

JJ Adjective TO to

JJR Adjective, comparative UH Interjection JJS Adjective, superlative VB Verb, base form LS List item marker VBD Verb, past tense

MD Modal VBG Verb, gerund or present participle NN Noun, singular or mass VBN Verb, past participle

NNS Noun, plural VBP Verb, non-3rd person singular present

NNP Proper noun, singular VBZ Verb, 3rd person singular present NNPS Proper noun, plural WDT Wh-determiner

PDT Predeterminer WP Wh-pronoun

POS Possessive ending WP$ Possessive wh-pronoun (prolog version WP-S)

PRP Personal pronoun WRB Wh-adverb

(資料來源:整理自 http://bulba.sdsu.edu/jeanette/thesis/PennTags.html)

在本研究建立辭庫的階段,所儲存進資料庫的詞主要是“字詞_

詞類”,例如“I_PRP want_VBP to_TO book_VB a_DT ticket._NN”會以

“I_PRP”、“want_VBP” 、“to_TO” 、“book_VB” 、“a_DT” 、“ticket_NN”

各別存入。此處會保留所有字詞在句子中的原型態,不會處理掉像是

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

29

挑選越多詞彙作為文章的特徵詞,則越能凸顯文章的特性;但若 是能夠把大部分文章中都出現過的字詞去掉,不納入特徵詞當中,則 能夠節省在分類時所需運算的時間;因此,若某字詞佔了初級、中級 與中高級這些所有文章當中的 80%,則不納入特徵詞當中。

在進行文件之間相似度比對之前,要將文章的特徵值轉換成向量 空間模型表示。每個向量中的每個維度的特徵值都影響著這篇文章在 空間中的位置,而特徵值本研究所使用的是 TF-IDF 詞彙權重計算方 式所算出的,因為可以同時顧慮到每個詞在文章當中的重要程度以及 在全部文章當中的普遍性,也就是說 TF-IDF 值會與詞彙在文章中出 現的頻率成正比,與詞彙在所有文章集中出現的文章數成反比。為了 不因為文章長度而影響文章中某些詞彙的權重比較,本論文將向量做 正規化的處理。相關特徵值計算公式如下:

1. 詞彙頻率(Term Frequency, TF)

𝑡𝑓𝑖,𝑗 = 𝑛𝑖,𝑗

∑ 𝑛𝑘 𝑘,𝑗

𝑛𝑖,𝑗代表詞彙 i 在文章 j 中的出現次數;∑𝑘𝑛𝑘,𝑗則代表文章 j 中所 有詞彙出現的次數總和。

2. 反向文件頻率(Inverse Document Frequency, IDF)

idf𝑖 = log|𝑁|

𝑑𝑓𝑖

|𝑁|代表整個文章集中的文章總數;𝑑𝑓𝑖則代表詞彙 i 出現在整個 文章集中的文章數。

3. TF-IDF

TF– IDF = 𝑡𝑓𝑖,𝑗× idf𝑖 4. TF-IDF 正規化之權重值

𝑊𝑖,𝑗 =𝑇𝐹– 𝐼𝐷𝐹𝑖,𝑗

‖𝑑⃑⃑⃑ ‖𝑗

(資料來源:本研究改自 Salton & McGill, 1983)

相關文件