• 沒有找到結果。

Combining Unsupervised Feature Selection Strategy for Automatic Text Categorization 章秉純

N/A
N/A
Protected

Academic year: 2022

Share "Combining Unsupervised Feature Selection Strategy for Automatic Text Categorization 章秉純"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

Combining Unsupervised Feature Selection Strategy for Automatic Text Categorization

章秉純 許清琦

國立台灣大學 資訊工程研究所 臺北市大安區 106 羅斯福路 4 段 1 號

TEL: (02) 23625336 ext 305

E-mail: {ptchang, cchsu}@ails10.csie.ntu.edu.tw

摘要

文件分類(Text Categorization)一直是資訊檢 索(Information Retrieval)的重要問題,但至今無法 突破的關鍵有兩點,一為使機器理解自然語言至 今仍相當困難,二為以目前一般的統計學習理 論,勢難避免以有限的訓練資料(training data)處理 變異程度可能相當大的文件,而導致訓練資料不 足以代表所有文件的問題。傳統統計方法中視文 件為文字包裹(bag of terms)的組合,以序對分類 (pattern classification)的方式處理,無論序對分 類、機器學習(machine learning)的技術多麼進步,

應用到文件分類至今卻仍然沒有一個被普遍接受 的做法,而只是組合各種不同的技術,根本上的 問題仍然沒有解決。在這篇論文中,我們嘗試以 兩階段的做法處理文件分類的問題,第一階段將 傳統統計法能幾乎確定的文件處理完,其他不能 確定的文件留待第二階段處理,以解決文件所含 之統計資訊不足,訓練的舊文件不足以代表新文 件的問題。

關鍵字: 文件分類(Text Categorization)、資訊檢索 (information Retrieval) 、 自 然 語 言 (Natural Language)、人工智慧(Artificial Intelligence)、機器 學 習(Machine Learning) 、 特 徵 選 取 (Feature Selection) 、 Support Vector Machine 、 k-Nearest Neighbor、Naïve Bayes Classifier

1. 概論

自動文件分類問題是指利用電腦技術,將未 標記類別的自然語言文件賦予特定的類別標記。

它的應用非常廣泛,如網頁、電子郵件、新聞…

等,相關的研究主題則包括資訊檢索、資訊擷取、

自動索引(Automatic Indexing)、語彙意義辨析 (Word Sense Disambiguation)…等,為一相當重要 的基礎問題。

而在人工智慧(Artificial Intelligence)的角度 看,我們一直希望電腦能夠幫助人類更快速、更 正確地處理問題,而文件分類,正是一個亟待自 動化處理的問題,在資訊過載(Information Overload)的問題對每個人都一天比一天嚴重的現 代,文件分類的必要性無庸置疑[1],但人類能夠 在短時間內輕易做到的事情,為什麼電腦做不到?

如果電腦能做到自然語言理解,當然也就能夠處 理文件分類的問題,但是遺憾的是,目前自然語 言理解仍然沒有足堪在這個問題上應用的成果,

所以我們仍然只能以統計方式處理,也就是將文 件轉變為足以代表該文件的統計量,然後以機器 學習方式,從已知類別的文章(labeled articles)歸納 出分類的目標函數(target function),然後用這樣的 函數去對新文章作分類。我們可以將這樣的方法 分成兩大部分,一為特徵選取(feature selection),

一為機器學習與分類(machine learning and classification)。

而以統計方式處理自然語言的方法仍然有其 限界,由於自然語言是無限且非線性的,故統計 方式較難處理新詞與統計無法表現的語言意義,

故引入使用者的意見以幫助作新特徵詞的選取,

方能使機器文件分類問題在實際情形中足堪應 用。在以往的研究中以單一文件集分割為訓練集 與測試集的做法[6]雖不失為檢驗機器學習方法的 好方法,但在實際應用如網頁分類、新聞分類等 等,每日以級數方式成長的鉅量知識勢必無法應 用這樣的方式執行。而本文所提出一個兩階段的 做法,同時保有統計方法的優點,以機器處理絕 大部分的文件,同時綜合使用者的回饋,以當面 對少數統計方法無法正確判斷的文件時,能夠作 最正確的處理。

2. 背景知識

2-1 特徵選取(feature selection)

特徵選取即為從文件中選取足堪表現該文件 的特徵(feature pattern)並決定其重要性。一般而

(2)

言,常用的方式為視文件為一連串的符號組,然 後由其中選取有意義的符號作為特徵,中文特徵 選取的前置處理一般須先斷詞(Word

Segmentation),或是以 N-Gram 方式列出可能有意 義的符號組,然後由其中選取有意義的詞作為特 徵。由於中文文件中單一文字的意義不唯一且變 異太大,所以我們必須選取有意義的字組作為特 徵。可以如PAT-Tree[7]、SB-Tree 方式產生這樣 的字組,再以如下的方式選取: 資訊增加 (Information Gain)(1)、互斥資訊(Mutual

Information)(2)、CHI-Square(3)等等,也可以特徵 的機率分布方式(Distributional Clustering)、詞庫 (Thesaurus)對特徵作分群(Clustering)處理。至於決 定該文件該特徵的重要性,一般的方式為TF•

IDF(4)。

=

=

=

=

=

= +

=

=

= +

=

=

|

| 1

|

| 1

|

| 1

) 0

| ( log ) 0

| ( ) 0 (

) 1

| ( log ) 1

| ( ) 1 (

) ( log ) (

)

| ( ) ( ) , (

c

k k k

i c

k k k

i c k

k k

i i

t C P t

C P K

P

t C P t

C P K

P

C P C P

K C E C E C K IG

(1)

) ( ) (

) , log( ( ))

| ( log( 1 )) ( log( 1 ) ,

( Pk PC

C k P k

c P C

C P K MI

t t t

t = − =

(2)

) ( ) ( ) ( ) (

) ) (

, (

2 2

D C B A D B C A

CB AD C N

kt

+

× +

× +

× +

= × χ

(3)

||

||

) / log(

)) , ( log(

1 ) ( ,

( d

n N d

k d tf

k

w i = + i × t ,

=

d k

i i

d k w d|| ( , )2

|| (4)

2-2 機器學習與分類(machine learning and pattern classification)

在特徵選取結束後,文件被抽象化為特徵與 重要性數字的關係,於是我們就可以套用到一般 的機器學習與分類技術上,一般常用的方式有貝 氏分類(Bayesian Classifier: BC)(5),k 最近鄰居 (k-Nearest Neighbor: kNN),直到最近的支撐向量 機(Support Vector Machine: SVM),都是很有效的 序對分類方法。由於我們將文件以序對方式表 現,未包含語言可能是特徵的非線性組合特色,

可能在某些情況中不能做到正確分類。文件中的 關鍵特徵數量可能遠少於非關鍵的特徵,造成機 器錯誤分類。但是這樣的方式在決定兩個文件的 相似程度是足以利用的。我們可以幾乎確定兩篇 用字非常相似的文件討論的事情也非常相似,這

就是kNN 被認為是一種相當簡單且有效的做法 [2]。所以我們在找不到足以堪稱”相似”的文件以 供分類時,就認為這個文件根據訓練文件是不足 以分類的。

) )

| ( ) ( ( max arg

1

= n i c i

C K P C

P

(5)

所以在最近的研究中[2][3],大部分的研究轉 而處理特殊的問題,而不再處理一般性的文件分 類問題,例如事件追蹤(Event Tracking)問題[2],

往往因描述同一個事件的文件是非常”相似”的,

所以能夠有相當好的效果。

從方法的本質來看,我們將文件轉以向量表 示,在N 個特徵的空間中,一個全域的分類函數 可能導致過分符合於訓練資料(Overfitting)的偏 差,且語言千變萬化,相同的詞、片語可能代表 的意義在不同文件中完全不同,所以我們視各特 徵項間為獨立的假設往往造成錯誤的結果,所以 如果單純以此假設作貝氏分類並不是一個足夠好 的方法。相較於貝氏分類,kNN 就能夠在文件分 類問題上有較佳的表現,它取區域近似(local approximation)的做法更能以表現”使用字詞相似 的文件往往屬於同類”這個事實,而不至有過分符 合訓練資料的問題。但kNN 在面臨一個沒有和它 所含訓練資料相似的文件時,取k 個離它最近的 文件是否合理?而這樣的情況是相當可能發生 的,一個新的文件使用的重要字詞和訓練資料中 的文件所使用的特徵字詞幾乎沒有重疊,只好依 照對該新文件而言不重要的特徵來決定它的類 別,這樣的判斷是危險而無理的。

統計法上新的學習理論幾乎已將統計資料所 能發揮的功用達到最高,自SVM[4]出現並被用於 文件分類問題中[5][10],它以計算空間中最大分隔 界(margin)的做法確實同時盡可能避免了過分符 合訓練資料的問題,且同時確實利用了所有的統 計資料,儘管它的成效確實較之前所有統計方法 都來得更好[6],但面對新文件時,特徵可能不足 的問題依然存在。

2-3 BC(Bayesian Classifier)

BC 是一個基於機率理論的分類方法。在特徵 選取後,由已知文件計算出該特徵與該類別之間 的條件機率關係,分類時藉由此機率關係計算文 件屬於各類的機率,由其中選出機率最高的類別 作為該文件的類別。這個方法在一般機器學習領 域中,被長久而普遍的應用到各個問題。

對於訓練資料作特徵選取後,我們得到T 個

特徵 ,然後我們可以依訓練資料計

算 (8),其中 為C 類中有特

徵 的文件數,

N

為C 類的總文件數,T 為

K

T

K K

1

,

2

,...,

)

| ( K

i

C

i

(

P K

)

|

( K C

N

i

)

C

(3)

總特徵數,至於 可以以 除以總文件

數求得。在得到所有的 後,我們

對於任一文件 均可從其中包含的n 個特徵求得 (5)其預測類別。

) (C P

(

1

= n i

P

) (C N

| (K P

i

) ) ) (C P

i

| C K

) C d

) C

+ T +1 ) C N

C K

i

) (

| ( N ( ( max arg

c

P

C K

P (

i

| ) =

(8)

但這樣的方法的表現並不理想,主要由於它 對各特徵間的獨立假設。且容易因訓練文件中包 含文件較多的大類而有所偏差,特徵對各類別的 分別意義在這個方法中不容易顯現出來。

2-4 kNN(k Nearest Neighbor)

kNN 為一在機器學習領域中早已被廣泛使用 的案例學習(Instance Based Learning)法之一,它和 一般的機器學習方法的主要不同在於它並不是處 理所有的訓練資料,並由此求得一全域的目標函 數(global target function),並依此全域的目標函數 做分類,而是待待分類文件出現後,根據待分類 文件在特徵空間中的位置,以回歸方式取一附近 區域的近似函數(local approximation),以此函數分 類。

這個方法利用待分文件和其鄰近的文件相 似,所以待分文件可以依鄰近文件的類別來判斷 它的類別,這樣的判斷在確實選取到了足堪代表 文件的特徵時,確實是一個相當理想的做法,在 實驗中也證明了這樣的方法確實能有不錯的表 現。

KNN 主要的缺點一為計算可能相當費時 [8],尤其對於中文文件的大量特徵,依待分類文 件向量找鄰近向量、並計算相似度的計算量很 大,所以在之前的研究中,有以各種不同的方式 如各種分群(Clustering)方法、詞庫(Thesaurus)等 等,將特徵空間的維度下降,但也相對損失了部 分的鑑別度。

KNN 能否有好的表現關鍵在於是否能有足夠 好的特徵,因為有足夠表現該文件的特徵,我們 判斷文件的相似程度才具有意義。一旦相似文件 集合中的文件實際上並不相似時,kNN 也就無法 做出正確的判斷了。

2-5 SVM(Support Vector Machine)

支撐向量機(SVM)為一近來被廣泛運用在分 類問題上的數學工具。它能夠將原有的訓練資料

所在的空間

X

透過Mercer 核心運算子(kernel operator)轉換成另一個更高維的空間 。它的目 標是自 中找出一個最佳的分割超平面

(hyperplane),這個超平面能夠達到將兩類點分得 最開,也就是有最大的邊界(margin)。這個超平面 僅是由訓練資料在空間中的點中與該平面距離

F F

||

||

1

w

的點決定,若僅以這些點訓練,會得到相同 的支撐向量(Support Vector)。

若能以非線性的方式組合,則可能真正找到 一理論上對訓練資料而言所能找到的最好全域分 類函數。尤其對於非線性的語言而言,更適於應 用這樣的方法,於先前的研究結果中,也證明這 樣的方法確實是較佳的[6]。

雖然它可以獲得統計學習理論上依訓練資料 所得的最佳結果[4],但相較於其他方法它的計算 量顯得相當龐大,所以為解決支撐向量機所需龐 大計算量的問題,最近相關的研究方向朝向主動 式學習(Active Learning) [10],也就是利用啟發的 特殊方法(heuristic)找出可能為決定超平面的訓練 資料,以減少計算量。

3. 結合特徵選擇於自動文件分類

為了克服傳統機器學習統計方法的缺點,本 文提出結合特徵選取的兩階段做法,希望能同時 具有統計法的優點,亦能在實際情況中足堪應用。

3-1 決定統計法是否能夠確定分類的規則

無論是BC, kNN, SVM 等等方法,均是將文 件抽象化在特徵空間(document space)後再做處 理,也就是將文件

d

視為n 個特徵構成的空間

R

n

中的一個點

d

,然後以不同的機器學習方式歸納 出分類目標函數(target function)。

就kNN 而言,它之所以能夠有成效乃基於相 似文件屬於同一類的假設,由離待判斷點最近的 幾個點當作相似文件,並由此歸納待判斷該點所 代表的文件屬於何類。在kNN 中,我們近似的方 式(6)為對任一文件向量(document vector)

d

取特 徵空間中鄰近的幾個文件集合

kNN

,比較

d

中所有文件的相似程度,並依

kNN

中文件 的類別決定

kNN

d

的類別。文件向量中各特徵的值可 以以TF•IDF(4)方式求得,文件間的相似程度一 般而言是以餘弦(cosine)(9)方式求得。

(4)

=

kNN d

j i i j

i

c d C d d sim c

d

C ( , ) ( , ) ( , )

(6)

=

=

=

× =

= ⋅

T

l lj T

l li T

l li lj

j i

j i j

i

w w

w w d

d d d d

d sim

1 2 1

2 1

|

|

| ) |

, (

(9)

但如果最接近的點也和待判斷文件毫不相 似,我們就認為這樣的文件為無法確定分類的文 件。也就是在特徵空間中,距離最近的文件離待 判斷的文件的距離過大(R1)。由於距離過遠,儘管 它是離待判斷文件最近,我們仍然認為這樣的依 據是不合理的。

圖1: 判斷白點的類別依據離它最近的黑點可能 是不合理的

Rule 1:

arg min || −

i

|| > δ

i

d

d

(R1) (R1): for kNN Classifier.

而距離遠於何值以上被認為是不合理的?也 就是該如何選定一適當的

δ

值?在這裡我們使用

「錯誤的」正確率(precision)與召回率(recall),使 該

δ

值能儘量找到最多訓練資料中的誤分文章,

找到的這些無法確定的文章再移至下一階段處 理。

由於支撐向量機[4]和 kNN 不同,它的分類所 依據之超平面(hyperplane),為一全域的目標函數 (global target function),且這個目標函數被認為是 理論上在該特徵空間中最佳的分類函數。但若在 該特徵空間中無法表現該文件的重點或分類所需 依據時,即使依據支撐向量機也不能保證這樣的 分類是正確的。

文件中重要的詞為新詞,關鍵性的詞在文件 中的比重不夠重,這兩項問題都仍然可能造成支 撐向量機判斷錯誤,所以我們認為在該特徵空間 中距離原點長度太短的向量是特徵不足的。

3-2 統計法無法確定文件之處理

由於統計方法對於新出現的重要特徵無法立

即作出反應,我們需要的是新的、重要的特徵,

所以這時我們對無法確定分類的文件引入類似相 關性回饋(relevance feedback)的方式處理。我們將 無法確定分類的文件重新作特徵選取,並由使用 者做決定性的選取。

在這裡,我們由第一階段得到的不確定文章 中取出所有的特徵,減掉原有的特徵集合,留下 的特徵集合由使用者選出何特徵對決定是何類是 重要的。在這一階段中,我們直接讓機器學習「規 則」,而不以統計方法判定。這樣的想法乃來自 於人類在決定文件的類別時,往往只基於一兩個 關鍵字即可做出正確的判斷。

舉例來說,在第一階段中若留下一篇文章難 以決定,而使用者因這篇文章出現某一關鍵人名 而判斷這篇文章屬於學術類,而這個關鍵人名可 能由於是新的特徵,而在統計中卻是不重要的,

所以我們可以定下「所有統計方法無法決定類別 的文章,若出現該關鍵人名則直接判定為學術類 文章」這樣的規則。

我們在這裡對於每個決定關鍵詞應用的順 序,以類似相關性回饋(Relevant feedback)的方法 決定,對於被機器判定為難以確定的文章,我們 列出其所有新增特徵詞,使用者認為對決定為該 類有決定性影響的新詞,以類似相關性回饋的方 式勾選,當再遇到難以判定的文章時,則以存在 被選出的關鍵詞是否存在於該文章,來決定該文 章是否屬於該類,如仍無法決定,則再列出所有 新增特徵詞以供使用者選出。

因為在一般文件分類應用中,突然在大量新 文件中出現重要新詞是相當常發生的,如對新聞 分類而言,出現某一事件中的重要人名,幾乎可 以斷定該新聞屬於何類別。若以人工分類的觀 點,當人在決定文件類別時,往往也是透過類似 於這樣的方式決定文章的類別。

於是,我們可以在第一階段中處理大部分統 計方法可以確定的文章,再第二階段中以之前第 二階段的學習結果,做決定性的分類。

3-3 二階段文件分類

本文提出的演算法執行前,先以傳統統計方 式做訓練,並設所得之特徵集合為F,新取得的 關鍵特徵集合Ui 分別對應到相應類別 Ci

對每一新文件d,先以傳統統計方式做機器分 類,並判斷它是否依前列規則,為依之前訓練資 料無法確定判斷的文件,若否,則直接傳回傳統 方法所得結果。若是,則留待第二階段,對每一 類別Ci所對應的特徵集Ui 依序檢查該文章中是 否存在Ui 中的特徵,若有,則傳回對應類別 Ci, 若無,則由使用者判斷所屬類別與關鍵新特徵,

(5)

並更新特徵集Ui ,以期可以同時發揮統計方法的 最大功效,又不致在實際應用中出現問題。

ALGORITHM Two-Stage-Text-Categorization (input: document d) returns category C

Statistic: Trained classifier: Traditional-Classifier The feature set: F

The new feature set by user feedback: Ui

for related catehory Ci

For new document d

C ← Traditional-Classifier (d) If NOT satisfy the rule R1 Return C {normal case}

Else {stage 2: relevant feedback}

For all category Ci

If d have the feature in Ui

C ← Ci Return C End If End For Cj ←User-Input

Uj ← Uj + User-Selected C ←Cj

END If Return C End For

圖二: 兩階段文件分類的演算法

4. 實驗結果

我們使用中央社新聞作為我們實驗的依據 [11]。實驗結果顯示分類正確性與訓練資料大小的 相關性。我們先執行原有的分類演算法,然後列 出本文提出的二階段方式以供比較,在我們的實 驗中,本文提出的方法確實能有效提昇正確率。

在本篇論文提出的方法中,第一階段選用 kNN,調整 Rule 1 中門檻值使其有最佳表現,由 於我們希望的門檻值能夠取得最多不適用該方法 的文件,所以無論單以正確率(Precision)或召回率

(Recall),都不足以完全表現該方法的效能,故我 們以 F-Measure(10)來評估 kNN 的效能,以決定 門檻值,無法到達該值的文章留待第二階段中,

以人工方式選取有決定性的特徵,並在其後若再 有無法到達門檻值的文章,則在第二階段先觀察 是否曾出現此類決定性的特徵,若有,則直接分 類,若無,則再以人工選取其特徵。

實驗中,β值我們以一般最佳(State-of-the-art) 的0.8 計算[12],當門檻值為 0.9 時,能夠讓第一 階段的kNN 有最佳的表現(圖三)。

本論文所提方法與傳統方法相較,平均約有 71%的正確率,較之傳統方法中,SVM 的 67.6%,

kNN 的 66.17%,Naïve Bayes 的 65.08%均有相對 較佳的表現(圖四)。而由這個實驗中,傳統方法的 缺陷也清楚反映出來,Bayesian Classifier 由於本 身的特徵獨立假設,統計上較大的類別會不合理 的以較高的相關程度對應到較多的特徵,故在實 驗結果中也很清楚的出現易誤分到文章數較多的 類別的問題。

) (

) 1 (

2 2

R P

R F P

+

= + β

β

(10)

0 0.1 0.2 0.3 0.4 0.5 0.6

0 0.1 0.2 0.3

Threshold

F-measure

圖三: 第一階段中,門檻值與 F-measure 之關係。

(6)

55 60 65 70 75 80

Training Data Size

Precision (%)

BC kNN SVM Our

圖四: 結合非訓練式特徵選取之文件分類方法中 訓練資料大小與正確率之關係。

5. 結論

由於訓練資料是有限的,而語言的變化是無 窮的,目前基於統計學習理論的機器學習方法於 文件分類問題上可能難有大幅的改進。本文提出 了一個半自動、但儘量將其花費減低的二階段做 法,以解決完全基於訓練資料的機器學習分類方 式在實際上應用有效果的限界的問題。

本方法雖然需要在執行過程中的使用者介 入,但在實際應用中,確實能讓機器同時為使用 者減輕大量負擔,而又達到幾乎接近人工分類般 的表現。

實驗結果中,原本的方式在面對中文文件 時,無論是BC、kNN、SVM,都只能將分類正確 率達到65%左右,若基於同樣大小的訓練資料,

傳統的機器學習方式無法將這個結果有大幅的提 昇。若以本文提出的二階段做法,確實能選出重 要的特徵與新出現的重要特徵,而大幅改進分類 的正確率。

參考文獻

[1] Dunja Mladenic, J. Stefen Institute,

Text-Learning and Related Intelligent Agents: A Survey, IEEE Transactions on Intelligent Systems, pp. 44-54, 1999.

[2] Yiming Yang, Improving Text Categorization Methods for Event Tracking, In Proceedings of the 23th Ann Int ACM SIGIR Conference on Research and Development in Information

Retrieval(SIGIR ’00), 2000.

[3] Yiming Yang, Combining Multiple Learning Strategies for Effective Cross Vaildation, In

Proceedings of the 17th International Conference on Machine Learning (ICML ’00) ,2000.

[4] V. Vapnik, The Nature of Statiscal Learning Theory. Springer, New York, 1995.

[5] Thorsten Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevent Features. In European Conference on Machine Learning(ECML ’98), pages 137-142, Berlin, 1998, Springer.

[6] Yiming Yang, A re-examination of Text Categorization Methods, In Proceedings of the 22th Ann Int ACM SIGIR Conference (SIGIR ’99), 1999.

[7] Lee-Feng Chien. Pat-tree-based keyword extraction for Chinese information retrieval. In Proceedings of the 20th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR ’97), pages 50-58, 1997.

[8] Jyh-Jong Tsay and Jing-Doo Wang, Improving Automatic Chinese Text Categorization by Error Correction. In Proceedings of Information Retrieval of Asian Languages(IRAL ’00), 2000.

[9] James Tin-Yau Kwok, Automated Text Classification Using Support Vector Machine, International Conference on Neural Information Processing(ICNIP ’98), 1998.

[10] Daphne Koller and Simon Tone, Support Vector Machine Active Learning with Applications to Text Classification, In Proceedings of International Conference on Machine Learning(ICML ’00), 2000.

[11] Central News Agency, URL:

http://www.cna.com.tw

[12] D. E. Appelt, D. J. Israel. Introduction to Information Extraction Technology. Tutorial for International Joint Conference on Artificial Intelligence(IJCAI-99), Stockholm, August 1999.

參考文獻

相關文件

“Transductive Inference for Text Classification Using Support Vector Machines”, Proceedings of ICML-99, 16 th International Conference on Machine Learning, pp.200-209. Coppin

⇔ improve some performance measure (e.g. prediction accuracy) machine learning: improving some performance measure..

3 active learning: limited protocol (unlabeled data) + requested

“Machine Learning Foundations” free online course, and works from NTU CLLab and NTU KDDCup teams... The Learning Problem What is

Suggestions to Medicine Researchers on Using ML-driven AI.. From Intelligence to Artificial Intelligence.. intelligence: thinking and

3 active learning: limited protocol (unlabeled data) + requested

Parallel dual coordinate descent method for large-scale linear classification in multi-core environments. In Proceedings of the 22nd ACM SIGKDD International Conference on

For the data sets used in this thesis we find that F-score performs well when the number of features is large, and for small data the two methods using the gradient of the