• 沒有找到結果。

3.5 Ensemble Box Learning

3.5.1 Concept Drift

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

絡上所有的點,像是點N2與點N3所連結的雲朵,代表著在社會網絡上類別分類的趨勢,

而這個趨勢都是有可能隨著社會網絡的變化改變的。我們希望可以藉著動態社會網絡的 演化狀態,來得知此分類規則的趨勢。

此類與時間有關的演變資訊,機器學習領域中將此稱為概念飄移(Concept Drift);因 此我們的解法中,必須利用Concept Drift 的解法,來找出分類規則改變的趨勢。以下將 簡短說明Concept Drift、並詳細說明本研究中 Ensemble Box Learning 的方法。

3.5.1 Concept Drift

概念飄移(Concept Drift)指的是資料在一連串的變化中出現的趨勢,而所謂的 Concept 可以是任何想要預測的概念;例如在氣象預報中,溫度、濕度等等都可以是一 種 Concept;又例如在網路行銷中,商家可能想藉由過去的資料,了解消費者在不同季 節或是不同時節的消費狀況,來預測消費者下一個可能的動作機制,就可以正中下懷釋 出折扣或是大量廣告,進而達到最高的效益;在此例中,消費者的消費模式,也是一個 Concept。

前面提及本研究利用了社會網絡隨著時間增長的演進過程,設法找出位於下一個時 間之社會網絡中的點,及其正確類別的對應脈絡。事實上,我們在本研究中,把這個可 能會隨著社會網絡演變的類別分類規則,視為我們問題的Concept。

Indre Zliobaite[25]等學者指出 Concept Drift 變化的方式可以分成四種,以下圖 3.5 為例,假設此圖中的 concept 表示產生資料的機率模型,此例中每一個圓柱型都是一個 機率模型也就是一個concept

(1)Sudden drift

在Sudden drift 的情況下,concept 會在某一個時間點忽然的改變,也就是說,資料 原本全部出自下方的機率模型,卻在某一個時間點,變成了全部出自上方的機率模型,

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

可以看到在接近中心的時間點,concept 出現了全然不同的改變。

(2)Gradual drift

在 Gradual drift 的情況下,資料屬於兩個不同 concept 出現的機率則是逐漸改變,

隨著時間,資料漸漸的從屬於下方的 concept 變成屬於上方的 concept 這種狀況稱為 Gradual drift;

(3)Incremental drift

在incremental drift 的情況下,除了原本上下兩個截然不同的 concept 之外,還會有 許多介於這兩者之間的 concept,例如在此例中,隨著時間資料的出處就會漸漸的從下 方機率模型,轉換到一個介於下方與上方之間的機率模型,以此類推,漸漸的出自於上 方的機率模型。

incremental drift 與 gradual drift 最大的不同在於,gradual drift 只有兩種 concept,而 資料屬於這兩種concept 的機率會逐漸改變;incremental drift 還多了許多介於兩個極端 之間的concept,資料是靠著這些介於兩者之間的 concept 逐漸轉換的

(4)Reoccurring context

最後一種concept drift,稱為 reoccurring context,指的就是 concept 會隨著時間反覆 有周期性的轉換,例如現實生活中,有時候會流行復古風,這樣的例子即為reoccurring context。

Concept Drift的解法有許多,概括而言主要分成兩種:(1) Trigger based Learner與(2) Evolving based Learner [21] [25] [15]。Trigger based Learner 主要是用在concept會突然改 變的情況下,例如sudden drift的情形。然而,本研究關注的對象是,類別分類的規則受 到社會網絡演化影響而產生的變化,而這個類別分類規則的變化過程,不會倏忽出現大

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

幅度的改變,而是潛移默化的。

若由 [23] 提出得四類Concept Drift分類,本研究隸屬於incremental drift的情況,因 此並不適用trigger based learner的解法,需要的是evolving based learner。

相對於Trigger based Learner會偵測concept的變化,立即做更動;Evolving based Learner則是不主動偵測 concept,取而代之的是,不斷的調整 learner 本身,使其不斷 的適應新的訓練資料,使其變的越來越準確。Evolving based learner這樣的特性,正是我 們需要的。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

3.5 概念念飄飄移移種種類類示示意意圖 [15]

Ensemble Classification是Evolving based learner常見的一種方法,此為資料探勘領域的分 類問題中,為了提高分類的準確率因應而生的方法。Ensemble Classification的精神在於,

若是單一分類器很難分的準確,那麼不如利用多個基礎分類器(based classifiers)來分類,

mean

Sudden drift

mean

Gradual drift

mean

Incremental drift

mean

Reoccurring contexts

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

而最後的分類結果則採用多數決的方式,利用此方法來提升分類的準確率。

此外,只要每個基礎分類器是彼此獨立的,並且每個基礎分類器的準確率比隨機猜 來的好,那麼準確率就會比使用單獨一個分類器來的高[17]。

Ensemble Classification的關鍵是必須將原本的訓練資料分割成數個訓練資料;原因 是Ensemble Classification是利用多個基礎分類器來做分類,那麼假設某個Ensemble Classifier是以N個基礎分類器所組成,那就必須要將原本的訓練資料,分割成N筆訓練資 料,以產生N個分類器。最後再結合這n個分類器,綜合分類的結果,對未知的資料作分 類。

相關文件