3.5 Ensemble Box Learning
3.5.1 Concept Drift
國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
絡上所有的點,像是點N2與點N3所連結的雲朵,代表著在社會網絡上類別分類的趨勢,
而這個趨勢都是有可能隨著社會網絡的變化改變的。我們希望可以藉著動態社會網絡的 演化狀態,來得知此分類規則的趨勢。
此類與時間有關的演變資訊,機器學習領域中將此稱為概念飄移(Concept Drift);因 此我們的解法中,必須利用Concept Drift 的解法,來找出分類規則改變的趨勢。以下將 簡短說明Concept Drift、並詳細說明本研究中 Ensemble Box Learning 的方法。
3.5.1 Concept Drift
概念飄移(Concept Drift)指的是資料在一連串的變化中出現的趨勢,而所謂的 Concept 可以是任何想要預測的概念;例如在氣象預報中,溫度、濕度等等都可以是一 種 Concept;又例如在網路行銷中,商家可能想藉由過去的資料,了解消費者在不同季 節或是不同時節的消費狀況,來預測消費者下一個可能的動作機制,就可以正中下懷釋 出折扣或是大量廣告,進而達到最高的效益;在此例中,消費者的消費模式,也是一個 Concept。
前面提及本研究利用了社會網絡隨著時間增長的演進過程,設法找出位於下一個時 間之社會網絡中的點,及其正確類別的對應脈絡。事實上,我們在本研究中,把這個可 能會隨著社會網絡演變的類別分類規則,視為我們問題的Concept。
Indre Zliobaite[25]等學者指出 Concept Drift 變化的方式可以分成四種,以下圖 3.5 為例,假設此圖中的 concept 表示產生資料的機率模型,此例中每一個圓柱型都是一個 機率模型也就是一個concept
(1)Sudden drift::
在Sudden drift 的情況下,concept 會在某一個時間點忽然的改變,也就是說,資料 原本全部出自下方的機率模型,卻在某一個時間點,變成了全部出自上方的機率模型,
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
可以看到在接近中心的時間點,concept 出現了全然不同的改變。
(2)Gradual drift::
在 Gradual drift 的情況下,資料屬於兩個不同 concept 出現的機率則是逐漸改變,
隨著時間,資料漸漸的從屬於下方的 concept 變成屬於上方的 concept 這種狀況稱為 Gradual drift;
(3)Incremental drift::
在incremental drift 的情況下,除了原本上下兩個截然不同的 concept 之外,還會有 許多介於這兩者之間的 concept,例如在此例中,隨著時間資料的出處就會漸漸的從下 方機率模型,轉換到一個介於下方與上方之間的機率模型,以此類推,漸漸的出自於上 方的機率模型。
incremental drift 與 gradual drift 最大的不同在於,gradual drift 只有兩種 concept,而 資料屬於這兩種concept 的機率會逐漸改變;incremental drift 還多了許多介於兩個極端 之間的concept,資料是靠著這些介於兩者之間的 concept 逐漸轉換的
(4)Reoccurring context::
最後一種concept drift,稱為 reoccurring context,指的就是 concept 會隨著時間反覆 有周期性的轉換,例如現實生活中,有時候會流行復古風,這樣的例子即為reoccurring context。
Concept Drift的解法有許多,概括而言主要分成兩種:(1) Trigger based Learner與(2) Evolving based Learner [21] [25] [15]。Trigger based Learner 主要是用在concept會突然改 變的情況下,例如sudden drift的情形。然而,本研究關注的對象是,類別分類的規則受 到社會網絡演化影響而產生的變化,而這個類別分類規則的變化過程,不會倏忽出現大
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
幅度的改變,而是潛移默化的。
若由 [23] 提出得四類Concept Drift分類,本研究隸屬於incremental drift的情況,因 此並不適用trigger based learner的解法,需要的是evolving based learner。
相對於Trigger based Learner會偵測concept的變化,立即做更動;Evolving based Learner則是不主動偵測 concept,取而代之的是,不斷的調整 learner 本身,使其不斷 的適應新的訓練資料,使其變的越來越準確。Evolving based learner這樣的特性,正是我 們需要的。
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
圖
圖 3.5 概概念念飄飄移移種種類類示示意意圖圖 [15]
Ensemble Classification是Evolving based learner常見的一種方法,此為資料探勘領域的分 類問題中,為了提高分類的準確率因應而生的方法。Ensemble Classification的精神在於,
若是單一分類器很難分的準確,那麼不如利用多個基礎分類器(based classifiers)來分類,
mean
Sudden drift
mean
Gradual drift
mean
Incremental drift
mean
Reoccurring contexts
‧ 國
立 政 治 大 學
‧
N a tio na
l C h engchi U ni ve rs it y
而最後的分類結果則採用多數決的方式,利用此方法來提升分類的準確率。
此外,只要每個基礎分類器是彼此獨立的,並且每個基礎分類器的準確率比隨機猜 來的好,那麼準確率就會比使用單獨一個分類器來的高[17]。
Ensemble Classification的關鍵是必須將原本的訓練資料分割成數個訓練資料;原因 是Ensemble Classification是利用多個基礎分類器來做分類,那麼假設某個Ensemble Classifier是以N個基礎分類器所組成,那就必須要將原本的訓練資料,分割成N筆訓練資 料,以產生N個分類器。最後再結合這n個分類器,綜合分類的結果,對未知的資料作分 類。