• 沒有找到結果。

第二章 問題定義及背景知識

N/A
N/A
Protected

Academic year: 2021

Share "第二章 問題定義及背景知識"

Copied!
6
0
0

加載中.... (立即查看全文)

全文

(1)

第二章 問題定義及背景知識

2-1 問題定義

令 I = {i1, i2, …, im}表示資料流中所有的資料項(item)所成的集合,一筆交

易 T 是指由 I 集合中一個或一個以上的資料項所形成的集合。本論文中所考慮的

資料流型態如下:在每一個單位時間點 k(k ≥1)內,會有零到多筆不等的新交

易輸入。在單位時間點 k 內輸入的新交易所成之集合{Tk1, Tk2 ,…,Tkj}稱為一個單

位累積交易集,以 Bk表示,|Bk|表示第 k 個單位累積交易集中所包含的交易筆數。

至時間點 t 為止,資料流所形成的資料庫 DSt = [ B1, B2, …, Bt )。

給定一個視窗大小值 w,且目前時間點為 t。令t ≥ ,則目前交易視窗 CTWw t

(Current Transaction Window)是由最近 w 個單位時間內所輸入的單位累積交易

集,也就是 Bt-w+1∪Bt-w+2∪ …∪Bt所構成的交易集合,目前交易視窗 CTWt的數

量以|CTWt|表示,| CTWt | = |Bt-w+1|+|Bt-w+2|+ …+|Bt|,即指 CTWt中各單位累積

交易集所包含的交易數之加總。CTWt中的第一個單位累積交易集,意指 Bt-w+1

當目前時間變為 t+1 時,CTWt+1相當於對 CTWt的內容,新增 Bt+1且移除原

來 Bt-w+1,CTWt+1中仍包含有最近 w 個單位時間內輸入的單位累積交易集中的交

易。以下圖 2.1 顯示一個資料流範例,當視窗大小 w 設為 4 個單位累積交易集時,

從時間點 4 到 6 對應的 CTWt內容。

(2)

cd b

c ac a

bd ab

b ac

c ab 單位累積交易 a 所包含之交易

8 7 6 5 4 3 2 單位時間編號 1

時間軸

CTW4 CTW5

CTW6

圖 2.1 目前視窗 CTW 移動情形

一個資料項集(itemset)是由 I 集合中一個或一個以上的資料項所組成的集

合。一個資料項集 P 內所包含的資料項個數稱為 P 的長度,以| P |來表示;而長

度為 l 的資料項集,稱為一個 l-資料項集(l-itemset)。當一個資料項集 P 為交易

T 的一個子集,則稱 T 包含 P。在目前交易視窗 CTWt中包含資料項集 P 的交易 筆數稱為 e 在資料流中的最近支持度計數值,以RCt (P)表示;最近支持度則由

) P

t (

RC 除以|CTWt|計算得之,以Rsupt(P)表示。由使用者給定一個介於 0 到 1 之間的最小支持度門檻值(minimum support)Smin,對一個資料項集 P,若

) P ( supt

R 大於等於 Smin,則稱 P 為資料流中一個最近常見資料項集(Recent

Frequent itemset);若Rsupt(P)小於 Smin,則稱 P 為一個非最近常見資料項集

(Recent Infrequent itemset)。

根據論文[16]中的定義,任兩個資料項集 P1 與 P2 的距離計算方式,

| ) T(P ) T(P

|

| ) T(P ) T(P -| 1 ) P ,

D(P1 2 1 2

= ∩ ,其中 T(P1)表示包含資料項集 P1之所有交易所成的

(3)

集合,T(P2)表示包含資料項集 P2之所有交易所成的集合,因此此值表示包含 P1

及包含 P2之交易資料重疊程度。任意兩個資料項集 P 與 P’,若資料項集 P’包含

資料項集 P 且資料項集 P’與 P 之距離 D(P, P’)小於等於一個給定的δ值,那麼就

稱資料項集 P 被資料項集 P’δ-覆蓋(δ-covered)。此外,若在一個資料項集所成

之集合中,存在一個資料項集 Pr 使得集合中所有其它的資料項集都被 Prδ-覆

蓋,則稱 Pr為這些資料項集之代表樣式。

在本論文,在探勘過程中我們並沒有存下在目前交易視窗中包含資料項集的

交易資訊。因此根據先前δ-覆蓋的定義,我們對兩個資料項集 P 及 Pr定義其在

目前交易視窗中的距離推導如下:

對兩個資料項集 Pr和 P,若 Pr 包含 P,在目前交易視窗中 T(Pr)⊆ T(P),因此

(P) Rsup

) (P 1 Rsup

|

| ) P ( RC

|

|

) P ( RC (P) 1

RC ) (P 1 RC

| ) P ( T

|

| ) P ( T 1 |

| ) T(P T(P)

|

| ) T(P T(P) -| 1 ) P RD(P,

t r t t

r t

t r t r

r r

r = − = − = − = −

= ∩

t t

CTW CTW

若 Pr不包含 P,則 RD(P, Pr) = ∞。

我們定義若 RD(P, Pr) 小於等於給定的δ值,則稱在目前交易視窗中 Prδ-

覆蓋 P。在一個最近常見資料項集所成的集合中,若存在一個資料項集 Pr使得集

合中其它資料項集都被 Prδ-覆蓋,則此集合將以 Pr為代表樣式,並稱 Pr為一個

最近常見代表樣式。

(4)

2-2 出現頻率改變點法

如前一章文獻探討所述,論文[13]中考慮資料流為在每個單位時間都會恰有

一筆新輸入的交易資料,而欲從若在目前視窗中的 w 筆交易探勘出最近常見資

料項集。為了不需將目前視窗內的交易資料全部儲存下來,在論文[13]中提出記

錄資料項集出現摘要資訊的方法,稱為出現頻率改變點法,運用這種摘要資訊儲

存法,只需較小儲存空間,即可近似找出目前視窗內的常見資料項集。

出現頻率改變點法的基本想法,是對出現的資料項集只記錄其累積計數值及

出現區間,因此以下我們討論當一個資料項集 P 的開始累計時間點在目前視窗

開始時間點前的狀況下,以其累積計數值判定 P 在視窗中是否為常見資料項集

的四種情況:

(1) 若資料項集 P 在視窗中為常見資料項集,且其在資料項集開始累積時間 點至視窗開始時間點間為常見資料項集。則由 P 之累積計數值可估算出

P 為一常見資料項集。

(2) 若資料項集 P 在視窗中為常見資料項集,且其在資料項集開始時間點至 視窗開始時間點間為非常見資料項集。則由 P 之累積計數值會判定 P 為

一常見或為一非常見資料項集。

(3) 若資料項集 P 在視窗中為非常見資料項集,且其在資料項集開始時間點 至視窗開始時間點間為常見資料項集。則由 P 之累積計數值會判定 P 為

一常見或為一非常見資料項集。

(5)

(4) 若資料項集 P 在視窗中為非常見資料項集,且其在資料項集開始時間點 至視窗開始時間點間為非常見資料項集。則由 P 之累積計數值可估算出

P 為一非常見資料項集。

由以上之分析情況顯示,以 P開始累積時間點到目前時間點 t 期間的支持

度,來判斷 P 在視窗中是否為最近常見資料項集,可能發生誤判的情況為情況 2

或情況 3。在情況 2 中,當 P 在視窗外(即從 P 之開始時間點到視窗之開始時間

點前)的出現次數很稀疏,造成根據 P 從開始時間點到目前時間點間的支持度,

會判斷 P 為一個非常見資料項集。在情況 3 中,發生誤判的原因為 P 在視窗中

的出現分佈變的稀疏,但其總累計次數仍足夠被判別為常見資料項集,因此誤判

為最近常見資料項集。

由情況 2 跟 3 可知,資料項集出現頻率發生變化,會造成以 P 的累計出現

次數判斷 P 是否是最近常見資料項集的誤判情形。因此,出現頻率改變點法所

記錄的摘要資料結構,會記錄資料項集發生出現頻率可能轉為偏向非常見的時間

點。以論文[13]設定的資料流環境,若資料項集 P 為常見資料項集,那麼平均至

少應該每隔(1/Smin)個資料項集 P 就會出現一次,因此當此次出現和前一次出現時

間點的間隔大於(1/Smin)之時間點,代表此次出現頻率已小於常見資料項集之最小

平均出現頻率,將其稱為一個出現頻率改變點。每當找到資料項集 P 的一個頻

率改變點,就記錄此改變點出現的時間點,以及從前一個頻率改變點到此改變點

前的出現累計次數,若此次出現之前 P 尚未發生過頻率改變點,則記錄其從第

(6)

一次 P 出現的時間點到此改變點前的出現累計次數。

當時間點由 t 進到 t+1 時,目前視窗中的交易隨時間改變,必須扣除落在過

時時間點的資料項集出現次數。雖然沒有保留資料項集在剛過時的單位時間點中

之精確資訊,但可根據其出現頻率改變點之資訊,將各資料項集的開始累計時間

點調整到儘可能接近視窗開始時間點,即可有效估算出各資料項集的最近支持度

值。

參考文獻

相關文件

在上 一節中給出了有單位元的交換環 R 上的模的定義以及它的一些性質。 當環 R 為 體時, 模就是向量空間, 至於向量空間中的部分基本概念與定理, 有些可以移植到模上來。 例如 子

第四章 連續時間週期訊號之頻域分析-傅立葉級數 第五章 連續時間訊號之頻域分析-傅立葉轉換.. 第六章

下圖一是測量 1994 年發生於洛杉磯的 Northridge 地震所得 到的圖形。任意給定一個時間 t ,從圖上可看出此時間所對

訪問 問時 時間 間: :九 九十 十年 年十 十一 一月 月十 十一 一日 日 1 14 4: :0 00 0~ ~1 17 7: :0 00 0.. 訪 訪問 問地 地點 點: :高 高雄 雄市 市左 左營 營葉

持續測定反應物濃度[A] t 隨時間t 之變化.. 化學網站版

透過線上繳交作業,省時、環保。亦 能透過線上觀看作業批改結果,增進 英文寫作及翻譯能力。.. 第一次進入時,請先 註冊.. 點選

4.6 現時日間育嬰園及日間幼兒園的幼兒工作員與兒童的法定比例,分 別是 1:8 及

在選擇合 適的策略 解決 數學問題 時,能與 別人溝通 、磋商及 作出 協調(例 如在解決 幾何問題 時在演繹 法或 分析法之 間進行選 擇,以及 與小組成 員商 討統計研