先前的直接隱私保護方法,大多都用對於資料的影響或是副作用來衡量結果。
而間接隱私保護也較少有研究討論對於隱匿過後的資料作探勘,並衡量其探勘結 果的資料可用性的流失和隱私性的提升。對於如何衡量評估資料探勘後的隱私性 的提升以及資料可用性的流失,本研究提出一個架構方法,可以互相衡量比較。
表4.1 為本研究使用符號以及其定義。
OD Original database, OD = {R
1,
2, …, R
t} MD Modified database, MD = {R’
1, R’
2, …, R’
t} KAD Modified database by k-anonymity technique
DAD Modified database by association rule hiding algorithm(DCDS, DCIS) R
iA relational data in original database
R’
iA relational data in modified database
I A set of items in database
S A set of sensitive items, which need to be hidden in data mining
sli
iA sensitive large itemset in database
li
jA large itemset in database
sli
j,iA ratio of sensitive large itemset sli
jin a transaction T
ili
j,iA ratio of large itemset li
jin a transaction T
iidf
jThe inverse database frequency for large itemset li
jsw
iThe importance of sensitive large itemset sli
jin a transaction T
iw
iThe importance of large itemset li
jin a transaction T
i表 4.1
4.1 各項符號定義
Definition 1. (ratio of sensitive large itemsets)
I={i1, i2, …, im},是一個項目的集合(set of items),使用者特定的敏感項目
17
(sensitive items)為,S={s1, s2, …, sn},這些項目在資料探勘後是希望被隱藏起來的,
且SI。敏感的大項集合(sensitive large itemsets),包含了敏感的項目。SLI={sli1, sli2, …, slik},大項目敏感資訊的出現機率定義為下:
𝑠𝑙𝑖𝑗,𝑖=|𝑠𝑙𝑖𝑗|
|𝑅𝑖|
|sli
j|是在資料 R
i裡面的敏感的大項集合中的敏感項目數量,|Ri|是關係資料 R
i中 的資料項目數量。Definition 2. (inverse database frequency)
I={i1, i2, …, im},是一個項目的集合(set of items),大項目集合(large itemsets) 是指支持度(support)大於最小支持度(minimum support)的項目,LI={li1,li2, …, lil}。
資料頻率倒數定義如下:
idfj= log|DB|
fj
fj 是 lij 出現在資料中的數量, 且|DB| 總共的關係資料數量
Definition 3. (ratio of large itemsets)
I={i1, i2, …, im},是一個項目的集合(set of items),大項目集合(large itemsets) 是指支持度(support)大於最小支持度(minimum support)的項目,LI={li1,li2, …, lil}。
大項目集合(large itemsets)出現的機率定義如下:
lij,i=|lij|
|Ti|
|lij|是在關係資料 Ri中大項目集合 lij的項目數量, 且|Ri|是關係資料 Ri中的資料 項目數量。
18
4.2 隱私性的提升和可用性的流失之計算公式
敏感大項目的集合之重要程度,對於每筆關係資料的公式如下:
swi = ∑ slij j,i× idfj (1)
swi 是在整個關係資料 Ri中敏感大項目的集合之重要程度,slij,i是大敏感項 目slij在 Ri中的出現率,idfj是大敏感項目slij資料出現頻率的倒數,在 Ri中每一 筆資料都有一個敏感大項目的集合之重要程度,這些數值集合起來為一個敏感大 項目的集合之重要程度的向量。
大項集合(large itemsets)的重要性之公式如下:
wi = ∑ lij j,i× idfj (2)
wi是Ri裡面大項目集合的重要性,lij,i是大項目集合lij在Ri中出現的機率,
idfj是大項目集合lij的資料頻率之倒數。在 Ri之中每筆資料都有一個大資料集合 的重要程度,這些數值集合起來為一個大資料集合的重要程度之向量。
敏感大項目集合,對於關聯式規則所產生有敏感項目的規則,影響非常大。
基於敏感大項目集合的重要程度,本研究針對關聯式規則提出了一個衡量隱私性 的提升以及資料可用性的流失的方法,此方法是基於原始資料和修改後資料之間 的距離來計算。讓敏感大項目資料集合的重要程度之向量,對於原始資料和修改 過後的資料分別表示為SODT=[sw1, sw2, … swt] 以及 SMDT=[sw’1, sw’2, … sw’ t]。
隱私性的提升定義為SOD 和 SMD 兩向量間的距離:
privacy gain(SOD⃑⃑⃑⃑⃑⃑⃑⃑ , SMD⃑⃑⃑⃑⃑⃑⃑⃑⃑ ) = 1 −‖SOD‖×‖SMD‖SOD∙SMD (3)
所有的大項資料集合,對於資料探勘的結果都有很高的影響力,所以本研究 提出一個衡量資料可用性的流失的方法,是經由計算這兩個向量的距離,原始資 料以及修改過後的資料的大項資料集合之重要性。讓原始資料和修改過後的資料,
大項目資料集合的重要程度之向量分別表示為 LODT=[w1, w2, … wt] 以及 LMDT=[w’1, w’ 2, … w’ t]。資料可用性的流失的流失定義為 LOD 和 LMD 兩向量
19
20 量兩者之間的差異,本研究除了計算改動資料數量之外,也採用KL- divergence 來衡量原始資料與改動後的資料之間的差異。公式如下: 計算後相乘,之後加總,便可以得到最終的KL-divergence 的值。值越大代表改 動過的資料與原始資料的差異越大。
21