• 沒有找到結果。

衡量資料可用性的流失以及隱私性的提升之方法

先前的直接隱私保護方法,大多都用對於資料的影響或是副作用來衡量結果。

而間接隱私保護也較少有研究討論對於隱匿過後的資料作探勘,並衡量其探勘結 果的資料可用性的流失和隱私性的提升。對於如何衡量評估資料探勘後的隱私性 的提升以及資料可用性的流失,本研究提出一個架構方法,可以互相衡量比較。

表4.1 為本研究使用符號以及其定義。

OD Original database, OD = {R

1

,

2

, …, R

t

} MD Modified database, MD = {R’

1

, R’

2

, …, R’

t

} KAD Modified database by k-anonymity technique

DAD Modified database by association rule hiding algorithm(DCDS, DCIS) R

i

A relational data in original database

R’

i

A relational data in modified database

I A set of items in database

S A set of sensitive items, which need to be hidden in data mining

sli

i

A sensitive large itemset in database

li

j

A large itemset in database

sli

j,i

A ratio of sensitive large itemset sli

j

in a transaction T

i

li

j,i

A ratio of large itemset li

j

in a transaction T

i

idf

j

The inverse database frequency for large itemset li

j

sw

i

The importance of sensitive large itemset sli

j

in a transaction T

i

w

i

The importance of large itemset li

j

in a transaction T

i

表 4.1

4.1 各項符號定義

Definition 1. (ratio of sensitive large itemsets)

I={i1, i2, …, im},是一個項目的集合(set of items),使用者特定的敏感項目

17

(sensitive items)為,S={s1, s2, …, sn},這些項目在資料探勘後是希望被隱藏起來的,

且SI。敏感的大項集合(sensitive large itemsets),包含了敏感的項目。SLI={sli1, sli2, …, slik},大項目敏感資訊的出現機率定義為下:

𝑠𝑙𝑖𝑗,𝑖=|𝑠𝑙𝑖𝑗|

|𝑅𝑖|

|sli

j

|是在資料 R

i裡面的敏感的大項集合中的敏感項目數量,|Ri

|是關係資料 R

i的資料項目數量。

Definition 2. (inverse database frequency)

I={i1, i2, …, im},是一個項目的集合(set of items),大項目集合(large itemsets) 是指支持度(support)大於最小支持度(minimum support)的項目,LI={li1,li2, …, lil}。

資料頻率倒數定義如下:

idfj= log|DB|

fj

fj 是 lij 出現在資料中的數量, 且|DB| 總共的關係資料數量

Definition 3. (ratio of large itemsets)

I={i1, i2, …, im},是一個項目的集合(set of items),大項目集合(large itemsets) 是指支持度(support)大於最小支持度(minimum support)的項目,LI={li1,li2, …, lil}。

大項目集合(large itemsets)出現的機率定義如下:

lij,i=|lij|

|Ti|

|lij|是在關係資料 Ri中大項目集合 lij的項目數量, 且|Ri|是關係資料 Ri中的資料 項目數量。

18

4.2 隱私性的提升和可用性的流失之計算公式

敏感大項目的集合之重要程度,對於每筆關係資料的公式如下:

swi = ∑ slij j,i× idfj (1)

swi 是在整個關係資料 Ri中敏感大項目的集合之重要程度,slij,i是大敏感項 目slij在 Ri中的出現率,idfj是大敏感項目slij資料出現頻率的倒數,在 Ri中每一 筆資料都有一個敏感大項目的集合之重要程度,這些數值集合起來為一個敏感大 項目的集合之重要程度的向量。

大項集合(large itemsets)的重要性之公式如下:

wi = ∑ lij j,i× idfj (2)

wi是Ri裡面大項目集合的重要性,lij,i是大項目集合lij在Ri中出現的機率,

idfj是大項目集合lij的資料頻率之倒數。在 Ri之中每筆資料都有一個大資料集合 的重要程度,這些數值集合起來為一個大資料集合的重要程度之向量。

敏感大項目集合,對於關聯式規則所產生有敏感項目的規則,影響非常大。

基於敏感大項目集合的重要程度,本研究針對關聯式規則提出了一個衡量隱私性 的提升以及資料可用性的流失的方法,此方法是基於原始資料和修改後資料之間 的距離來計算。讓敏感大項目資料集合的重要程度之向量,對於原始資料和修改 過後的資料分別表示為SODT=[sw1, sw2, … swt] 以及 SMDT=[sw’1, sw’2, … sw’ t]。

隱私性的提升定義為SOD 和 SMD 兩向量間的距離:

privacy gain(SOD⃑⃑⃑⃑⃑⃑⃑⃑ , SMD⃑⃑⃑⃑⃑⃑⃑⃑⃑ ) = 1 −‖SOD‖×‖SMD‖SOD∙SMD (3)

所有的大項資料集合,對於資料探勘的結果都有很高的影響力,所以本研究 提出一個衡量資料可用性的流失的方法,是經由計算這兩個向量的距離,原始資 料以及修改過後的資料的大項資料集合之重要性。讓原始資料和修改過後的資料,

大項目資料集合的重要程度之向量分別表示為 LODT=[w1, w2, … wt] 以及 LMDT=[w’1, w’ 2, … w’ t]。資料可用性的流失的流失定義為 LOD 和 LMD 兩向量

19

20 量兩者之間的差異,本研究除了計算改動資料數量之外,也採用KL- divergence 來衡量原始資料與改動後的資料之間的差異。公式如下: 計算後相乘,之後加總,便可以得到最終的KL-divergence 的值。值越大代表改 動過的資料與原始資料的差異越大。

21

Chapter 5 實驗與結果分析

相關文件