衡量資料可用性的流失以及隱私性的提升之方法 - 在行動隱私中評估隱私性和可用性之研究

先前的直接隱私保護方法，大多都用對於資料的影響或是副作用來衡量結果。

而間接隱私保護也較少有研究討論對於隱匿過後的資料作探勘，並衡量其探勘結果的資料可用性的流失和隱私性的提升。對於如何衡量評估資料探勘後的隱私性的提升以及資料可用性的流失，本研究提出一個架構方法，可以互相衡量比較。

表4.1 為本研究使用符號以及其定義。

OD Original database, OD = {R

,

, …, R

} MD Modified database, MD = {R’

, R’

, …, R’

} KAD Modified database by k-anonymity technique

DAD Modified database by association rule hiding algorithm(DCDS, DCIS) R

A relational data in original database

R’

A relational data in modified database

I A set of items in database

S A set of sensitive items, which need to be hidden in data mining

sli

A sensitive large itemset in database

li

A large itemset in database

sli

j,i

A ratio of sensitive large itemset sli

in a transaction T

li

j,i

A ratio of large itemset li

in a transaction T

idf

The inverse database frequency for large itemset li

sw

The importance of sensitive large itemset sli

in a transaction T

w

The importance of large itemset li

in a transaction T

表 4.1

4.1 各項符號定義

Definition 1. (ratio of sensitive large itemsets)

I={i1, i2, …, im}，是一個項目的集合(set of items)，使用者特定的敏感項目

(sensitive items)為，S={s1, s2, …, sn}，這些項目在資料探勘後是希望被隱藏起來的，

且SI。敏感的大項集合(sensitive large itemsets)，包含了敏感的項目。SLI={sli1, sli2, …, slik}，大項目敏感資訊的出現機率定義為下:

𝑠𝑙𝑖_𝑗,𝑖=^|𝑠𝑙𝑖_𝑗|

|𝑅_𝑖|

|sli

|是在資料 R

i裡面的敏感的大項集合中的敏感項目數量，|Ri

|是關係資料 R

i中 的資料項目數量。

Definition 2. (inverse database frequency)

I={i1, i2, …, im}，是一個項目的集合(set of items)，大項目集合(large itemsets) 是指支持度(support)大於最小支持度(minimum support)的項目，LI={li1,li2, …, lil}。

資料頻率倒數定義如下:

idf_j= log^|DB|

f_j

fj 是 lij 出現在資料中的數量，且|DB| 總共的關係資料數量

Definition 3. (ratio of large itemsets)

I={i1, i2, …, im}，是一個項目的集合(set of items)，大項目集合(large itemsets) 是指支持度(support)大於最小支持度(minimum support)的項目，LI={li1,li2, …, lil}。

大項目集合(large itemsets)出現的機率定義如下:

li_j,i=^|li_j|

|T_i|

|lij|是在關係資料 Ri中大項目集合 lij的項目數量, 且|Ri|是關係資料 Ri中的資料項目數量。

4.2 隱私性的提升和可用性的流失之計算公式

敏感大項目的集合之重要程度，對於每筆關係資料的公式如下:

sw_i = ∑ sli_j _j,i× idf_j (1)

sw_i 是在整個關係資料 Ri中敏感大項目的集合之重要程度，sli_j,i是大敏感項目sli_j在 Ri中的出現率，idf_j是大敏感項目sli_j資料出現頻率的倒數，在 Ri中每一筆資料都有一個敏感大項目的集合之重要程度，這些數值集合起來為一個敏感大項目的集合之重要程度的向量。

大項集合(large itemsets)的重要性之公式如下:

w_i = ∑ li_j _j,i× idf_j (2)

w_i是Ri裡面大項目集合的重要性，li_j,i是大項目集合li_j在Ri中出現的機率，

idf_j是大項目集合li_j的資料頻率之倒數。在 Ri之中每筆資料都有一個大資料集合的重要程度，這些數值集合起來為一個大資料集合的重要程度之向量。

敏感大項目集合，對於關聯式規則所產生有敏感項目的規則，影響非常大。

基於敏感大項目集合的重要程度，本研究針對關聯式規則提出了一個衡量隱私性的提升以及資料可用性的流失的方法，此方法是基於原始資料和修改後資料之間的距離來計算。讓敏感大項目資料集合的重要程度之向量，對於原始資料和修改過後的資料分別表示為SOD^T=[sw1, sw2, … swt] 以及 SMD^T=[sw’1, sw’2, … sw’ t]。

隱私性的提升定義為SOD 和 SMD 兩向量間的距離：

privacy gain(SOD⃑⃑⃑⃑⃑⃑⃑⃑ , SMD⃑⃑⃑⃑⃑⃑⃑⃑⃑ ) = 1 −‖SOD‖×‖SMD‖^SOD∙SMD (3)

所有的大項資料集合，對於資料探勘的結果都有很高的影響力，所以本研究提出一個衡量資料可用性的流失的方法，是經由計算這兩個向量的距離，原始資料以及修改過後的資料的大項資料集合之重要性。讓原始資料和修改過後的資料，

大項目資料集合的重要程度之向量分別表示為 LOD^T=[w1, w2, … wt] 以及 LMD^T=[w’1, w’ 2, … w’ t]。資料可用性的流失的流失定義為 LOD 和 LMD 兩向量

20 量兩者之間的差異，本研究除了計算改動資料數量之外，也採用KL- divergence 來衡量原始資料與改動後的資料之間的差異。公式如下: 計算後相乘，之後加總，便可以得到最終的KL-divergence 的值。值越大代表改動過的資料與原始資料的差異越大。

Chapter 5 實驗與結果分析

在文檔中在行動隱私中評估隱私性和可用性之研究 (頁 20-25)