• 沒有找到結果。

Chapter 1 緒論

1.3 研究架構

在本研究裡,第一章為緒論,描述本研究之背景、動機與目的。第二章為文 獻探討,介紹資料的保護技術,間接隱私保護為k 隱匿後之資料再進行關聯規則 探勘,基直接隱私保護則為關聯規則隱藏,本研究採用(Wang, S. L. et al., 2007)[27]

提出的DCDS 和 DCIS 演算法。第三章為如何衡量直接隱私保護和間接隱私保護 的隱私性的提升以及資料可用性的流失之問題描述,說明本研究衡量隱私性的提 升還有資料可用性的流失的問題,並提出一個可以比較直接隱私保護和間接隱私 保護之間的隱私性的提升及資料可用性的流失之架構。第四章為實驗與結果分析,

利用變化關聯式規則中的最小支持度(minimum support)和最小可信度(minimum confidence),觀察其中的隱私性的提升以及資料可用性的流失之變化,接著比較 直接隱私保護和間接隱私保護之間的隱私性的提升和資料可用性的流失。第五章 為結論和未來研究方向,闡述本研究的結果以及未來的研究方向。

5

Chapter 2 間接隱私保護與直接隱私保護方法之文獻探討

隨著現在網路上的虛擬世界的活躍,資料的傳播、蒐集也更加快速,造就了 一個資料高度共享的社會,使得資料的隱私問題逐漸被重視。在某些時候資料需 要被發佈,像是為了研究、統計等等,而這些資料中若是含有資料擁有者的隱私 例如病人的病歷、學生的基本資料、員工的檔案等等,則會面臨著隱私被侵犯的 風險,對個人、企業都是不容忽視的危害。

間接的隱私保護有許多種,像是k 隱匿[7][8][14][15][17][19][20][28]、l-diversity[13]、t-Closeness[12]等等,這些都是在資料發佈前,對資料進行處理,

以免發佈之後的資料洩漏出隱私。以k 隱匿來說是為了防止發佈的資料中敏感 的隱私被惡意的攻擊者獲得,k 隱匿要求發佈後的資料必須存在一定數量的無 法區分個體,從而讓惡意的攻擊者無法判斷出敏感的隱私屬於誰,以此達到保 護隱私的目的。k 隱匿須把資料的屬性分成三類。第一類是主要屬性,即為可 識別資料擁有者的屬性(Key Attribute)例如姓名、身分證字號等。第二類是準識 別屬性(Quasi-identifier),即為與主要屬性相關的資料例如年紀、性別、郵遞區 號等。第三類為敏感屬性(Sensitive attribute),即為資料擁有者的敏感資料,例 如疾病、收入等。圖2.1 為原始資料表,其中姓名為主要屬性,年齡、性別、

住所、宗教為準識別屬性,疾病則為敏感屬性。經過k 隱匿處理之後如圖 2.2 所示,除了主要屬性完全掩蓋(suppression),每一筆資料都至少有另一筆資料在 準辨識屬性上與其完全相同,其中年齡則是使用了一般化

(generalization)[19][20][24][25]。即使攻擊者得到此資料表,也無法分辨每筆資 料所對應的敏感屬性。k 隱匿的 k 是代表至少要有 k 筆資料的準辨識屬性完全 相同。在過去的研究中k 隱匿有許多方法來達成,像是掩蓋、一般化等等。一 般化是將準辨識屬性的資料,以年齡為例,在同一個區間內的資料例如25、

26、27 歲,變成以 20~30 歲來表示,如圖 2.2。掩蓋的方法則是直接將資料以 星號或是其他符號來表示,使得惡意攻擊者取得資料也無法辨識,以宗教為

6

例,原本是基督教、佛教等,經過掩蓋方法後全都變成星號,如圖2.2。本研究 使用掩蓋方法來做觀察結果的變化。

圖2.1

圖2.2

然而在先前的研究中k 隱匿大多沒有針對敏感屬性做特別的保護,大多是 將其中準識別屬性做處理,使得惡意攻擊者沒辦法經由資料連結等方式來侵犯 到資料擁有者的隱私,但是在這之外惡意攻擊者可能經由資料探勘、背景知識 攻擊、一致性攻擊等方法來得知資料擁有者的隱私資訊[5]。例如攻擊者得到一 份k 隱匿後的資料,被攻擊者所在的等價類別中,敏感資訊都是癌症,那麼攻 擊者很容易就能做出被攻擊者一定患有癌症的判斷,為了防止一致性攻擊新的

7

隱私保護模型l-diversity[13]改進了 k 隱匿,任何一個等價的類別中,敏感資訊 至少需要有l 個不同的值,t-Closeness[12]在 l-diversity 的基礎上,要求這些敏 感資訊屬性的盡量平均分布。這些研究是針對於資料的一致性所做的保護,但 卻無法防止攻擊者使用資料探勘的技術來攻擊。

(Sramka, M., 2010)[21]等人提出了一個計算可用性的概念,將可用性分為好 的可用性以及壞的可用性,好的可用性是一般使用者所做的資料探勘,像是研 究、實驗等,如圖2.3,壞的可用性則是惡意使用者所做的資料探勘,想要從中 找到敏感的資訊,像是疾病、宗教等等,此研究希望藉由k 隱匿和差分隱匿 [16]將壞的可用性降低,結果顯示 k 隱匿效果較佳。(Sankar, L., 2010)[22][23]等 人,則是針對資料在隱匿前與隱匿後,之間資料的改動多寡作探討,使用了亂 度以及各種距離公式來衡量,希望可以找出隱私性高、資料不用改動太多的最 佳值。(He, Y., 2011)[9][29]是針對研究針對查詢(query)的結果的可用性作探討。

圖2.3

直接隱私保護的目的是要防止惡意的資料探勘侵犯隱私資訊,例如保護關聯 式規則、分類、分群之結果不會透漏隱私[1][10][26][27]。本研究針對關聯式規則 作探討,關聯式規則就是一種資料探勘的技術[3],分析資料中每個項目,找出其

8

中 之 間 的 關 係 , 例 如 A=>B。關 聯強度 則是使用 支持度 (support)與可 信度 (confidence)來衡量,支持度是指在資料中包含 A∩ B 的百分比,也就是機率 P(A∩B),可信度是指資料中包含了 A 也同時包含了 B 的百分比,也就是機率 P(B|A)。若滿足設定的最小支持度(minimum support)和最小可信度(minimum confidence)的話,則該資料項目間存在有強關聯。

在過去的研究中(Pontikakis, E. D., 2004)[18]等人提出,關聯式規則的保護可 分為兩種,第一種是資料修改方法[4],概念是想要藉由直接修改原始資料來隱藏 探勘出來的關聯式規則,例如將某筆資料A 修改為 C,或是直接將 A 以其他符 號 取 代 , 而 這 種 方 法 並 不 能 控 制 隱 藏 的 效 果 。 第 二 種 則 是 資 料 重 建 方 法 [10][27][26],概念是經由觀察探勘出來的結果,來修改原始資料,使得探勘結果 有所不同,達到隱藏敏感規則的效果。但是這些修改也會出現一些副作用,以關 聯式規則隱藏為例,新規則的出現、敏感規則沒有隱藏到等等都是副作用,而這 些副作用也往往被拿來當評估資料可用性的流失流失的指標,但是並沒有評估到 底獲取了多少的隱私性的提升的方法,在本研究中針對資料探勘中的關聯式規則,

根據(Wang S. L., 2007)[27]提出的對於關聯式規則保護(association rule hiding)敏 感 的 隱 私 資 訊 之 方 法 Decrease Confidence by Decrease Support(DCDS) 以 及 Decrease Confidence by Increase Support(DCIS),經由增減資料的支持度,來達到 降低資料的可信度,而使得想要隱藏的含有敏感隱私的關聯式規則,無法被資料 探勘找出來。下圖2.4 是一個關於 DCDS 的例子。在這個例子中希望隱藏的敏感 規則為:{C=>A (66%, 100%), C=>B (50%, 75%)},想要對資料做隱匿的保護,在 原始的資料中,可探勘出來的敏感規則有四條,C=>B(33%, 50%)、AC=>B(33%, 50%)、C=>AB(33%, 50%)、C=>A(66%, 100%)。想要經由 DCDS 讓這四條關聯式 規則隱藏起來,便將項目中TID 是 T1 的 ABC 改為 AC 來達到降低支持度,而 使得可信度也跟著下降,在這之後,能夠隱藏起來的關聯式規則為 C=>B(33%, 50%)、AC=>B(33%, 50%)、C=>AB(33%, 50%),雖然這三條關聯式規則經過 DCDS

9

之後很好的被隱藏起來,但是還有一條 C=>A(66%, 100%)是想要隱匿卻沒隱匿 的,此為DCDS 方法的副作用之一。另外一個副作用則是會隱匿到本來沒有想要 隱匿的規則,讓資料的資料可用性的流失產生預期外的變化,這個例子原本只想 要隱匿這四條敏感規則,C=>B(33%, 50%)、AC=>B(33%, 50%)、C=>AB(33%, 50%)、C=>A(66%, 100%),經過處理後只隱匿了其中三條,但卻連這三條 B=>C(33%, 66%)、AB=>C(33%, 66%)、B=>AC(33%, 66%),原本不想隱匿的,卻 因為將TID 中 T1 的 ABC 改成 AB,而使得這三條關聯式規則也被隱匿起來。

圖 2.4

10

Chapter 3 資料隱私性的提升及可用性的流失衡量之問題定

此章介紹本研究的問題定義。第一節介紹基於關聯規則之間接隱私保護與其 隱私性的提升以及資料可用性的流失之衡量和間接隱私保護之問題。第二節介紹 基於關聯規則之直接隱私保護與其隱私性的提升以及資料可用性的流失之衡量 和間接隱私保護之問題。

3.1 間接隱私保護

在間接隱私保護中想要達到的效果是,防止惡意的攻擊者經由資料的比對、

關聯等方法辨識出資料擁有者的敏感資訊像是疾病、收入等等,有許多的間接隱 私保護,例如k 隱匿、l-diversity[13]、t-Closeness[12]等等,都是對於發布前的資 料做保護,使得資料發布後不會被惡意的攻擊者侵犯到隱私。以k 隱匿來說,下 表3.1 為一個原始資料(Original Database, OD),準辨識屬性(Quasi-identifier)為年 齡(Age)、 受教育程度(Education-num)、工作(Occupation),敏感屬性(Sensitive attribute)為薪水(Salary)。k 隱匿的目的是讓經過 k 隱匿處理的資料,其準辨識資 料,有 k-1 筆相同,而無法辨識出敏感資料是哪筆資料所擁有。以表 3.2(k-anonymity Database, KAD)為例,經過 k 隱匿(k = 3)的處理,除了本身之外還有兩 筆資料的準辨識資料是相同的。 同底色的表格為一組,都有著相同的準辨識資 料,紅色的字為經過修改的資料。

衡量k 隱匿之隱私性的提升皆為 k 值大小,k 越大則隱私性的提升越高,以 表 3.2 這個例子來說是 k=3,而資料可用性的流失可以用亂度(entropy)為基礎來 計算,其原始公式為entropy(H) = −(p(a) × log(p(a)) − p(b) × log(p(b)),

(Krause, A., 2008)[11]中提到,想要計算使用者對於搜尋結果的點擊次數之可用性,

是以觀察entropy 值的變化來衡量可用性之變化。以 entropy 原始公式為例,正值 表示資料可用性的流失有上升,負值表示資料可用性的流失的下降,a 代表 k 隱

11 support)為 15%和最小可信度(minimum confidence)為 80%,最後是敏感的資訊,

在這個例子中把薪水部分的 S1 視為敏感資訊。接著在圖 3.3 中下方右邊是關聯 式規則所得到的結果,總共有十條規則,分別是E1=>S2、S1=>E2、(A1, S2)=>E1、

(A1, E1)=>S2、(A1, S1)=>E2、(A1, E2)=>S1、(A2, O2)=>S1、(O3, S2)=>E1、(E1, O3)=>S2、(O2, S2)=>E1,而其中第六條(A1, E2)=>S1 和第七條(A2, O2)=>S1 包 含了敏感的資料S1,這是還沒經過 k 隱匿處理得到的結果。在圖 3.4 中,首先是 以表3.2 的經過 k 隱匿處理的資料(k-anonymity Database)做關聯式規則的探勘,

設定最小支持度(minimum support)和最小可信度(minimum confidence)與圖 3.3 相 同的數值分別為15%、80%,最後是敏感的資訊 S1,希望能夠隱藏 S1 在右項的

12

表3.1(Original Database, OD)

ID Age

表3. 2(k-anonymity Database, KAD)

13

圖 3.3(Original Database Association Rules)

圖 3.4(k-anonymity Database Association Rules)

3.2 直接隱私保護

在直接隱私保護中想要達到的效果是,對於直接隱私保護後的資料,做資料

在直接隱私保護中想要達到的效果是,對於直接隱私保護後的資料,做資料

相關文件