Chapter 5 實驗與結果分析
5.2 實驗分析與討論
為了比較隱匿過後的資料之隱私性的提升及資料可用性的流失,本研究先將 資料做隱匿,隱匿方法為k 隱匿(k=2、4、6、8、10)、DCDS、DCIS,再來對隱 匿過後的資料做關聯式規則探勘。在實驗中,固定最小支持度(minimum support) 為0.15 以及 0.1,變化最小可信度(minimum confidence)0.5、0.55、0.6、0.65、0.7、
0.75、0.8、0.85、0.9、0.95,以及固定最小可信度為 0.8,變化最小支持度 0.05、
0.09、0.13、0.17、0.25,藉此來評估隱私性的提升的變化(privacy gain)以及資料 可用性的流失的變化(utility loss)。
圖5.1 是最小支持度為 0.15,變化最小可信度由小到大,資料可用性的流失 的實驗結果。由圖5.1 可以看出隨著最小可信度的增加,k 隱匿過的資料上升的
22
趨勢較為明顯尤其在 0.8~0.85 之間變化最為劇烈,因為 k 隱匿並不是針對敏感 的關聯規則去做隱私保護,所以資料可用性的流失在可信度越大、所能探勘出來 的規則越少的時候會更為明顯。
圖5.2 最小支持度為 0.15,變化最小可信度由小到大,隱私性的提升的實驗 結果。可以發現k 隱匿的數據和 DCDS、DCIS 有明顯的區隔,因為兩者的保護 方法不同,DCDS、DCIS 是直接對某些敏感的規則做隱私保護,相較於 k 隱匿對 於整個原始資料做隱私保護,隱私性的提升是比較低的,這點在其他圖中也都是 一樣的結果。
圖5.1 以及 5.2 的實驗數據都只有到 0.85,是因為在最小支持度 0.15 之下,
最小可信度到了 0.85 已經是極限,所能探勘出來的規則都只剩下 1~2 條,若是 把最小支持度固定、最小可信度繼續增加則會得到探勘不出規則的結果,但是把 最小支持度放寬到0.1,則最多能探勘到 0.95,如圖 5.3 及圖 5.4 表示。
圖 5.3 最小支持度為 0.1,變化最小可信度由小到大,資料可用性的流失的 實驗結果。和最小支持度為 0.15 時一樣最小可信度在 0.8~0.85 時資料可用性的 流失的值會上升很多,但是到了 0.95 的時候又降了下來,因為關聯式規則的數 量在0.95 的時候遽然減少,造成所得到的值也跟著下降。k 隱匿和 DCDS、DCIS 也和最小支持度為0.15 時一樣有區隔。
圖 5.4 最小支持度固定為 0.1,變化最小可信度由小到大,隱私性的提升的 實驗結果。在 0.95 的時候也是因為關聯式規則的數量遽減,所得到的值也跟著 遽降。因為 k 隱匿是對於整個原始資料做保護,所以線條都是在 DCDS、DCIS 的上方,也就是流失的可用較多,得到的隱私也較多。
圖 5.5 最小可信度固定為 0.8,變化最小支持度由小到大,可用性的流失的 實驗結果。變化最小支持度的結果是一開始得到的值非常高,後面則是變化較少,
這也反應了在最小支持度較小的時候,在每個保護過後的資料中,能用關聯式規
23
則探勘出來的規則都和原始資料探勘出來的規則差異較小,所得到的向量也較為 相似,經過計算所得到的值也就較大。
圖 5.6 最小可信度固定為 0.8,變化最小支持度由小到大,隱私性的提升的 實驗結果。同圖5.5,在最小支持度為 0.05 的時候,所得到的值相較於其他最小 支持度高,另外k 隱匿和 DCDS、DCIS 的區隔更為明顯,這也說明間接的隱私 保護能夠獲得較高的隱私性的提升,但可用性的流失也較多。從以上這幾張圖都 可以看到明顯的k 隱匿和 DCDS、DCIS 的區隔,但是也可看出 k 隱匿本身並無 明顯分隔,因為k 隱匿並不是針對關聯式規則去做保護,對於探勘出來的關聯式 規則並沒有直接的影響,造成k 值大小較不會影響計算出來的結果,使得 k 隱匿 的數據只是在相似的位置,並沒有k 值大隱私高的現象。
資料的改動,有隱私性的提升,也有可用性的流失。另一方面資料改動的目 的是為隱藏敏感的關聯式規則,為了評估間接的隱私保護以及直接的隱私保護之 效果,本研究針對資料改動後的效果及副作用來探討。對於隱藏含有敏感資訊的 規則、總共被刪除的規則、新增規則這三個部分作分析,固定最小支持度為0.15,
變化最小可信度0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85,以及固定最小可信 度為0.8,變化最小支持度 0.05、0.09、0.13、0.17、0.25
圖5.7 看出來針對關聯式規則的隱藏,需要改動的資料比較少,也就是資料 可用性的流失與k 隱匿相比之下較少,但獲得的隱私也沒有 k 隱匿多,而 k 隱匿 則是相反,改動的資料比率大於 DCDS、DCIS 許多,所以流失的隱私相較之下 多出很多,但相對得到的隱私也較高。更進一步,本研究對於每個隱匿資料的方 法,使用KL-divergence 方法來衡量對於資料隱匿前後的差異,得到的結果如表 5.8。因為 DCDS、DCIS 的方法設定最小支持度 0.15、最小可信度 0.8,所以對 DCDS、DCIS 的 KL-divergence 在此條件數值下做計算。可以看出 DCDS、DCIS 這兩個方法KL-divergence 的值小於其他 k 隱匿很多,因為 DCDS、DCIS 是針對 探勘出來的關聯式規則去做隱私保護,而k 隱匿是對於全部資料作保護,所改動
24
到的資料相對比較多,得到的KL-divergence 值也就比較大。
如圖5.9 新增的關聯式規則由 k=10 的百分比最多,也因為最小支持度在 0.13 之後的關聯式規則越來越少,與原始的關聯式規則之差異也就越來越小。k=2 在 最小支持度 0.17 的時候,百分比會大於 k=4、6、8、10 是因為關聯式規則的總 數量較少,但新增的關聯式規則數量都為一條,所以會像圖5.9 所示。圖 5.10 顯 示了 k=2、DCDS、DCIS 所刪除的關聯式規則百分比較少,而其他則反之。在 k=4、6、8、10 且最小支持度在 0.17~0.25 的時候,都是刪除了一條關聯式規則,
但因為總關聯式規則只有四條,所以百分比皆為 25。圖 5.11 可見隱匿過的資料 大多都有新增的關聯式規則,而k=10 和 k=8 最為明顯,在最小可信度較高的時 候,關聯式規則的總較較少,造成分母較小,導致新增關聯式規則即使只有一兩 條,百分比變很高,也因為最小支持度在 0.13 之後所能探勘出的關聯式規則越 來越少,與原始的關聯式規則之差異也沒有很顯著。k=2 在最小支持度 0.17 的時 候,百分比會大於k=4、6、8、10 是因為總關聯式規則的數量較少,但新增的關 聯式規則都為一條,所佔的百分比才會如圖5.11 所示。
由圖5.12 可見 k=10 可隱藏敏感資訊最多,DCDS 和 DCIS 在最小可信度 0.6 之前的效果較佳,k=2~8 則是最小可信度到了 0.7 之後才較無法隱藏含有敏感資 訊的關聯式規則,因為當最小可信度在0.7 以上的時候,每個隱匿過後的資料所 探勘出來的關聯式規則都非常相似,對於隱藏敏感規則也就沒有顯著的效果。由 圖5.13 可見被刪除的關聯式規則在最小可信度 0.6 之後降低的較為明顯,大多是 與原始資料的關聯式規則相似,也就沒有被刪除的關聯式規則,換句話說是最小 可信度在0.6 之前所探勘到的關聯式規則差異較顯著。
這些資料改動後的效果以及副作用,在最小可信度與最小支持度數值較小的 情況下,因為所能探勘到的關聯式規則較為多樣化,也就造成了差異較為顯著。
除了最小可信度與最小支持度影響之外,對於資料改動的影響也是在越多的時候,
越為明顯,像是 k=8 和 k=10,對於資料的改動最多,在隱藏含有敏感資訊的規
25
則、總共被刪除的規則、新增規則這三個百分比結果中,往往也是較好的,但在 最小支持度與最小可信度高的情況下,每個隱匿方法所改動的資料中能探勘到的 關聯式規則較為相似,因此結果並沒有顯著優於其他資料隱匿的方法。也就是在 最小支持度與最小可信度高的情況下,資料的改動影響較小,而在最小支持度與 最小可信度低的情況下,資料改動的影響較為顯著。
圖 5.1 (minimum support = 0.15 之 utility loss 實驗結果)
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
0 . 5 0 . 5 5 0 . 6 0 . 6 5 0 . 7 0 . 7 5 0 . 8 0 . 8 5
UTILITY LOSS
MINIMUM CONFIDENCE
UTILITY LOSS
k=2 k=4 k=6 k=8 k=10 DCDS DCIS
26
27
28
MINIMUM SUPPORT
PRIVACY GAIN
29
表5.8 KL-divergence 之數值結果
圖5.9 (minimum confidence = 0.8 之隱藏含有敏感關聯式規則結果)
0 20 40 60 80 100 120
0.09 0.13 0.17 0.21 0.25
MINIMUM SUPPORT
隱藏含有敏感資訊的關聯式規則 (百分比)
DCDS DCIS k=2 k=4 k=6 k=8 k=10
30
0.09 0.13 0.17 0.21 0.25
MINIMUM SUPPORT
0.09 0.13 0.17 0.21 0.25
MINIMUM SUPPORT
新增的關聯式規則(百分比)
DCDS DCIS k=2 k=4 k=6 k=8 k=10
31
32