實驗分析與討論 - 實驗與結果分析 - 在行動隱私中評估隱私性和可用性之研究

Chapter 5 實驗與結果分析

5.2 實驗分析與討論

為了比較隱匿過後的資料之隱私性的提升及資料可用性的流失，本研究先將資料做隱匿，隱匿方法為k 隱匿(k=2、4、6、8、10)、DCDS、DCIS，再來對隱匿過後的資料做關聯式規則探勘。在實驗中，固定最小支持度(minimum support) 為0.15 以及 0.1，變化最小可信度(minimum confidence)0.5、0.55、0.6、0.65、0.7、

0.75、0.8、0.85、0.9、0.95，以及固定最小可信度為 0.8，變化最小支持度 0.05、

0.09、0.13、0.17、0.25，藉此來評估隱私性的提升的變化(privacy gain)以及資料可用性的流失的變化(utility loss)。

圖5.1 是最小支持度為 0.15，變化最小可信度由小到大，資料可用性的流失的實驗結果。由圖5.1 可以看出隨著最小可信度的增加，k 隱匿過的資料上升的

趨勢較為明顯尤其在 0.8~0.85 之間變化最為劇烈，因為 k 隱匿並不是針對敏感的關聯規則去做隱私保護，所以資料可用性的流失在可信度越大、所能探勘出來的規則越少的時候會更為明顯。

圖5.2 最小支持度為 0.15，變化最小可信度由小到大，隱私性的提升的實驗結果。可以發現k 隱匿的數據和 DCDS、DCIS 有明顯的區隔，因為兩者的保護方法不同，DCDS、DCIS 是直接對某些敏感的規則做隱私保護，相較於 k 隱匿對於整個原始資料做隱私保護，隱私性的提升是比較低的，這點在其他圖中也都是一樣的結果。

圖5.1 以及 5.2 的實驗數據都只有到 0.85，是因為在最小支持度 0.15 之下，

最小可信度到了 0.85 已經是極限，所能探勘出來的規則都只剩下 1~2 條，若是把最小支持度固定、最小可信度繼續增加則會得到探勘不出規則的結果，但是把最小支持度放寬到0.1，則最多能探勘到 0.95，如圖 5.3 及圖 5.4 表示。

圖 5.3 最小支持度為 0.1，變化最小可信度由小到大，資料可用性的流失的實驗結果。和最小支持度為 0.15 時一樣最小可信度在 0.8~0.85 時資料可用性的流失的值會上升很多，但是到了 0.95 的時候又降了下來，因為關聯式規則的數量在0.95 的時候遽然減少，造成所得到的值也跟著下降。k 隱匿和 DCDS、DCIS 也和最小支持度為0.15 時一樣有區隔。

圖 5.4 最小支持度固定為 0.1，變化最小可信度由小到大，隱私性的提升的實驗結果。在 0.95 的時候也是因為關聯式規則的數量遽減，所得到的值也跟著遽降。因為 k 隱匿是對於整個原始資料做保護，所以線條都是在 DCDS、DCIS 的上方，也就是流失的可用較多，得到的隱私也較多。

圖 5.5 最小可信度固定為 0.8，變化最小支持度由小到大，可用性的流失的實驗結果。變化最小支持度的結果是一開始得到的值非常高，後面則是變化較少，

這也反應了在最小支持度較小的時候，在每個保護過後的資料中，能用關聯式規

則探勘出來的規則都和原始資料探勘出來的規則差異較小，所得到的向量也較為相似，經過計算所得到的值也就較大。

圖 5.6 最小可信度固定為 0.8，變化最小支持度由小到大，隱私性的提升的實驗結果。同圖5.5，在最小支持度為 0.05 的時候，所得到的值相較於其他最小支持度高，另外k 隱匿和 DCDS、DCIS 的區隔更為明顯，這也說明間接的隱私保護能夠獲得較高的隱私性的提升，但可用性的流失也較多。從以上這幾張圖都可以看到明顯的k 隱匿和 DCDS、DCIS 的區隔，但是也可看出 k 隱匿本身並無明顯分隔，因為k 隱匿並不是針對關聯式規則去做保護，對於探勘出來的關聯式規則並沒有直接的影響，造成k 值大小較不會影響計算出來的結果，使得 k 隱匿的數據只是在相似的位置，並沒有k 值大隱私高的現象。

資料的改動，有隱私性的提升，也有可用性的流失。另一方面資料改動的目的是為隱藏敏感的關聯式規則，為了評估間接的隱私保護以及直接的隱私保護之效果，本研究針對資料改動後的效果及副作用來探討。對於隱藏含有敏感資訊的規則、總共被刪除的規則、新增規則這三個部分作分析，固定最小支持度為0.15，

變化最小可信度0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85，以及固定最小可信度為0.8，變化最小支持度 0.05、0.09、0.13、0.17、0.25

圖5.7 看出來針對關聯式規則的隱藏，需要改動的資料比較少，也就是資料可用性的流失與k 隱匿相比之下較少，但獲得的隱私也沒有 k 隱匿多，而 k 隱匿則是相反，改動的資料比率大於 DCDS、DCIS 許多，所以流失的隱私相較之下多出很多，但相對得到的隱私也較高。更進一步，本研究對於每個隱匿資料的方法，使用KL-divergence 方法來衡量對於資料隱匿前後的差異，得到的結果如表 5.8。因為 DCDS、DCIS 的方法設定最小支持度 0.15、最小可信度 0.8，所以對 DCDS、DCIS 的 KL-divergence 在此條件數值下做計算。可以看出 DCDS、DCIS 這兩個方法KL-divergence 的值小於其他 k 隱匿很多，因為 DCDS、DCIS 是針對探勘出來的關聯式規則去做隱私保護，而k 隱匿是對於全部資料作保護，所改動

到的資料相對比較多，得到的KL-divergence 值也就比較大。

如圖5.9 新增的關聯式規則由 k=10 的百分比最多，也因為最小支持度在 0.13 之後的關聯式規則越來越少，與原始的關聯式規則之差異也就越來越小。k=2 在最小支持度 0.17 的時候，百分比會大於 k=4、6、8、10 是因為關聯式規則的總數量較少，但新增的關聯式規則數量都為一條，所以會像圖5.9 所示。圖 5.10 顯示了 k=2、DCDS、DCIS 所刪除的關聯式規則百分比較少，而其他則反之。在 k=4、6、8、10 且最小支持度在 0.17~0.25 的時候，都是刪除了一條關聯式規則，

但因為總關聯式規則只有四條，所以百分比皆為 25。圖 5.11 可見隱匿過的資料大多都有新增的關聯式規則，而k=10 和 k=8 最為明顯，在最小可信度較高的時候，關聯式規則的總較較少，造成分母較小，導致新增關聯式規則即使只有一兩條，百分比變很高，也因為最小支持度在 0.13 之後所能探勘出的關聯式規則越來越少，與原始的關聯式規則之差異也沒有很顯著。k=2 在最小支持度 0.17 的時候，百分比會大於k=4、6、8、10 是因為總關聯式規則的數量較少，但新增的關聯式規則都為一條，所佔的百分比才會如圖5.11 所示。

由圖5.12 可見 k=10 可隱藏敏感資訊最多，DCDS 和 DCIS 在最小可信度 0.6 之前的效果較佳，k=2~8 則是最小可信度到了 0.7 之後才較無法隱藏含有敏感資訊的關聯式規則，因為當最小可信度在0.7 以上的時候，每個隱匿過後的資料所探勘出來的關聯式規則都非常相似，對於隱藏敏感規則也就沒有顯著的效果。由圖5.13 可見被刪除的關聯式規則在最小可信度 0.6 之後降低的較為明顯，大多是與原始資料的關聯式規則相似，也就沒有被刪除的關聯式規則，換句話說是最小可信度在0.6 之前所探勘到的關聯式規則差異較顯著。

這些資料改動後的效果以及副作用，在最小可信度與最小支持度數值較小的情況下，因為所能探勘到的關聯式規則較為多樣化，也就造成了差異較為顯著。

除了最小可信度與最小支持度影響之外，對於資料改動的影響也是在越多的時候，

越為明顯，像是 k=8 和 k=10，對於資料的改動最多，在隱藏含有敏感資訊的規

則、總共被刪除的規則、新增規則這三個百分比結果中，往往也是較好的，但在最小支持度與最小可信度高的情況下，每個隱匿方法所改動的資料中能探勘到的關聯式規則較為相似，因此結果並沒有顯著優於其他資料隱匿的方法。也就是在最小支持度與最小可信度高的情況下，資料的改動影響較小，而在最小支持度與最小可信度低的情況下，資料改動的影響較為顯著。

圖 5.1 (minimum support = 0.15 之 utility loss 實驗結果)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1

0 . 5 0 . 5 5 0 . 6 0 . 6 5 0 . 7 0 . 7 5 0 . 8 0 . 8 5

UTILITY LOSS

MINIMUM CONFIDENCE

UTILITY LOSS

k=2 k=4 k=6 k=8 k=10 DCDS DCIS

MINIMUM SUPPORT

PRIVACY GAIN

表5.8 KL-divergence 之數值結果

圖5.9 (minimum confidence = 0.8 之隱藏含有敏感關聯式規則結果)

0 20 40 60 80 100 120

0.09 0.13 0.17 0.21 0.25

MINIMUM SUPPORT

隱藏含有敏感資訊的關聯式規則 (百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

0.09 0.13 0.17 0.21 0.25

MINIMUM SUPPORT

0.09 0.13 0.17 0.21 0.25

MINIMUM SUPPORT

新增的關聯式規則(百分比)

DCDS DCIS k=2 k=4 k=6 k=8 k=10

在文檔中在行動隱私中評估隱私性和可用性之研究 (頁 25-36)