社會網絡權重路徑隱匿之探討

全文

(1)國立高雄大學資訊管理學系（碩士班）碩士論文. 社會網絡權重路徑隱匿之探討 Study of Weighted Path Anonymization on Social Networks. 研究生：蔡政哲撰指導教授：王學亮博士. 中華民國一百零一年七月.

(2) 誌謝碩士班三年的生活即將告終，與過去的學生生活截然不同的是，我是帶著充滿著歡笑與感恩的心情離開這個學校的。想起剛入學時，不論是同學、師長，抑或是完全不熟稔的大學部學弟妹們，都給予我不少的幫助與鼓勵。感謝我的指導教授－王學亮老師，不論我的研究方向與遭遇之瓶頸為何，都耐心的為我在前方打開一扇光明之窗，老師也給予許多態度上的指導，著實讓我思考良多，也感謝老師給予我出國參加研討會的報告機會，讓我增長了不少見識、也觀察到了形形色色的人們，還遇到了以前大學時期的老師，是讓我最難忘的一次經歷。其次感謝洪宗貝老師，在資工系晚間的研討，每次給予的建議都是如此的一針見血，也漸漸的修改了我看文章的角度，對於我後期修改整篇論文有著很大的幫助，也感謝您在韓國研討會時的照顧，感恩。特別感謝蕭漢威老師，也幫助我解決許多研究上的困惑，並提供我實際上的建議與解決方法，甚至在我論文的最後階段，也幫助我思考如何解決我所碰到的瓶頸，十分感謝您。眾多的老師們也在各方面給予了我不同的指導，不論是郭英峰老師的風趣、王凱老師課堂上的腦力激盪…等等，都是生動又有趣的課程。謝謝和我一起在碩士班生活中一同奮鬥的同學們：峻興、奕璋、恩緯、柏任、翔齡（我想你應該算在這裡）、鼎哲、又禎、連暉、宛真、芳羽。不論是在實驗室中一同為課業、論文煩惱，還是一同遊戲的嬉鬧，總是會跑出許多的梗，讓我們歡笑許久，尤其是畢業旅行的那七天，最讓人感到懷念。或許畢業後大家的夢想與志向會不盡相同，但希望大家都能長長久久，永遠聯繫在一起。也感謝下一屆的學弟妹們，怡翔你是個愛笑的開心果，但是要記得學好不要學壞。筱萱是個心地善良的可愛女孩兒，但是有問題就要大方的說出來！佩珊不要太糾結生活上的小事，心放寬點，路會走得更長。佑翰，女兒變成 Rocker 也沒關係嘛！仲膺…不要偷喝別人的飲料！最後謝謝母親無微不至的關心，雖然每天您總是擔心這兒、擔心那兒，但我還是想跟您說，「辛苦了！我會照顧好自己的」。感謝我的父親，在我多唸一年的情況下，還是不多說一句，如此的信任我、並放手讓我去做自己想做的事，有這種父親真的是太棒了！. i.

(3) 中文摘要近年來，許多社群應用網站紛紛崛起，如：Facebook、Twitter…等，加速了社會網絡在世界上的發展。然而，這些應用網站也可能對使用者的隱私帶來許多威脅。為了防範社會網絡中的隱私被揭露，有許多的研究探討了很多不同的方式來保護敏感的資料，像是圖形上的點的分支度、圖形結構或是權重流量等等。但是這些探討卻沒有考量到，對社會網絡應用之使用者來說，最短路徑也是一種私有的資訊。若有心的攻擊者知曉社會網絡上兩個特定節點的最短路徑，可能會因此而暴露敏感資訊，如：好友關係甚至是公司的交易資訊。本論文中，我們考量在權重網絡圖形中，隱匿權重路徑之問題。為了保護於權重圖形中兩個特定節點的最短路徑之資訊，我們提供了一個新概念：最短路徑之 k 隱匿（k-anonymous path privacy）。發布一個受到最短路徑之 k 隱匿所保護的圖形，會擁有 k 條無法分辨地最短路徑，使得攻擊者無法透過此圖形，輕易地找出原始節點配對之最短路徑。本研究不僅僅提供方法針對不同的隱私層級來保護最短路徑之隱私，我們的實驗結果也建議了隱私層級，使圖形保有實用性與保護性之效果。. 關鍵字：社會網絡、最短路徑之 k 隱匿、權重圖形、隱私保護、k 隱匿. ii.

(4) ABSTRACT Social network applications, such as Facebook and Twitter et al., have become very popular in recent years. However, these applications may cause certain threats to users privacy. To prevent the disclosure of privacy in social network, many researches have studied different ways to protect sensitive data, such as vertex degree, graph structure or weight flow. However, they did not consider that the shortest path is also private information for users. If adversary knew the shortest path between two specific nodes in a social network, sensitive information such as friendships between individuals and transactions between companies, will be leaked. In this work, we consider the path anonymity problem in weighted social network graphs. To protect the shortest path information between two specific nodes in a weighted graph, we propose a new concept called k-anonymous path privacy. A published social network with k-anonymous path privacy will have k indistinguishable shortest path so that adversary cannot identify the original shortest path. We propose algorithm to modify different edge weights for different privacy levels. Numerical experiments show if the levels of privacy and utilities are given.. Keyword: Social Network, privacy preserving, k-anonymous path privacy, weighted graph, k-anonymity. iii.

(5) 目錄口試委員會審定書 ........................................................................................................... # 誌謝 ....................................................................................................................................i 中文摘要 .......................................................................................................................... ii ABSTRACT .................................................................................................................... iii 目錄 ..................................................................................................................................iv 圖目錄 ..............................................................................................................................vi 表目錄 ............................................................................................................................ vii 緒論............................................................................................................ 1. Chapter 1 1.1. 研究背景與動機 ............................................................................................ 1. 1.2. 過去的社會網絡資訊面臨的隱私危機 ........................................................1 1.2.1. 關聯式資料 ........................................................................................... 2. 1.2.2. 交易式資料 ........................................................................................... 2. 1.2.3. 現今的社會網絡 ................................................................................... 3. 研究目的 ........................................................................................................ 3. 1.3. 圖形隱匿之文獻探討 ............................................................................... 5. Chapter 2 2.1. 過去的隱私安全…………….. ...................................................................... 5. 2.2. 圖形簡單隱匿的隱憂 .................................................................................... 5. 2.3. 圖形中節點的身份資訊暴露 ........................................................................ 6. 2.4. 圖形中連結的關係資訊暴露 ........................................................................ 9. 2.5. 圖形中權重的資訊暴露 .............................................................................. 11 問題描述與定義 ..................................................................................... 14. Chapter 3 3.1. 最短路徑的暴露所帶來的威脅.. ................................................................ 14. 3.2. 圖形符號與定義 .......................................................................................... 14 3.2.1. Chapter 4. 最短路徑資訊之隱匿－k-anonymous path privacy ..........................14 貪婪式演算法 ......................................................................................... 17. 4.1. K-Single Path Anonymization (KSP) ...........................................................17. 4.2. K-Multiple Paths Anonymization for NV (KMPN) ......................................19 iv.

(6) 4.3. K-Multiple Paths Anonymization for AV (KMPA)........................................21. 4.4. 時間複雜度 .................................................................................................. 22 實驗結果與分析 ..................................................................................... 24. Chapter 5. 實驗結果與評估方法………….. ................................................................ 24. 5.1. 5.1.1. 執行時間 ............................................................................................. 24. 5.1.2. 被擾動的邊之比率 ............................................................................. 25. 5.1.3. 被擾動的權重比率 ............................................................................. 26. 5.1.4. 資訊損失 ............................................................................................. 27. Chapter 6. 結論與未來方向 ..................................................................................... 30. 參考文獻 ......................................................................................................................... 31. v.

(7) 圖目錄圖 2.1 過去資料的一般化隱匿 ....................................................................................... 5 圖 2.2 簡單隱匿之範例 ................................................................................................... 5 圖 2.3 原始圖形與經過 k-degree 隱匿過後之圖形 .......................................................7 圖 2.4 Isomorphic 與 Automorphic graph........................................................................ 8 圖 2.5 Volume attack 與 Histogram attack ....................................................................... 9 圖 2.6 k-automorphism 無法保證連結資訊的揭露 ...................................................... 10 圖 2.7 k-isomorphism 保證節點與連結資訊不輕易地被擷取 .................................... 10 圖 2.8 商業間交易網絡之隱匿 ..................................................................................... 11 圖 3.1 隱匿前後之圖形比較（k=2） ........................................................................... 15 圖 3.2 圖形上邊之類型比較 ......................................................................................... 16 圖 4.1 原始圖形 ............................................................................................................. 17 圖 4.2 單對與多對節點之 k-anonymous path privacy（k=2） ................................... 17 圖 4.3 多對節點之權重路徑隱匿（for AV） ............................................................... 21 圖 5.1 KMPN 之執行時間 ............................................................................................. 25 圖 5.2 KMPA 之執行時間 .............................................................................................. 25 圖 5.3 KMPN 被擾動的邊之比率 ................................................................................. 26 圖 5.4 KMPA 被擾動的邊之比率 .................................................................................. 26 圖 5.5 KMPN 被擾動的權重比率 ................................................................................. 27 圖 5.6 KMPA 被擾動的權重比率 .................................................................................. 27 圖 5.7 KMPN 所形成之資訊損失 ................................................................................. 29 圖 5.8 KMPA 所形成之資訊損失 .................................................................................. 29. vi.

(8) 表目錄表格 1 各文獻提出之隱匿方法比較 ............................................................................ 13. vii.

(9) Chapter 1. 緒論. 研究背景與動機. 1.1. 資訊科技的發達，使得社會網絡近年來蓬勃發展，從 1997 年起，幾個主要的社群網站也隨之而起，如：Facebook、Twitter…等等，現今皆擁有龐大的會員數量，而這些社群網站所帶來極可觀的收益與便利性，已成為現代人不可替代的生活方式之一，人與人之間的關係靠著種族、國籍、興趣…等等特性用以相互連結，豐富了社會網絡的生活(Backstrom, Huttenlocher, Kleinberg, & Lan, 2006; Boyd & Ellison, 2007)。人們之間相互傳遞訊息、討論甚至是交易，都可以形成一個社會網絡，透過社群網絡不僅可以增進彼此的感情，大量的資訊湧入也可以用於許多方面：如社會心理學相關研究等。當人們在享受社會網絡所帶來的方便與好處之時，也開始注意到十分嚴重的問題－個人隱私。隱私洩漏的問題一直以來都是許多人所關注的焦點，當一位陌生人輕易地得知自己的地址、電話甚至是生活習性，無不讓人感到驚恐。在社群網站－Facebook 盛起之前，Gross 與 Acquisti (2005)就分析了卡內基美隆大學學生們在此社群網站中活動之隱私狀況。他們發現，將近一半的在校生於社群網站上大部分皆有留下完整的個人資訊，例如：完整的生日、性別與現居地點，透過對個人檔案進行資料搜尋，與大學部的學生資料做比對時，有極大部分的學生，都將自我的隱私暴露在社會網絡之中。Gross 與 Acquisti 也發現大部分的學生也將真實的姓名與個人照片公布於社群網站，對於個人隱私毫無疑問的沒有任何防範，可以輕易地了解學生的真實身分。除以上所述，有心人士也可以透過學生們不知道的自身資訊來觀察學生在社會網絡上的使用情形，例如 IP Address。這就表示著每位社群網站使用者的個人隱私，皆輕易地暴露在社會網絡之中，讓他人一覽無遺，是十分危險的。然而社會網絡的隱私並不是由社群網站的活絡才開始關心的課題，過去在龐大的網路社會裡，我們於網站上所儲存的隱私資訊，早已成為眾多學者所探討的目標。. 1.2. 過去的社會網絡資訊面臨的隱私危機社群網站尚未崛起之時，大部分資訊科技的應用皆為架設伺服器以網頁瀏覽 1.

(10) 服務為大宗。這些網頁所儲存之資料，大致上可分為兩個種類：關聯式資料（Relational Data）與交易式資料（Transactional Data）。兩種資料儲存方式皆不盡相同，但同樣都潛藏著隱私洩漏的危機。. 1.2.1. 關聯式資料. 過去儲存的資料是十分平版的，如：顧客清單，皆是將格式與資料，以一長串的訊息字串所儲存，並無依照類別所歸類、整理。而關聯式資料將資訊分門別類，透過關聯式的儲存方式，我們可以輕易的查詢想要的資訊。關聯式資料儲存於表單內容中，表單依照不同的類別進行屬性之分類，如：性別、年齡、身分證字號等，各個表單擁有相同特性的屬性進行關聯，例：關聯式資料庫。直至今日，關聯式資料依然與我們於網頁上所儲存的資訊與記錄息息相關，但隨著科技的進步，隱私安全的問題也漸漸的浮現。為了研究需求，資料供應方將關聯式資料釋出前，避免使得資料內的個人隱私資訊洩漏，供應方通常將資料內的姓名資訊完全刪除，或是用隨機的辨識編號、假名來替代真實的姓名，但這並無法保證使用者資訊不會完全地洩漏。 Sweeney(2002)於美國麻薩諸塞州（Massachusetts）劍橋市（Cambridge）向當地的團體保險委員會（Group Insurance Commission，簡稱 GIC）購買當地工作者的相關醫療資料，這些資料包含了許多的屬性資訊，GIC 為了妥善保護個人疾病隱私，將姓名做了更動，使原始的姓名不被研究者所察覺而侵犯他人隱私。然而 Sweeney 又向當地政府購買麻薩諸塞州的公民投票註冊清單，這個清單內，包含當地公民們真實的姓名資料。經過比對發現，兩筆擁有少量相同屬性的關聯式資料，可以相互對照，並透過相同的屬性部分，如：完整的出生日期、郵遞區號、性別等，推敲出某些公民的疾病資訊。簡單的將姓名更動過後的資訊隱匿，顯然是無法保護個人的隱私不被其他人所察覺，是必須要重視的問題。. 1.2.2. 交易式資料. 一連串行動的資料集合或是需求，進行後確認完成所儲存的資料，即為交易式資料。於搜尋網站上搜尋項目、在購物網站所購買的物品清單等皆為交易式資料，透過查詢交易式資料，人們可以輕易的得到想要的資訊，如 Google 的搜尋引擎。交易式資料雖然不同於關聯式資料為固定的格式、時間，且形成的查詢或購買清單皆為不確定的資訊，在尚未完成購買或查詢之前，交易式資料是無法預測 2.

(11) 的，但是還是有可能成為隱私的攻擊要害(He & Naughton, 2009; Motwani & Nabar, 2008)。 American Online（AOL）是美國著名的入口搜尋網站，使用者透過 AOL 搜尋網站所做的搜尋資訊都會被記錄並儲存，用以提供使用者重複查詢時，可以節省時間與成本，且為了保護使用者的個人隱私，其真實身分皆會以無意義的編號所取代。然而 AOL 曾經公布了三個月內的用戶搜尋記錄，裡面包含了成千上萬的關鍵字與搜尋結果，對社會學家來說，是最好的學術資料來源，可是資料內卻隱藏著巨大的隱私危機。紐約時報雜誌作者透過編號為 4417749 的使用者的搜尋資料，透過資料內的關鍵字，查詢到該使用者的姓名與地址，讓使用者大為震驚。AOL 即使將姓名隱藏起來，也無法保證使用者的個人隱私得到妥善的保護(Barbaro & Zeller, 2006)。過去的社會網絡資料中，存在著不可忽視的隱私保護問題，今日，隱私保護還是人們相當重視的課題之一，隨著社群網站的興起，保護人們重要的隱私亦成為使用者與學者們關心的焦點。. 1.2.3. 現今的社會網絡. 現代人們時常在社會網絡中相互聯繫，人與人之間形成許多的關聯，即便是現實生活中不認識的人，也可以透過社群網站，相互交換訊息、認知彼此，本研究中，將活動於社會網絡的人視為一點，而人與人之間的關係則形成一個邊，因此社會網絡會形成一張巨大的圖形，然而社會網絡圖形中也存在著隱私的問題。. 1.3. 研究目的保護圖形隱私是近年研究的重要課題，先前的研究中探討到不同的資訊暴露，. 如節點上的資訊揭露，使得社會網絡圖形中的節點資訊（姓名、身分）一覽無遺。亦或是節點之連結暴露在社會網絡圖形內，使得與他人之間的關係資訊遭受侵犯 (K. Liu, K. Das, Grandison, & Kargupta, 2008)。再者，社會網絡圖形上權重的資訊，也可能導致交友關係輕重關係，甚至是商業交易流量的隱私皆毫無隱蔽的公諸於世(S. Das, Egecioglu, & El Abbadi, 2010; L. Liu, J. Liu, & Zhang, 2010; L. Liu, Wang, J. Liu, & Zhang, 2009)。透過這些研究，我們可以防範不同種類的隱私問題，但這些文獻的實例中，卻沒有考量到另一項也十分需要保護的敏感資訊－圖形的最短 3.

(12) 路徑。圖形的最短路徑可以代表許多敏感的訊息，攻擊者想透過圖形了解目標人物（受害者）的交友狀況，透過最短路徑，就可以知道誰是受害者的摯友，進一步去了解並認識他。若是商業交易網絡，而因此知道現金成本流量最短的路徑，導致產業間的價格惡性競爭，甚至改變企業的決策。所以，在社會網絡圖形發佈之前，本研究考量最短路徑也是重要的敏感資訊，針對最短路徑提出 k-anonymous path privacy 用以解決最短路徑資訊在社會網絡圖形中，輕易地成為攻擊目標之問題。過去的研究針對哪些隱私方面的保護，本研究將在第二章詳細探討相關之文獻。第三章中，描述如何達成 k-anonymous path privacy，並講述本論文之研究限制。實作 k-anonymous path privacy 之演算法將會在第四章說明，本研究分為三種修改方法，分別針對不同類型的邊（關係）與情況，完成本研究目的，並介紹演算法的時間複雜度。實驗部分，將於第五章呈述，探討演算法之間的效率與經過 k-anonymous path privacy 之隱匿後，圖形之實用性與隱匿的安全性。第六章即講述本研究的結論，並思考未來可能方向與目標。. 4.

(13) Chapter 2 2.1. 圖形隱匿之文獻探討. 過去的隱私安全社會網絡的科技應用尚未崛起之時，關聯式資料與交易式資料皆有不同的學. 者提出隱私保護的相關課題(He & Naughton, 2009; Meyerson & Williams, 2004; Motwani & Nabar, 2008; Park & Shim, 2007; Samarati & Sweeney, 1998; Sweeney, 2002)。其中，大部分的基本方法，皆為一般化（Generalization）資料來確保個人隱私不容易被攻擊者揭穿，如圖 2.1。然而，現今社會網絡之應用廣泛，單純的資料隱匿，已經無法滿足現代人即將要面對的隱私安全問題，廣大的社會網絡圖形，成為了人們關注的焦點。 Identity number 7*** * 761**. 76108. 745**. 76132. 74516. 74537. 圖 2.1 過去資料的一般化隱匿. 2.2. 圖形簡單隱匿的隱憂社會網絡圖形包含了許多的資訊：個人資訊、關係資訊…，都是十分隱私且. 重要的，例：e-mail 的聯繫社會網絡。過去為了提供研究使用需求，大部分的圖形提供者，會將圖形做簡單的隱私保護，如圖 2.2，將節點上的每一個身分辨識資訊以代號取代，用以保護個人資料。但只透過簡單隱匿，便將圖形給予研究使用、甚至公開，還是有可能造成社會網絡圖形內的個人隱私遭受侵害。 Andy V1. V2 Bob. Cathy V3. V4 David. Ethan. C. A. V5. V1. V6. V2 B. Fred. V3. V4 D. 圖 2.2 簡單隱匿之範例 5. E V5. V6 F.

(14) 圖形中節點的身份資訊暴露. 2.3. 以簡單隱匿保護個人的基本資訊，看似安全，其實隱藏著種種危機。Backstrom、 Dwork 與 Kleinberg (2011) 提出了兩種攻擊方式：主動攻擊（Active Attack）與被動攻擊（Passive Attack），推翻了簡單隱匿之可靠性。主動攻擊在圖形隱匿之前，攻擊者可於想攻擊的社會網絡中，融入新的成員們，並相互連結（link）成為一個獨特且獨立的社會網絡圖形，例：在社群網站中建立新帳號，並互相成為朋友關係。並針對想揭露的目標節點，透過融入的新成員們，與目標建立關係（連結），甚至有少數新成員與社會網絡中的其他人建立關係。一旦社會網絡隱匿後，透過尋找攻擊者所建立的獨特之新圖形，在透過先前建立的關係尋找攻擊者，即便可以於隱匿過後的圖形，尋找目標節點之資訊。被動攻擊則無法針對預設的目標進行隱私攻擊，而是攻擊者原本就是社群網絡的一員，當圖形隱匿後，攻擊者將與他鄰近的點之資訊，暴露在社會網絡之下，例如：將 Facebook 的相片附上其他使用者之姓名 Tag。 Hay、Miklau、Jensen、Towsley 和 Weis (2008)透過兩種圖形查詢方法，可以將簡單隱匿過後之圖形之節點資訊暴露出來： . 節點精細查詢法（Vertex Refinement Queries）：會使得圖形的結構透露在社會網絡之下，透過查詢，將可以輕易地知道節點的度數（degree）、其鄰居節點的度數甚至是標籤等。. . 子圖知識查詢法（Subgraph Queries）：攻擊者可能擁有目標節點的一張、甚至是數張子圖，用以查詢受害者，在社會網絡中的位置。. Hay 等人，將圖形以隨機的方式刪除並增加新的邊，達成擾動圖形的目的，但卻無法保證圖形有良好實用性。Ying 與 Wu (2008)提供了透過圖形的光譜，改良了擾動圖形的方式，使圖形擁有較良好的實用性。若攻擊者擁有特定的背景知識（Background knowledge），如：度數攻擊（degree attack），也會使得簡單隱匿過的圖形遭受隱私安全危機。如圖 2.3(A)，若攻擊者知曉 David 的連結度數為 4 即使經過簡單隱匿，我們還是可以輕易地知道 V4 就是 David。 6.

(15) (A). (B) C. A V1. V2 B. V3. V4. E. C. A. V5. V1. V6. V2 F. B. V3. V4. E V5. V6. D. D. D = {4, 3, 3, 2, 2, 2}. D = {4, 4, 3, 3, 2, 2}. F. 圖 2.3 原始圖形與經過 k-degree 隱匿過後之圖形. K. Liu 與 Terzi (2008)發現度數的背景知識，是必須要防範的目標，於是提出了 k-degree 之方法，變更圖形上節點的度數種類，使攻擊者能辨識目標的機率降低至 1/k，如圖圖 2.3(B)。然而 k-degree 尚未可以保證節點完全不遭受隱私攻擊， Tai、Yu、Yang 與 D. Chen (2011)的研究中，攻擊者還是可以透過邊上的度數配對（degree pair）找出節點的隱私資訊。圖 2.3(B)中，若攻擊者知道 Andy 與 Fred 的度數配對為[3, 3]，即使透過 k-degree，我們還是可以找到圖形中 V1 與 V6 分別就是 Andy 與 Fred。Tai 等人提出了 k2-degree anonymous，使得圖形內的度數配對，都至少有 k 個以上，就可以防範攻擊者發現節點的隱密資訊。除了針對度數防範節點隱私之侵犯，也存在著其他不同種類的結構攻擊，如：子圖之背景知識，讓許多研究者思考出以「圖形重複出現，使攻擊者無法輕易辨識」為前提的防範方法，漸漸成形。而圖論數學中，當不同圖形間，點與邊可相互映襯時，即可稱為同構（isomorphic），如圖 2.4(A)中，兩圖形由不同個體所組成，依照結構排列出映襯表（align table），即理解兩圖形之節點是可以相互對應的。而同一圖之節點自身就可相互對應的圖形，我們則稱之為自同構（Automopihc），如圖 2.4(B) (Wasserman & Faust, 1994)。. 7.

(16) (B) Automorphic graph. (A) Isomorphic graph V1. V3. V8. V5. V6. V2. V4. V1. V3. V6. V8. V2. V4. V7. V9. V10. V7. V5. 圖 2.4 Isomorphic 與 Automorphic graph. B. Zhou 與 Pei (2008)提出，若目標節點鄰近的節點結構為獨特且唯一的，則即使隱匿過後仍然會成會攻擊的目標。他們將所有目標鄰近的節點結構資訊稱為鄰近元素（Neighborhood component），並將其編碼（Neighborhood component code），接著將多數個編碼相近的元素合成一張同構的圖形，使攻擊者不容易找到目標，達成隱匿的目的。L. Zou、L. Chen 與 Ö zsu (2009)為了防止結構的查詢攻擊（Structural attack），提出將圖形切割、並將切割過的各個子圖以分群（clustering）的方式將相似的圖形每 k 個分為一群，並將同一群的圖形組合，透過邊的複製，使新的組合圖形成為一張自同構的圖。然而背景知識不斷增加時，要如何防範隱私被侵犯呢？k-symmetry (W. Wu, Xiao, Wang, He, & Wang, 2010)的提出，將圖形切割成好幾張自同構之圖形，透過圖形的複製，使得每張切割的圖形都至少擁有 k 個對稱的樣貌，也針對會大量降低實用性的問題提出了修正方法。上述的方法，雖然可以防範多種圖形的背景知識，但在權重圖形裡，權重也是一個重要的背景知識。Li 與 Shen (2011)提出容量攻擊（Volume attack）與直方圖攻擊（Histogram attack）也容易成為攻擊者所利用的背景知識。每個點連結的邊之權重總和形成每個點的容量（Volume），如圖 2.5(A)，若已知目標的容量之大小，則可以輕易地找到目標。Histogram 則是指每一個點鄰近的邊由大至小之權重分布，以圖圖 2.5(B)為例，若攻擊者確定目標的邊之權重分布，則目標的資訊隱私亦唾手可得。Li 等人將圖形擾動，使得圖形成為 k-histogram 與 k-volume 隱匿，讓攻擊者分辨出目標的機率降低至 1/k。. 8.

(17) (A). C. A V1. V2 B. V3. 2. 1. 1. V1. V3. 2. 1. V6. V2 F. B. 4 1. D. 1. V5. 2. 3 V4. 1. V6 F. D. Volume = {2, 3, 4, 4, 8, 9}. 2.4. E. 1. 2. 3 V4. C. A. V5. 1 4. (B). E. Histogram = {[4,3,2], [1, 1], [2, 1, 1], [4, 2, 1, 1], [2, 1], [3, 1]}. 圖 2.5 Volume attack 與 Histogram attack 圖形中連結的關係資訊暴露. 除了節點的資訊暴露之外，社會網絡中，人與人之間的關係，也可能是攻擊者想揭發的目標。攻擊者可能藉由暴露他人之間的關係隱私來謀利，如：娛樂雜誌記者，亦或是透過關係的偵測來獲取情報。然而不管以什麼樣的方式獲得他人的關係隱私，往往都造成他人的困擾，甚至是恐慌。Carminati、Ferrari 與 Perego (2007) 指出，社會網絡的關係是十分敏感的訊息，應該於相關的網站或是應用設置存取規則（access rule），使得社會網絡關係，只能被（當事人）授權、或接受時才可以得知相關資訊。Korolova、Motwani、Nabar 與 Xu (2008)也建議社會網絡中連結之間的可見度（lookahead），即社會網絡個體是否可以看見其他朋友的朋友之關係的能見度，不高於 2 層關係為佳。然而，只透過單純的網絡規則防範，也難以抵擋有心人士獲取關係隱私的相關資訊。Zheleva 與 Getoor (2008)將關係分為兩個種類－敏感關係（Sensitive relationship）與觀察關係（Observed relationship），敏感關係例如：情人、情夫、私生子…等等較隱私的關係，而觀察關係則是不敏感，但有可能透過此關係，觀察到可能的敏感關係，如：朋友、師生…等等。他們提出了針對敏感關係的保護方法，循序依照不同的方式，保護個人之間的關係隱私：一. 所有存在於社會網絡圖形上的敏感關係完全袪除，留下所有的觀察關係，並將節點分群。二. 刪除可能推測出敏感關係之觀察關係，由社會網絡中的個人來決定。三. 剩餘的觀察關係，原本為個體與個體間的連結，轉換成群對群的連結。 9.

(18) 四. 簡化等價的觀察關係。（如：夥伴與朋友）五. 移除全部的關係。 Zheleva 等人透過將個人認為隱私的敏感關係隱蔽，使得圖形內的敏感資訊不被察覺，以達成保護個人隱私之目的。除了針對關係的存取有所限制外，由圖形的結構獲取連結資訊的隱私，亦為重要的防範目標。k-isomorphism (Cheng, chee Fu, & Liu, 2010)除了針對節點資訊的揭露有防範的效果，也提供了連結資訊的隱匿。即使圖形為 k-automorphism 之隱匿、確保節點隱私不被攻擊者所輕易察覺，但卻無法保證連結的隱私也受到保護。圖 2.6 中當攻擊者知道個體 a 與個體 b 之結構，並放入圖內比較，可以發現，a 與 b 皆 {V1, V4, V6, V13}，不論兩個個體，分別代表圖形上的哪一個點，我們都可以知道：a 與 b 兩點是有關係存在的。而圖 2.7 中 k-isomorphism 則將圖形切割後，透過分群，使分開的每群圖形，皆為 k 個同構圖，除了保護節點的個人隱私外，也防止了自同構圖會揭露連結資訊隱私之問題。 V11. V10. V12. V14. V1. V13. V16. 攻擊者的背景知識： Ga. V15. a V4. V5 V9. V6. V7. b. V3. V2. Gb. V8. 圖 2.6 k-automorphism 無法保證連結資訊的揭露. 攻擊者的背景知識： V11. V14. V10. V16. Ga V12. V1. V13. V15. V5. V4. V6. V7. V9. V2. V3. a b Gb V8. 圖 2.7 k-isomorphism 保證節點與連結資訊不輕易地被擷取 10.

(19) 2.5. 圖形中權重的資訊暴露權重圖形可代表許多重要的意義，如：商業交易網絡、友情好感度網絡等等。. 不論是哪一樣的權重圖形，邊上的權重，都是十分重要的個人隱私，當攻擊者對任何人的感情狀況甚至商業間的交易情形皆一覽無遺時，被害者所受到的損失將是無可取代的。S. Das 等人 (2010)為防止社會網絡權重之隱私，並維持圖形原本的線性性質，如：最短路徑、最小生成樹等，透過 Dijkstra 之最小生成樹演算法，設定三種修改權重之限制，使得權重的變動，不會影響圖形的線性性質。 L. Liu 等人 (2009)認為，商業交易往往不只是數字間的流動，如果資金成本的流量隱私暴露，可能會改變企業的決策，因此商業交易網絡上權重所代表的資金成本流動訊息，是十分隱私且需要保護的。L. Liu 等人提出兩種方法，隱匿權重資訊，分別為：Gaussian’s randomization multiplication 與 Greedy perturbation。兩者皆以不更動最短路徑為目的，並使權重微小更動，提高實用性。雖然 Gaussian’s randomization multiplication 處理效率較後者快速，但是依賴常態分配模型擾動權重，仍有機率使得原始最短路徑產生更動，反之，Greedy perturbation 不僅擾動了權重，也維持原本的最短路徑不變。但商業網絡間的資金流向資訊，卻無法透過簡單擾動權重而獲得資訊隱匿。企業間的交易網絡中，若 A 企業與其他企業之間，各個交易成本路線上的權重，擁有很大的差異，如此一來，A 企業之交易合作對象很容易因此暴露，可能導致與 A 企業合作之廠商間發生價格的惡性競爭。因此 L. Liu 等人 (2010)，提出另一個擾動方式，維持原始的最短路徑不變，並擾動相同節點發出的邊之權重，使他們之間的差距小於 μ，如圖 2.8 中從任何企業出發的交易流量之間的差距都小於 μ=6，攻擊者將無法完全確定企業 A（甚至其他廠商）會與哪些廠商合作。. 隱匿前之交易網絡. 隱匿後之交易網絡. 圖 2.8 商業間交易網絡之隱匿 11.

(20) 上述的各個文獻透過表格 1 的整理，我們得知過去探討了節點、連結關係與權重的隱私保護，解決了許多資訊暴露的危機。但最短路徑在社會網絡權重圖形之中，亦代表著許多重要的意義，這項資訊的暴露，可能會成為社會網絡圖形中十分巨大的威脅，然而由許多文獻對隱匿方法的整理中，並無發現有針對最短路徑隱匿之相關文章(N. Li, Zhang, & Das, 2011; Zhou, Pei, & Luk, 2008)。本篇論文之主旨，即是在社會網絡權重圖形中，透過我們提出之 k-anonymous path privacy，用來解決最短路徑之資訊，暴露在圖形中的問題。. 12.

(21) 表格 1 各文獻提出之隱匿方法比較文獻. 節點資訊保護. 連結資訊保護. 權重資訊保護. Carminati et al. (2007). X. O. X. Hay et al. (2008). O. X. X. Ying et al. (2008). O. X. X. K. Liu et al. (2008). O. X. X. B. Zhou et al. (2008). O. X. X. Korolova et al. (2008). X. O. X. Zheleva et al. (2008). X. O. X. L. Zou et al. (2009). O. X. X. L. Liu et al. (2009). X. X. O. Wu et al. (2010). O. X. X. Cheng et al. (2010). O. O. X. L. Liu et al. (2010). X. X. O. S. Das et al. (2010). X. X. O. Li et al. (2011). O. X. X. Tai et al. (2011). O. X. X. 13.

(22) Chapter 3. 問題描述與定義. 最短路徑的暴露所帶來的威脅. 3.1. 社會網絡權重圖形中，最短路徑可以代表朋友間友誼的輕重、商業網絡的交易量、或是聯繫的成本等等，是十分重要且敏感的。當最短路徑成為了攻擊者掌握的背景知識時，受害者的交友資訊或是企業的決策，會立即受到巨大的威脅。透過最短路徑，在友誼的網絡之中，可以了解誰是受害者最親近的朋友，除了受害者的人身安全，亦或是朋友的安全，皆無法受到保障。在商業的交易網絡之中，最短成本路徑被競爭對手知曉時，可能會影響到企業間策略的實行，導致計劃無法成功，進而增加成本或是損失，若可以防範最短路徑的隱私被揭露，不論是友誼的網絡，甚至是商業的網絡，都可以使得敏感資訊受到妥善的保護。過去，針對社會網絡權重圖形上的最短路徑，並沒有有效防範的實際策略，使得最短路徑之資訊暴露在危險的環境之中。本研究將提供 k-anonymous path privacy，用以解決最短路徑資訊暴露在社會網絡上的問題。. 圖形符號與定義. 3.2. 本研究中，假設社會網絡無方向圖形（undirected graph）中的元素集合為 V， V={v1, v2, v3, …, vi}，i＞0，代表所有圖形上所存在的點，點與點之間形成眾多的邊形成集合 E，代表元素間的關聯，eij 代表點 vi 與 vj 間的關聯所形成的一條邊，使得 E={e12, e13, …, eij}，i, j＞0，i≠j。所有邊上擁有的資訊權重形成集合 W，可代表不同的意義，如：交易流量、友誼輕重等，wij 代表 vi 與 vj 所連結之邊上存在的資訊流量，使得 W={w12, w13, …, wij}，i, j＞0，i≠j。D={d1, d2, d3, ..., di}，i＞0，表示所有圖形終點的度數，di 則表示點 vi 所連結的邊數。PVij 用來表示點 vi、vj 此固定配對節點在圖形之中的最短路徑之集合。. 3.2.1. 最短路徑資訊之隱匿－k-anonymous path privacy. 保護最短路徑之隱私，以直覺與基礎的想法，就是將圖形內的路徑資訊化為 k 個相同的最短路徑資訊，使得攻擊者能判斷出原始最短路徑的機會降低至 1/k 以下。除此之外，保護隱私的同時，本論文也考量確保即使圖形經過保護後，原始的最短路徑也不會受到更變，並且更改的權重數量將盡可能地接近原始圖形，使隱匿 14.

(23) 過後的圖形也可以保留實用性。圖 3.1 內，若攻擊者想揭發點 V1 與 V6 間的最短路徑，如圖所示，隱匿前圖形的紅色虛線即為最短路徑，PV16＝{[V1 →V3 →V4 →V6]}。經過隱匿後，最短路徑 P’V16＝{[V1 →V3 →V4 →V6], [V1 →V2 →V3 →V4 →V6]}，透過 k-anonymous path privacy 之保護，攻擊者能夠判斷原始最短路徑的機率降低至 1/2。隱匿前原始圖形. 隱匿後修改圖形. 圖 3.1 隱匿前後之圖形比較（k=2）. 為了達成最少的權重更動與形成 k 條最短路徑為目的，k-anonymous path privacy 直覺的想法即是尋找第二最短路徑，由於第二最短路徑與最短路徑之權重差距最小，使修改的權重數量符合本研究更動最小之主旨。因此，在隱匿原始圖形之最短路徑前，我們必須找到前 k 條最短路徑，並修改他們，使得最短路徑達成隱匿的保護。在過去，對於固定配對之兩節點於點數為 v、邊數為 e 之圖形 G 中，尋找其 k 條最短路徑之排名，Yen (1971)擁有許多的貢獻。透過尋找第一條最短路徑偏離點（deviation）的方式，用以找到下一條最短路徑，是 Yen 之演算法之特性。而 Martins 與 Pascoal (2003)對 Yen 所發明的演算法提出了改良，雖然演算法的最差時間複雜度同 Yen 之演算法為 O(Kv(e + vlogv))，但是在平均時間複雜度上，較 Yen 的方法快速。因此本研究採用 Martins 等人所提出之改良方法，尋找圖形中固定配對節點之前 k 條最短路徑並更動權重，使圖形符合本研究達成 k-anonymous path privacy 之目的。然而，即使知曉了最短路徑之排名，若隨意更動其路徑上的權重，可能會使原始的最短路徑也遭受更改。為了保護原始最短路徑，本研究將邊的種類分為三個部分：Never-Visited、All-Visited 與 Partial-Visited。如圖 3.2 中，以 V1 、V6 為配對節點之最短路徑為 V1 →V3 →V4 →V6，而第二最短路徑則是 V1 →V2 →V3 →V4 →V6，e12、e13、e23 皆為兩條路徑不重複經過之邊，在此我們稱為 Partial-Visited edge 15.

(24) （PV），而兩條路徑皆通過 e34 與 e46 兩邊，因此稱為 All-Visited edge（AV），剩餘尚未被路徑經過的邊，本研究以 Never-Visited edge（NV）稱之。由於邊的類型不同，也會影響修改邊的選擇，我們可以發現，少量修改 NV 的權重，並不會對原始路徑造成任何衝擊。若 AV 遭受修改，則會使全體通過之最短路徑的權重總和改變。本研究將不考慮修改 PV，由於 PV 的更動只會對部分的通過路徑有影響，原始最短路徑可能會因此更動。. 圖 3.2 圖形上邊之類型比較. 本研究之方法，針對 NV 與 AV+NV 兩種情況修改路徑上之權重，並且提供不同的隱私層級之實驗結果，來進行討論與比較。下一章節，我們將介紹 k-anonymous path privacy 詳細的演算法，並說明本方法之時間複雜度。. 16.

(25) Chapter 4. 貪婪式演算法. k-anonymous path privacy 是透過更動（k-1）名最短路徑之邊上的權重，使攻擊者於圖形上能夠辨識原始最短路徑的機率，降低為 1/k，本文將對（一）K-Single Path Anonymization Algorithm (KSP) 、（二） K-Multiple Paths Anonymization Algorithm (for NV)、（三）K-Multiple Paths Anonymization Algorithm (for AV)等，分別介紹。. 4.1. K-Single Path Anonymization (KSP) 隱匿圖形前，必須決定要保護之配對節點，本例以（V1, V6）為目標，首先必. 須找到保護的目標之最短路徑，如圖 4.1 之紅色虛線所示，配對節點（V1, V6）之最短路徑為 V1 →V3 →V4 →V6 =4。. 圖 4.1 原始圖形其後，再於圖形中尋找配對節點之第二最短路徑，由圖 4.1 中可發現 V1 →V2 →V3 →V4 →V6 =5，為第二最短路徑。由於第二最短路徑上，e12 與 e23 皆為 NV，我們挑選這兩條條邊依照權重大小之比例進行修改，權重較大的邊扣除較多的權重，反之亦然。最短路徑與第二最短路徑相差權重為 1，依照比例原則，e12 扣除個權重，e23 扣除. 個權重，使得兩個最短路徑的長度相. 等，攻擊者發現原始最短路徑之機率降低為 1/2，如圖 4.2 左圖。若要增強隱匿之保護則繼續尋找下一條最短路徑，並依此類推。 Single pair:[（V1, V6）]. Multiple pair:[（V1, V6）, （V2, V6）]. 圖 4.2 單對與多對節點之 k-anonymous path privacy（k=2） 17.

(26) 在演算法中會使用到下列變數： epq：邊 pq wpq：邊 pq 之權重：修改後邊 pq 之權重 SPL (shortest path list)：最短路徑清單。 SPLh：第 h 配對的最短路徑清單。 SP (shortest path weight)：最短路徑。 NSP (next shortest path weight)：下一次短路徑。 SPW (shortest path weight)：最短路徑之長度。 NSPW (next shortest path weight)：下一次短路徑之長度。 VL (visited list)：以被最短路徑經過的邊之清單。 ME (modify edge)：預定要修改的邊。 MEW (modify edge weight)：上述之邊所加總之權重數。 MW (modify weight)：預定要修改的權重數量。 tempAVL (temp all-visited list)：儲存目前修改配對中的 AV AVL (all-visited list)：儲存前 k-1 個配對之 AV 清單 K-Single Path Anonymization Algorithm (KSP) 輸入：（1）圖形 G，（2）想要隱匿最短路徑之起始點 i 與終點 j，（3）K，隱私層級，釋出圖形中擁有 K 條最短路徑，輸出：隱匿後之圖形 G*。 1. 初始化 SPL =  //shortest path list 2. 尋找配對(i , j)的 SP 與 NSP 3. 將 SP 儲存於 SPL 4. WHILE 當 SPL 的內容數量不為 K DO 5.. IF SPW = NSPW. 6.. 將 NSP 儲存於最短路徑清單 SPL. 7.. 將 NSP 上的每一條邊儲存於經過路徑清單 VL. 8.. ELSE 18.

(27) 9.. MW := NSPW – SPW. 10.. IF MW < 0 //能修改的邊，其權重不足夠扣除兩路徑差. 11.. CONTINUE. 12.. ENDIF. 13.. FOR NSP 上的每一條邊 epq DO IF epq 不屬於 VL. 14.. 將邊儲存於修改集合 ME. 15. 16.. ENDIF. 17.. ENDFOR. 18.. FOR ME 集合中的每一條邊 epq DO ；//依照比例扣. 19. 20.. ENDFOR. 21.. 將 NSP 儲存於最短路徑清單 SPL. 22.. 將 NSP 上的每一條邊儲存於經過路徑清單 VL. 23.. ENDIF. 24. ENDWHILE 25. 輸出 G*；. 4.2. K-Multiple Paths Anonymization for NV (KMPN) 圖形也可針對多對配對節點進行隱匿保護，如圖 4.2 之左圖為已經針對配對. 節點（V1, V6）進行 k=2 之隱匿，設（V2, V6）之配對也需要權重路徑的保護，同 KMP 之方法，首先找到最短路徑：V2 →V3 →V4 →V6 =3.33，再尋找下一條最短路徑為：V2 →V4 →V6 =5，此演算法也只針對 NV，由於此路徑上只有 e24 為 NV，所以將其扣除相差之權重，如圖 4.2 右圖，則兩個配對節點（V1, V6）、（V2, V6）都達成了 k=2 之權重路徑之隱匿。. K-Multiple Paths Anonymization Algorithm for NV 輸入：（1）圖形 G，（2）想要隱匿最短路徑之起始點與終點之集合 H，（3）K，隱私層級，釋出圖形中擁有 K 條最短路徑， 19.

(28) 輸出：隱匿後之圖形 G*。 1.. 初始化 SPLh = ; //shortest path list. 2.. WHILE H≠ DO. 3.. 由 H 中提出配對 h (i , j). 4.. 尋找配對(i , j)的 SP 與 NSP. 5.. 將 SP 儲存於 SPL. 6.. WHILE 當 SPLh 的內容數量不為 K DO. 7.. IF SPW = NSPW. 8.. 將 NSP 儲存於最短路徑清單 SPLh. 9.. 將 NSP 上的每一條邊儲存於經過路徑清單 VL. 10.. ELSE. 11.. MW := NSPW – SPW. 12.. IF MW < 0 //能修改的邊，其權重不足夠扣除兩路徑差. 13.. CONTINUE. 14.. ENDIF. 15.. FOR NSP 上的每一條邊 epq DO IF epq 不屬於 VL. 16.. 將邊儲存於修改集合 ME. 17. 18.. ENDIF. 19.. ENDFOR. 20.. FOR ME 集合中的每一條邊 epq DO ；//依照比例扣. 21. 22.. ENDFOR. 23.. 將 NSP 儲存於最短路徑清單 SPLh. 24.. 將 NSP 上的每一條邊儲存於經過路徑清單 VL. 25. 26.. ENDIF ENDWHILE. 27. ENDWHILE 28. 輸出 G*；. 20.

(29) 4.3. K-Multiple Paths Anonymization for AV (KMPA) 在此方法中，除了針對圖形中的 NV 進行修改外，我們也可以針對前 k-1 項配. 對之 AV，實行權重的更動。如圖 4.3 左圖，配對節點（V2, V6）已為 k=2 之隱匿配對，假設（V2, V5）配對也為需要隱匿之對象，其最短路徑為 V2 →V3 →V5 =4，其次短路徑為 V2 →V4 →V6 →V5 =5，相差的權重大小為 1。由於這個方法考量前（k-1）對之 AV 也是可行的修改對象，如圖 4.3 右圖，次短路徑上 e65 為 NV、e46 為 AV，即使修改了 e46，前一項配對節點（V2, V6）之兩個隱匿最短路徑雖然長度減小，但其路線也不會受到更動。. Single pair:[（V2, V6）]. Multiple pair:[（V2, V6）, （V2, V5）]. 圖 4.3 多對節點之權重路徑隱匿（for AV） K-Multiple Paths Anonymization Algorithm for AV 輸入：. （1）圖形 G，（2）想要隱匿最短路徑之起始點與終點之集合 H，（3）K，隱私層級，釋出圖形中擁有 K 條最短路徑，. 輸出：隱匿後之圖形 G*。 1.. 初始化 SPLh =  //shortest path list. 2.. WHILE H≠ DO. 3.. 由 H 中提出配對 h(i , j). 4.. 尋找配對(i , j)的 SP 與 NSP. 5.. 將 SP 儲存於 SPLh. 6.. 將 SP 的每一條邊儲存於 tempAVL. 7.. WHILE 當 SPL 的內容數量不為 K DO. 8. 9.. IF SPW = NSPW 將 NSP 儲存於最短路徑清單 SPLh. 21.

(30) 10.. AVL = NSP 的邊與 tempAVL 內的邊做交集. 11.. 將 NSP 與 AVL 之邊的差集儲存於經過路徑清單 VL. 12.. ELSE. 13.. MW := NSPW – SPW. 14.. IF MW < 0 //能修改的邊，其權重不足夠扣除兩路徑差. 15.. CONTINUE. 16.. ENDIF. 17.. FOR NSP 上的每一條邊 epq DO IF epq 不屬於 VL or tempAVL. 18.. 將邊儲存於修改集合 ME. 19. 20.. ENDIF. 21.. ENDFOR. 22.. FOR ME 集合中的每一條邊 epq DO ；//依照比例扣. 23. 24.. ENDFOR. 25.. 將 NSP 儲存於最短路徑清單 SPLh. 26.. 將 NSP 的邊與 tempAVL 內的邊做交集輸入至 AVL. 27.. 將 NSP 與 AVL 之邊的差集儲存於經過路徑清單 VL. 28. 29.. ENDIF ENDWHILE. 30. ENDWHILE 31. 輸出 G*；. 4.4. 時間複雜度本研究中兩項演算法所需要的時間複雜度，於最差之情況，由於研究上的限. 制下，可能無法完成 k 條最短路徑，原因為二：演算法已經無法找到下一條次短路徑、所挑選的配對節點間並無路徑連結，且透過演算法修改 k 條最短路徑時，必須透過最短路徑排名才能得知次短路徑為哪一條。根據 Martins 等人之研究貢獻，排名 k 條最短路徑之最差時間複雜度為：O(kv(e+vlogv))，由於本研究之演算法每當完成一條最短路徑就需要重新排名，所以必須持續重新尋找第 2、3、…、n 名 22.

(31) 次短路徑，最差的情形下，演算法會尋找最後之次短路徑並且無法完成 k-anonymous path privacy 。依此情況下， KSP 演算法最差複雜度為： O((2+n)*(n-1)v(e+vlogv)/2)。若使用 KMP 之演算法，處理之配對節點為 h 對時，則最差之時間複雜度為：O(h(2+n)*(n-1)v(e+vlogv)/2) 針對 AV 與 NV 之不同的修改方法，在下一章節，我們將會透過實驗做詳細的比較，透過實驗結果之詳細的隱匿效果資訊，提供實際的參考與建議。. 23.

(32) Chapter 5. 實驗結果與分析. 實驗結果與評估方法. 5.1. 為了檢視並評估本研究的演算法之特性，我們將透過實作之數據來比較 KMPN 與 KMPA 兩種演算法。所有的實驗均在 Intel Core 2 Duo P8700 CPU, 2.53 GHz 且 4GB 記憶體之筆記型電腦上執行。作業系統為 Microsoft Windows 7，實驗方式皆以 Java 程式碼實作完成。在兩項演算法之實作中，我們將利用四種指標來釐清演算法的特性：一. 執行時間（running time）：隱匿完成所需之時間，以秒為單位。二. 擾動邊之比率（perturbed edge ratio）：不重覆的擾動邊數/路徑經過邊數三. 擾動權重之比率（perturbed weight ratio）：修改權重數/經過的原始權重總和四. 資訊損失（information loss）：當數值愈大，與原始圖形差異愈大。本實驗中使用的資料集合為安隆（Enron）公司同事間的 E-mail 來往資訊，由於圖形資料中並無各個連絡人之間的權重指標，因此我們將各個同事間的連繫上，附加上隨機 1 至 100 的權重值。實驗分為三個階段，我們將於不同 k 值的情況下針對一對節點（H1）、二對節點（H2）和三對節點（H3）所呈現的四種指標數值進行探討，每一個實驗階段皆完成十二次、並祛除執行時間最短與最長之結果，以避免 outlier 對平均結果造成影響，並將剩下十次數據取其平均值來做為參考，用以評估演算法之優劣。. 5.1.1. 執行時間. 很直觀的，隨著要求的隱匿度愈高與想要隱匿的配對節點愈多，所需要的執行時間也會愈長。圖 5.1 中，KMPN 的執行時間在一對節點（H1）中，隨著 k 值的提升，上升趨勢也較 H2、H3 緩慢，圖 5.2 中 KMPA 亦是如此。在實驗的過程中，若次短路徑無法滿足修改之條件（如：已無邊可選擇、可修改之權重小於必須修改之權重等），則程式碼可能會不斷的尋找下一條次短路徑進行修改，在此情況下，需要比較多的時間來完成修改條件。而圖 5.1 與圖 5.2 中，在 k 需求較小時，無法比較 KMPN 與 KMPA 之間的效率，但隨著配對數量與 k 的需求愈高時， 24.

(33) KMPA 明顯地較 KMPN 花費更多的時間。. 圖 5.1 KMPN 之執行時間. 圖 5.2 KMPA 之執行時間. 5.1.2. 被擾動的邊之比率. 由於本論文採取了平均分配權重的原故，導致使得每一條尚未經過之邊，都會盡可能地分配修改之權重。KMPN 採用最短路徑尚未經過之邊做為修改之對象， KMPA 則包含了前（k-1）對配對之 AV 來進行權重之刪減，故 KMPA 將會較 KMPN 所擾動之數量略多。如圖圖 5.3 及圖 5.4 中，KMPA 之修改比率比 KMPN 些微增加，但不相差甚遠。 25.

(34) 圖 5.3 KMPN 被擾動的邊之比率. 圖 5.4 KMPA 被擾動的邊之比率. 5.1.3. 被擾動的權重比率. 權重修改的大小攸關於次短路徑與最短路徑之間的權重差距，若挑選之次短路徑權重差距越大，則比率會明顯地上升，圖 5.5 與圖 5.6 中，當 k 值漸漸上升時，修改權重比率於 KMPN 與 KMPA 之數值，大部分皆位於 0.05 至 0.20 之區間。而 KMPA 之 H1 中，k=10 的部分有較明顯地上升，原因在於尋找到的次短路徑，因無法達成修改條件，讓演算法不斷的尋找下一條次短路徑，使路徑之總權重有明顯的差距。 26.

(35) 圖 5.5 KMPN 被擾動的權重比率. 圖 5.6 KMPA 被擾動的權重比率. 5.1.4. 資訊損失. 絕大部分之隱匿相關研究，除保護資訊隱私之外，也詳加考量隱匿後資料之實用性。若為了保護敏感資訊不會被攻擊者所發現，進而濫用隱私，則公布後之資料反而無法被應用，反而失去了保護之意義。本研究也考量圖形透過隱匿後，與原始圖形之間的差異，我們採用 Kullback and Leibler (KL) divergence 計算修改過後的圖形與修改之前圖形的差異。 KL divergence 是用來衡量擁有相同隨機變數 x 下的機率分配 f 與 g 之相異性， 27.

(36) 通常分配 f 代表真實的分布數據，分配 g 代表一個理論、模型或是近似 f 的另一項分配。本研究中，我們將分配 f 視為修改前之權重於路徑上的比率分配，而分配 g 視為修改後的分配結果，透過 KL divergence 來比較修改前與修改過後的差異性之大小，當兩者之間沒有差異，則 KL divergence 之值為 0，若差異愈大，KL divergence 之值也愈大。本研究所使用的 KL divergence 公式如下：. 為路徑上修改前邊上之原始權重，而. 則為修改過後邊上的新權重。. 以圖 4.3 右圖為例，經過 KMPA 的方法修改過後之圖形，與原始圖形差異之 KL Divergence 為：. 圖 5.7 與圖 5.8 皆顯示當隱匿數量增加時，與原始圖形愈容易呈現差距，於 k=6 前與圖形的差異性並無明顯之成長，當 k 之數值超過 6 時，修改過後之圖形其實用度大幅地下降，本研究透過此結果，推薦隱匿數量為 5，除能達到保護之效果外，較能夠維持圖形之實用性。而兩圖中，KMPA 的差異性較 KMPN 來的小，由於 KMPA 雖然增加修改 AV 類型之邊，但更動邊上之權重採用平均分配之方式，使得被修改的邊上之權重所負擔的修改量減少了，因此 KMPA 修改過後之圖形，較 KMPN 實用性高。. 28.

(37) 圖 5.7 KMPN 所形成之資訊損失. 圖 5.8 KMPA 所形成之資訊損失. 29.

(38) Chapter 6. 結論與未來方向. 過去，有許多學者提出防範社會網絡之隱私攻擊的相關隱匿研究，包含針對社會網絡個體的連結度、社會網絡個體間的關係結構與社會網絡路徑間的權重隱私，想防範其他攻擊者對於不同的社會網絡類型所造成的隱私危害。但是都無法防範攻擊者透過權重圖形，揭露最短路徑資訊之威脅。本研究提出了 k-anonymous path privacy 之想法，並使輸出後的圖形，讓攻擊者能夠辨識原始之最短路徑達到（1/k）以下，達成資訊保護之效果。在方法中，本論文比較了兩項修改方式，分別為針對 NV 之 KMPN，以及修改範圍包含針對前（k-1）個配對的 AV 之 KMPA。由結果顯示，無論是 KMPN 亦或是 KMPA，都有其優劣點。在相同的配對之下， KMPN 之方法能修改的邊數略 KMPA 少，但每一條邊上修改的權重數量較多；而 KMPA 修改的邊之數量較多，但單條邊上所修改的權重數量較少。兩種方法的資訊損失數據上是相差不遠的，我們無法以資訊損失的數據來判定其優劣。但若以修改之邊的數量愈少為佳的角度來觀察，則 KMPN 是比較可行的方法。本研究之方法可以解決最短路徑被輕易識別之問題，但此方法每當完成一條路徑，便會重新排名，使得修改所需求的時間量大幅增加。在未來，我們將會針對修改時間提出較有效率的改善方法，並持續研究相關議題，提防攻擊者由隱匿過後之圖形，得到隱私之情報。. 30.

(39) 參考文獻 Backstrom, L., Dwork, C., & Kleinberg, J. (2011). Wherefore art thou {R3579X}?: anonymized social networks, hidden patterns, and structural steganography. Communications of the ACM, 54(12), 133-141. New York, NY, USA: ACM. Backstrom, L., Huttenlocher, D., Kleinberg, J., & Lan, X. (2006). Group formation in large social networks: membership, growth, and evolution. (J. Chodorow, Ed.)Science, pages(9), 44-54. ACM. Barbaro, M., & Zeller, T. (2006). A Face Is Exposed for AOL Searcher No. 4417749. New York Times. Retrieved from http://www.nytimes.com/2006/08/09/technology/09aol.html Boyd, D., & Ellison, N. B. (2007). Social Network Sites: Definition, History, and Scholarship. Journal of Computer-Mediated Communication, 13(1-2). Carminati, B., Ferrari, E., & Perego, A. (2007). Private Relationships in Social Networks. Data Engineering Workshop, 2007 IEEE 23rd International Conference on (pp. 163-171). Cheng, J., chee Fu, A. W., & Liu, J. (2010). K-isomorphism: privacy preserving network publication against structural attacks. Proceedings of the 2010 international conference on Management of data (pp. 459-470). New York, NY, USA: ACM. Das, S., Egecioglu, O., & El Abbadi, A. (2010). Anonymizing weighted social network graphs. Data Engineering (ICDE), 2010 IEEE 26th International Conference (pp. 904-907). Gross, R., & Acquisti, A. (2005). Information revelation and privacy in online social networks. Proceedings of the 2005 ACM workshop on Privacy in the electronic society (pp. 71-80). New York, NY, USA: ACM. Hay, M., Miklau, G., Jensen, D., Towsley, D., & Weis, P. (2008). Resisting structural re-identification in anonymized social networks. Proc. VLDB Endow., 1(1), 102-114. VLDB Endowment. He, Y., & Naughton, J. F. (2009). Anonymization of Set-Valued Data via Top-Down , Local Generalization. Proceedings of the VLDB Endowment, 2(1), 934–945. VLDB Endowment. Korolova, A., Motwani, R., Nabar, S. U., & Xu, Y. (2008). Link privacy in social networks. CIKM’08: Proceeding of the 17th ACM conference on Information and 31.

(40) knowledge management (pp. 289-298). New York, NY, USA: ACM. Li, N., Zhang, N., & Das, S. K. (2011). Preserving Relation Privacy in Online Social Network Data. IEEE Internet Computing, 15, 35-42. Los Alamitos, CA, USA: IEEE Computer Society. Li, Y., & Shen, H. (2011). Anonymizing Graphs Against Weight-based Attacks with Community Preservation. JCSE, 5(3), 197-209. Liu, K., & Terzi, E. (2008). Towards identity anonymization on graphs. SIGMOD ’08: Proceedings of the 2008 ACM SIGMOD international conference on Management of data (pp. 93-106). New York, NY, USA: ACM. Liu, K., Das, K., Grandison, T., & Kargupta, H. (2008). Chapter 21 Privacy-Preserving Data Analysis on Graphs and Social Networks. (H. Kargupta, J. Han, P. Yu, R. Motwani, & V. Kumar, Eds.)DisClosure, 415-434. Liu, L., Liu, J., & Zhang, J. (2010). Privacy Preservation of Affinities in Social Networks. IADIS ICIS, 372-376. Liu, L., Wang, J., Liu, J., & Zhang, J. (2009). Privacy Preservation in Social Networks with Sensitive Edge Weights. SDM (pp. 954-965). SIAM. Martins, E. V., & Pascoal, M. B. (2003). A new implementation of Yen's ranking loopless paths algorithm. Quarterly Journal of the Belgian French and Italian Operations Research Societies, 1(2), 121-133. Meyerson, A., & Williams, R. (2004). On the complexity of optimal K-anonymity. PODS ’04: Proceedings of the twenty-third ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems (pp. 223-228). New York, NY, USA: ACM. Motwani, R., & Nabar, S. U. (2008). Anonymizing Unstructured Data. CoRR, abs/0810.5. Park, H., & Shim, K. (2007). Approximate algorithms for K-anonymity. Proceedings of the 2007 ACM SIGMOD international conference on Management of data (pp. 67-78). New York, NY, USA: ACM. Samarati, P., & Sweeney, L. (1998). Generalizing data to provide anonymity when disclosing information. Proceedings of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems (pp. 188-202). New York, NY, USA: ACM. Sweeney, L. (2002). k-anonymity: a model for protecting privacy. Int. J. Uncertain. 32.

(41) Fuzziness Knowl.-Based Syst., 10, 557-570. River Edge, NJ, USA: World Scientific Publishing Co., Inc. Tai, C. H., Yu, P. S., Yang, D. N., & Chen, M. S. (2011). Privacy-preserving social network publication against friendship attacks. Proceedings of the 17th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1262-1270). New York, NY, USA: ACM. Wasserman, S., & Faust, K. (1994). Social Network Analysis: Methods and Applications (Structural Analysis in the Social Sciences) (1st ed.). Wu, W., Xiao, Y., Wang, W., He, Z., & Wang, Z. (2010). k-symmetry model for identity anonymization in social networks. EDBT ’10: Proceedings of the 13th International Conference on Extending Database Technology (pp. 111-122). New York, NY, USA: ACM. Yen, J. Y. (1971). Finding the K Shortest Loopless Paths in a Network. Management Science, 17(11), 712-716. Ying, X., & Wu, X. (2008). Randomizing Social Networks: a Spectrum Preserving Approach. SDM (pp. 739-750). Zheleva, E., & Getoor, L. (2008). Preserving the Privacy of Sensitive Relationships in Graph Data. In F. Bonchi, E. Ferrari, B. Malin, & Y. Saygin (Eds.), Privacy, Security, and Trust in KDD (Vol. 4890, pp. 153-171). Zhou, B., & Pei, J. (2008). Preserving Privacy in Social Networks Against Neighborhood Attacks. Data Engineering, 2008. ICDE 2008. IEEE 24th International Conference on (pp. 506-515). Zhou, B., Pei, J., & Luk, W. (2008). A brief survey on anonymization techniques for privacy preserving publishing of social network data. SIGKDD Explor. Newsl., 10(2), 12-22. New York, NY, USA: ACM. Zou, L., Chen, L., & Ö zsu, M. T. (2009). k-automorphism: a general framework for privacy preserving network publication. Proc. VLDB Endow., 2, 946-957.. 33.

(42)