• 沒有找到結果。

第一章、 導論

1.3 各章節概述

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

11

醫院情境來加以展示上述說明,讓合法且經授權的使用者可以方便的在雲端內查 詢適當的資料。

1.2 研究目的

本研究主要目的是當不同機構或單位收集個人資料時,將資料存放在雲端運 算環境上,使用者經由身分認證後能夠透過單一窗口查詢到雲端環境上多個資料 源的資料,達到資料分享的目的;但資料分享的過程中,必須謹守個人資料保護 法的規定,避免違反個人隱私。本論文主要研究方向如下方所示:

1. 規範框架的整合:本研究假設相同雲端環境上有兩種不同資料來源,而每一 個資料來源有各自的存取控管規範、資料處理規範和資料釋放規範,透過本 體論整合,將資料做適當的釋放,達到資料分享與保護的目的。

2. 不同來源的資料處理與對齊:各家醫院將資料存放到雲端環境的前提下,當 兩家醫院各別將其中的資料源進行資料之間的交換時,為了確保個人資料隱 私的保護,資料的接收方必須無法進行個人資料還原的動作,但為了讓雙方 資料能夠對齊與整理,本研究加入了匿名性的對齊方式。換句話說,我們在 維護個人資料隱私的情況下,整合雙方的資料,可以完成有意義的比對分析 目的。

1.3 各章節概述

第本文第一章節為對整篇論文做一個概要性的介紹,包括研究動機、研究目 的,以及各章節的概述。第二章是研究的相關背景說明;第三章則是對於相關研 究介紹;第四章會完整的描述系統架構作,並且針對存取控管規範、資料處理規 範、資料釋放規範與資料交換落實部分詳述。第五章為研究方法的模擬驗證部分 說明;第六章則為總結本研究。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

12

第二章

研究背景 2.1 雲端運算

雲端運算的概念是將許多的主機串接在一起視為一個大型主機來做控制中 心,是一種新的商業模式。好處在於簡單的獲取了雲中的服務,快速、高效率地 完成了工作;而他們獲取的服務類型不盡相同。以下我們將針對雲端運算提供的 服務類型和方式,為雲端運算分類[3]。

• 公有雲:表示該組織建立雲端資料中心後,不僅僅讓自己使用也專門規畫給 其他人使用,透過收取費用的方式將雲端資料中心的服務與資源分享給其他 對象。

• 私有雲:站在雲端資料中心的建立與管理者來講,整個雲端服務從硬體、軟 體到管理等,都是該組織自己負責管理維護,等於是組織自己建置雲端硬體、

軟體並加以管理使用。

• 混合雲:就是由企業建置雲端運算的系統架構,完成內部私有雲,再視需求 和使用量,訂用外部公有雲的服務,打造更具彈性而強大的雲端環境。

本研究主要是利用資料交換的特性,在雲端環境上做資料之間的傳輸,所以 將採用私有雲為主要的雲端環境,因為私有雲可能會有特定資料利用資料交換保 護的問題產生;若使用公有雲,因其主要目標是分享給其他對象,則不需使用到 資料交換保護。

2.2 資料交換 vs.資料整合

資料交換 (Data Exchange) [4] [5] 和資料整合 (Data Integration) [6]皆是資 料處理時兩個重要的方式。兩者主要目的皆是將大筆資料做整理、分類,使得使

Mapping,如圖 1。步驟一:先將查詢資料傳送到 Source Schema 進行比對;步驟 二:將從 Source Schema 端查詢後的資料回傳到目標資料庫;步驟三:在 Target Schema 內部進行第二次資料比對處理;步驟四:將步驟三得到的結果存放在一個

為 Weakly Acyclic[4]。Weakly Acyclic 主要是保證在 Polynomial Time 內會有解,

不會造導致此次查詢有無法終止的現象發生。

1台灣全國法規資料庫<<個人資料保護法>>http://law.moj.gov.tw/LawClass/LawAll.aspx?PCode=I0050021

Query (PBQ) [8],主要是在查詢的條件背景與時機的不同時所產生出來的。本研 究將充分利用兩者 Query 之間的特性,使得查詢時可以更加明確的知道需要哪些

Quasi-Identifiers、Confidential Attributes 和 Non-Confidential Attributes。

• Identifiers:單一欄位即可完全識別一個人身分 Ex : ID、SSN。

• Quasi-identifiers:多個欄位組合即可提升識別一個人身分的機率 Ex : Gender、

ZIP 和 Birthday[10]。

• Confidential attributes:違反隱私的欄位 Ex : Disease 或 Cost。

• Non-confidential attributes:不屬於上述範圍的欄位 Ex:Race。

只有當 Identifiers 和 Confidential Attributes 或者 Quasi-Identifiers 和

Confidential Attributes 同時揭露時才會違反隱私,在其他種組合方式下並不會,

例如只揭露 Disease 和 Cost 是不違反隱私的情況。因此本研究在進行資料釋放的 時候,也是依照此準則針對 Identifiers 和 Confidential Attributes 或者

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

16

Quasi-Identifiers 和 Confidential Attributes 的部分進行保護,預防隱私的侵犯。

2.4 本體論

本體論 (Ontology)最早的概念是從哲學而來的名詞,而根據 W3C (World Wide Web) 對本體論的定義為:「本體論是用來描述與表示各種領域的知識。」

簡單來說,就是我們可以利用本體論來架構一個領域知識 (Domain Knowledge),

並進一步分析此領域中各種概念的關係。由知識的概念定義、屬性、實體、及關 係的集合體,建構這些元素則需要一套發展程序。

 概念 (或稱為 Class/Set/Concept):表示本體論中對某類實體的集合或概念。

 屬性 (或稱為 Property/Slot/Role/Relation):表示本體論中實體與實體或概念 與概念之間的關係。

 實體 (或稱為 Individual/Object/Instance):表示本體論中的個別真實例子。

使用本體論語言來建構本體論,本體論語言允許使用者設計出領域模型 (Domain Model)的明顯與形式的概念化。所要的基本需求是:定義明確

(Well-Defined)的語法:機器處理資訊的必要條件。正規語意 (Formal Semantics):

精確地描述知識的意義且具有語意的方便性、有效推理的支援、充分表達威力。

本研究中本體論使用的時機為使用本體論作為資料的儲存庫,我們透過本體 論的知識描述特性,使得詞彙之間的關係有解釋的能力;規則的運用可以推論出 隱含的資訊,使得資料能更具有彈性、容易處理與分享,往後只需要透過更改屬 性與關係,即可建構出具共享性和再用性的知識本體。

2.5 資料整合-資料庫 vs.本體論

在傳統關聯式資料庫中,資料整合是一門大學問,其主要著重在 Schema 的 整合,也就是對不同點的 Local Schema 事先利用查詢語法 SQL 產生一組 View 表示為該 Local Data Source 可提供整合的部分;接著另外產生一個 Global Schema,

作為使用者查詢時,Global Schema 會去對查詢語法在每一個 Local Data Source 進行查詢語法改寫的部份,下到各個點去做查詢,最後將結果回傳給

Mediators[11],再傳給使用者。Levy 的研究中提到了三種方式[6]:

1. Local-As-View (LAV): Local 的 Relations 或 Concepts 對應到 Global 的 View 或 Queries。

2. Global-As-View (GAV):剛好與 LAV 相反,Global 的 Relations 或 Concepts 對 應到 Local 多個 View 或 Queries 組合產生的。

3. Global-Local-As-View (GLAV): Global 的 Views 或 Queries 對應到 Local 多個 Views 或 Queries。

此三種方式主要差別在於 Global 與 Local 的對應角度,像 GAV 是以 Global Schema 為準則,所有 Local Schema 必須要想辦法產生 View 與 Global Schema 能 夠對應;反之 LAV 則是以 Local Schema 為準則,所有 Global Schema 的 Relations 必須要想辦法產生 Relations 與 Local Schema 能夠對應;GLAV 則富有最彈性化 的設置 Global Schema 和 Local Schema 可以相互對應。基於此,本研究資料交換 的技術時採用 GLAV 的方式,使得不同來源的資料可以動態對應且具有彈性。

另外,在本體論的資料整合中,主要注重於 Class 與 Property 彼此之間對應 的關係,也就是概念(Concept)的整合,可以表示為特定知識領域中抽象概念的一 種階層式框架。對應的方法有 Mapping[12]、Merging 和 Alignment[13]。

• Mapping 主要是因為單一本體論資料有限,所以資料量不大,希望可以透過 Mapping 的方式,對應到另一個本體論上,或者是多個本體論,可以相互對 應。這類的方式與 Merging 有異曲同工之妙。

• Merging 是將兩個本體論合併成一個大型的本體論,與最大的差異在於 Mapping 在整合完成後依然會考慮到原本的本體論;而 Merging 是將兩個本 體論整合後只考慮整合完成後的唯一本體論,不去理會本來被整合的本體論,

其中 PROMPT 方法[14]是由史丹福醫療資訊學系所發展的,其合併兩個知

識本體需要來自相同的領域。PROMPT 合併本體論方法程序與 FCA-Merge 方法一樣為互動性的、人為介入的方式。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

19

SHA (Secure Hash Algorithm)、MAC (Message Authentication Code)和 HMAC (Hash-Based Message Authentication Code),綜合以上,不論是何種 Hash Function,

都具備下列幾點特性:

• 輸入任意長度的訊息,產生固定長度的雜湊值輸出。

• One-Way Hash 之特性。

• 針對相同訊息進行計算,都會產生出相同結果。

• 雜湊訊息是無法還原成原訊息,因此演算法的設計上必須是不可逆。

本研究的資料為醫療資訊,也因為醫療資料屬於個人隱私的一部份,所以不 同資料來源之間可能會有重複性的產生,例如:一個病患去可能到多家醫院就診。

在資料交換的過程中,醫院是有權力不提供完整的個人醫療資訊,防止個人資料 被還原而辨識為唯一人,在無法辨識的狀況下,查詢出來的資訊可能不夠精確,

基於此,本論文將根據雜湊函數的特性,去實現匿名性資料的對齊,將個人資料 經由 Hash Function 計算得到固定長的雜湊值,再依據雜湊值的結果,進行資料 比對、刪除重複性資料,詳見 4.2.3 章節說明。

‧ 國

立 政 治 大 學

N a tio na

l C h engchi U ni ve rs it y

20

第三章

相關研究 3.1 隱私還原保護

在過去的文獻,針對隱私保護提出各種解決方式,其中在[10][16]提出了兩 個情境資料,一個可顯示每位投票者的姓名、地址、郵遞區號、性別、生日,這 些資料可以和醫療資料中的性別、郵遞區號、生日相互做連結,以至於人們可以 利用上述的特性找到特地的個體,基於此,作者提出了資料保護的概念,其主要 做法是將這種連結不明確化,就可以阻撓資料還原。另一方面,。K-Anonymity 意即欲將 Table 中的資料化為多個群組,每個群組在敏感屬性上的值皆相同,例 如 Birthday, Gender, ZIP 為一個群組,而每個群組中有 K 個 Record,K-Anonymity 目的為將資料庫中資料表達到某一種隱私保護狀態,其主要的用意在於將敏感屬 性欄位的 Re-Identification 可能性降到最低,舉例而言,若有使用者惡意的利用 Birthday 和 ZIP 與其他的資料表進行結合比對,進一步地找出某筆紀錄實際上是 屬於哪個人,為防止上述的情形發生,K-Anonymity 主要的目的是要能夠消除這

在過去的文獻,針對隱私保護提出各種解決方式,其中在[10][16]提出了兩 個情境資料,一個可顯示每位投票者的姓名、地址、郵遞區號、性別、生日,這 些資料可以和醫療資料中的性別、郵遞區號、生日相互做連結,以至於人們可以 利用上述的特性找到特地的個體,基於此,作者提出了資料保護的概念,其主要 做法是將這種連結不明確化,就可以阻撓資料還原。另一方面,。K-Anonymity 意即欲將 Table 中的資料化為多個群組,每個群組在敏感屬性上的值皆相同,例 如 Birthday, Gender, ZIP 為一個群組,而每個群組中有 K 個 Record,K-Anonymity 目的為將資料庫中資料表達到某一種隱私保護狀態,其主要的用意在於將敏感屬 性欄位的 Re-Identification 可能性降到最低,舉例而言,若有使用者惡意的利用 Birthday 和 ZIP 與其他的資料表進行結合比對,進一步地找出某筆紀錄實際上是 屬於哪個人,為防止上述的情形發生,K-Anonymity 主要的目的是要能夠消除這

相關文件