各章節概述 - 導論 - 在語意式雲端環境上資料交換的保護 -以醫療病例為例

第一章、導論

1.3 各章節概述

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

醫院情境來加以展示上述說明，讓合法且經授權的使用者可以方便的在雲端內查詢適當的資料。

1.2 研究目的

本研究主要目的是當不同機構或單位收集個人資料時，將資料存放在雲端運算環境上，使用者經由身分認證後能夠透過單一窗口查詢到雲端環境上多個資料源的資料，達到資料分享的目的；但資料分享的過程中，必須謹守個人資料保護法的規定，避免違反個人隱私。本論文主要研究方向如下方所示:

1. 規範框架的整合:本研究假設相同雲端環境上有兩種不同資料來源，而每一個資料來源有各自的存取控管規範、資料處理規範和資料釋放規範，透過本體論整合，將資料做適當的釋放，達到資料分享與保護的目的。

2. 不同來源的資料處理與對齊:各家醫院將資料存放到雲端環境的前提下，當兩家醫院各別將其中的資料源進行資料之間的交換時，為了確保個人資料隱私的保護，資料的接收方必須無法進行個人資料還原的動作，但為了讓雙方資料能夠對齊與整理，本研究加入了匿名性的對齊方式。換句話說，我們在維護個人資料隱私的情況下，整合雙方的資料，可以完成有意義的比對分析目的。

1.3 各章節概述

第本文第一章節為對整篇論文做一個概要性的介紹，包括研究動機、研究目的，以及各章節的概述。第二章是研究的相關背景說明；第三章則是對於相關研究介紹；第四章會完整的描述系統架構作，並且針對存取控管規範、資料處理規範、資料釋放規範與資料交換落實部分詳述。第五章為研究方法的模擬驗證部分說明；第六章則為總結本研究。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章

研究背景 2.1 雲端運算

雲端運算的概念是將許多的主機串接在一起視為一個大型主機來做控制中心，是一種新的商業模式。好處在於簡單的獲取了雲中的服務，快速、高效率地完成了工作；而他們獲取的服務類型不盡相同。以下我們將針對雲端運算提供的服務類型和方式，為雲端運算分類[3]。

• 公有雲:表示該組織建立雲端資料中心後，不僅僅讓自己使用也專門規畫給其他人使用，透過收取費用的方式將雲端資料中心的服務與資源分享給其他對象。

• 私有雲:站在雲端資料中心的建立與管理者來講，整個雲端服務從硬體、軟體到管理等，都是該組織自己負責管理維護，等於是組織自己建置雲端硬體、

軟體並加以管理使用。

• 混合雲:就是由企業建置雲端運算的系統架構，完成內部私有雲，再視需求和使用量，訂用外部公有雲的服務，打造更具彈性而強大的雲端環境。

本研究主要是利用資料交換的特性，在雲端環境上做資料之間的傳輸，所以將採用私有雲為主要的雲端環境，因為私有雲可能會有特定資料利用資料交換保護的問題產生；若使用公有雲，因其主要目標是分享給其他對象，則不需使用到資料交換保護。

2.2 資料交換 vs.資料整合

資料交換 (Data Exchange) [4] [5] 和資料整合 (Data Integration) [6]皆是資料處理時兩個重要的方式。兩者主要目的皆是將大筆資料做整理、分類，使得使

‧

Mapping，如圖 1。步驟一:先將查詢資料傳送到 Source Schema 進行比對；步驟二:將從 Source Schema 端查詢後的資料回傳到目標資料庫；步驟三:在 Target Schema 內部進行第二次資料比對處理；步驟四:將步驟三得到的結果存放在一個

‧

為 Weakly Acyclic[4]。Weakly Acyclic 主要是保證在 Polynomial Time 內會有解，

不會造導致此次查詢有無法終止的現象發生。

1台灣全國法規資料庫<<個人資料保護法>>http://law.moj.gov.tw/LawClass/LawAll.aspx?PCode=I0050021

‧

Query (PBQ) [8]，主要是在查詢的條件背景與時機的不同時所產生出來的。本研究將充分利用兩者 Query 之間的特性，使得查詢時可以更加明確的知道需要哪些

Quasi-Identifiers、Confidential Attributes 和 Non-Confidential Attributes。

• Identifiers:單一欄位即可完全識別一個人身分 Ex : ID、SSN。

• Quasi-identifiers:多個欄位組合即可提升識別一個人身分的機率 Ex : Gender、

ZIP 和 Birthday[10]。

• Confidential attributes:違反隱私的欄位 Ex : Disease 或 Cost。

• Non-confidential attributes:不屬於上述範圍的欄位 Ex:Race。

只有當 Identifiers 和 Confidential Attributes 或者 Quasi-Identifiers 和

Confidential Attributes 同時揭露時才會違反隱私，在其他種組合方式下並不會，

例如只揭露 Disease 和 Cost 是不違反隱私的情況。因此本研究在進行資料釋放的時候，也是依照此準則針對 Identifiers 和 Confidential Attributes 或者

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

Quasi-Identifiers 和 Confidential Attributes 的部分進行保護，預防隱私的侵犯。

2.4 本體論

本體論 (Ontology)最早的概念是從哲學而來的名詞，而根據 W3C (World Wide Web) 對本體論的定義為：「本體論是用來描述與表示各種領域的知識。」

簡單來說，就是我們可以利用本體論來架構一個領域知識 (Domain Knowledge)，

並進一步分析此領域中各種概念的關係。由知識的概念定義、屬性、實體、及關係的集合體，建構這些元素則需要一套發展程序。

 概念 (或稱為 Class/Set/Concept)：表示本體論中對某類實體的集合或概念。

 屬性 (或稱為 Property/Slot/Role/Relation)：表示本體論中實體與實體或概念與概念之間的關係。

 實體 (或稱為 Individual/Object/Instance)：表示本體論中的個別真實例子。

使用本體論語言來建構本體論，本體論語言允許使用者設計出領域模型 (Domain Model)的明顯與形式的概念化。所要的基本需求是：定義明確

(Well-Defined)的語法：機器處理資訊的必要條件。正規語意 (Formal Semantics)：

精確地描述知識的意義且具有語意的方便性、有效推理的支援、充分表達威力。

本研究中本體論使用的時機為使用本體論作為資料的儲存庫，我們透過本體論的知識描述特性，使得詞彙之間的關係有解釋的能力；規則的運用可以推論出隱含的資訊，使得資料能更具有彈性、容易處理與分享，往後只需要透過更改屬性與關係，即可建構出具共享性和再用性的知識本體。

2.5 資料整合-資料庫 vs.本體論

在傳統關聯式資料庫中，資料整合是一門大學問，其主要著重在 Schema 的整合，也就是對不同點的 Local Schema 事先利用查詢語法 SQL 產生一組 View 表示為該 Local Data Source 可提供整合的部分；接著另外產生一個 Global Schema，

‧

作為使用者查詢時，Global Schema 會去對查詢語法在每一個 Local Data Source 進行查詢語法改寫的部份，下到各個點去做查詢，最後將結果回傳給

Mediators[11]，再傳給使用者。Levy 的研究中提到了三種方式[6]：

1. Local-As-View (LAV): Local 的 Relations 或 Concepts 對應到 Global 的 View 或 Queries。

2. Global-As-View (GAV):剛好與 LAV 相反，Global 的 Relations 或 Concepts 對應到 Local 多個 View 或 Queries 組合產生的。

3. Global-Local-As-View (GLAV): Global 的 Views 或 Queries 對應到 Local 多個 Views 或 Queries。

此三種方式主要差別在於 Global 與 Local 的對應角度，像 GAV 是以 Global Schema 為準則，所有 Local Schema 必須要想辦法產生 View 與 Global Schema 能夠對應；反之 LAV 則是以 Local Schema 為準則，所有 Global Schema 的 Relations 必須要想辦法產生 Relations 與 Local Schema 能夠對應；GLAV 則富有最彈性化的設置 Global Schema 和 Local Schema 可以相互對應。基於此，本研究資料交換的技術時採用 GLAV 的方式，使得不同來源的資料可以動態對應且具有彈性。

另外，在本體論的資料整合中，主要注重於 Class 與 Property 彼此之間對應的關係，也就是概念(Concept)的整合，可以表示為特定知識領域中抽象概念的一種階層式框架。對應的方法有 Mapping[12]、Merging 和 Alignment[13]。

• Mapping 主要是因為單一本體論資料有限，所以資料量不大，希望可以透過 Mapping 的方式，對應到另一個本體論上，或者是多個本體論，可以相互對應。這類的方式與 Merging 有異曲同工之妙。

• Merging 是將兩個本體論合併成一個大型的本體論，與最大的差異在於 Mapping 在整合完成後依然會考慮到原本的本體論；而 Merging 是將兩個本體論整合後只考慮整合完成後的唯一本體論，不去理會本來被整合的本體論，

其中 PROMPT 方法[14]是由史丹福醫療資訊學系所發展的，其合併兩個知

‧

識本體需要來自相同的領域。PROMPT 合併本體論方法程序與 FCA-Merge 方法一樣為互動性的、人為介入的方式。

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

SHA (Secure Hash Algorithm)、MAC (Message Authentication Code)和 HMAC (Hash-Based Message Authentication Code)，綜合以上，不論是何種 Hash Function，

都具備下列幾點特性：

• 輸入任意長度的訊息，產生固定長度的雜湊值輸出。

• One-Way Hash 之特性。

• 針對相同訊息進行計算，都會產生出相同結果。

• 雜湊訊息是無法還原成原訊息，因此演算法的設計上必須是不可逆。

本研究的資料為醫療資訊，也因為醫療資料屬於個人隱私的一部份，所以不同資料來源之間可能會有重複性的產生，例如:一個病患去可能到多家醫院就診。

在資料交換的過程中，醫院是有權力不提供完整的個人醫療資訊，防止個人資料被還原而辨識為唯一人，在無法辨識的狀況下，查詢出來的資訊可能不夠精確，

基於此，本論文將根據雜湊函數的特性，去實現匿名性資料的對齊，將個人資料經由 Hash Function 計算得到固定長的雜湊值，再依據雜湊值的結果，進行資料比對、刪除重複性資料，詳見 4.2.3 章節說明。

各章節概述

第一章、 導論

1.3 各章節概述

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

1.2 研究目的

1.3 各章節概述

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第二章

研究背景 2.1 雲端運算

2.2 資料交換 vs.資料整合

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

2.4 本體論

2.5 資料整合-資料庫 vs.本體論

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

第三章

相關研究 3.1 隱私還原保護

第一章、導論

立政治大學

立政治大學

立政治大學

立政治大學

立政治大學