DHP 設計 - 本體論建構 - 研究方法與架構 - 在語意式雲端環境上資料交換的保護 -以醫療病例為例

第四章、研究方法與架構

4.2 本體論建構

4.2.3 DHP 設計

國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2.3 DHP 設計

為了使資料交換後，A 醫院能夠得到 B 醫院的資料，包含 A 醫院本身沒有收集的資料，我們必須將兩邊的 DHP 整合，以利資料的存放。本研究使用 PROMPT[14]作為 DHP 的本體論整合方式，PROMPT 在本體論綱要(Schema)的細部整合方法主要是採用字串比對與圖狀架構(Graph)對照的方式將兩者本體論合併，而合併就是將兩個本體論合併成一個大型的本體論，而先前的兩個則不再使用。在比較兩個本體論時，PROMPT 會依照字串比對所設定的參數以及類別在整個本體論中的圖形架構位置來給與使用者合併的建議。

DHPc是由 DHP_a(A 醫院)和 DHPb (B 醫院)整合而成，如圖 6、圖 7、圖 8，

分別表示 A 醫院、B 醫院和兩間醫院整合後的圖示，DHPa (A 醫院)和 DHPb (B 醫院)主要差別在於 Data 收集不同的欄位的不同。經由 Access Control Policy 驗證授權完後，假如 Request 的 isEmpower 屬性值為 1 代表成立，則啟動 Data Handling Policy，反之則不進行。

‧

Cholesterol DH Birthday

B 醫院 DHP

‧

B MedicalInfo

Name ZIP

DH Chol Birthday Cost

QueryType

‧

等之欄位，差別於 B 醫院有 DH (Day in Hospital)、Blood Pressure…等欄位，而 A 醫院則無；A 醫院有 Cost 和 Doctor 欄位，而 B 醫院則無，B 醫院與 A 醫院收集

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

詢指令，執行 Mapping Rule (∑𝑠𝑡)的對應，找到 Source Schema 中與查詢條件相符的資料欄位，進行資料回傳到 Target Schema 的動作；再根據回傳的資料向 Target Schema 做第二次對應，而 Target Schema 內部可能被分割成許多不同使用者可以使用的資料庫，此時將利用 Mapping Rule (∑𝑡)去連接不同類別間相互的對應關係及限制，以確認是否會產生 Weakly Acyclic [3]。

本研究將資料欄位分成三類，如表格三欄位類別分類表，第一類為 Source Schema 和 Target Schema 內皆有的可相互對應之欄位，本研究有 Name、Gender、

Birthday…等；第二類為 Target Schema A 醫院內部進行角色分類後研究人員可顯示的欄位，本研究有 Disease、Cost、Gender 和 Medicine 四種欄位；剩下來的欄位本研究將之統一歸納為第三類，本研究有 DH(Day in Hospital)、Blood Pressure、

Cost…等欄位，第三類欄位的產生主要是因為資料來源的不同，使得各自的資料庫收集的資料不同。

三、欄位類別分類表

類別欄位名稱

第一類 Name、Gender、Birthday…等。

第二類 Disease、Cost、Gender 和 Medicine。

第三類 DH(Day in Hospital)、Blood Pressure、Cost…等。

根據文獻[8]，此文獻說明了資料隱私的保護與資料回溯的可能，多個欄位同時揭露可能會違反隱私，例如文獻提到的 Gender、Birthday 和 ZIP，這些欄位如果個別的揭露其實是無法辨識特定個人，但是若同時把這三項欄位揭露出來可能可以辦別特定個人，也就是多個欄位揭露會違反隱私，我們將這些欄位稱為 Quasi-Identifiers[21]，所以本研究將以這三項欄位為基準，將延伸不同違反隱私的條件型態，做為兩間醫院之間的隱私違反條件。

本研究將利用第一類的欄位兩間醫院的資料對應，因為第一類欄位在 B 醫

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

院與 A 醫院皆存在，所以第一類欄位將成為資料交換的主要對應欄位；第二類的欄位主要是在做 Target Schema 內部分類後的對應，本研究將 Target Schema 分成兩個類別，一為研究人員(Researcher)可以看到的資料分類，另一為醫院醫療人員 (Medical Employees)可以看到的資料分類，為了簡化欄位需求本研究將不會細分醫生、護士和醫院行政人員可看到的資料等級，在此本研究不是真的將 Target Schema 切割分成兩類，而是採取目的的不同做欄位的遮罩，假設研究人員以數據分析為目的所收到訊息，只會有無法辨識特定個人的欄位，例如:Gender、

Medicine 和 Disease。由於本研究流程在通過 ACP 時，即便判斷使用者的身分，

所以在 Target Schema 中的欄位分類只是為了要達到∑𝑡的正常運作，確保使用者查詢時可以在有限的時間內完成動作，並且將經由∑𝑠𝑡對應後的 B 醫院資料回傳到 A 醫院進行分類。第三類的欄位主要是兩邊欄位皆不出現的其他資料；而本研究是希望取得 Source Schema 與 Target Schema 之間不同欄位資料，使得資料能夠更加的豐富，而有利於分析醫療環境上的關係。

4.2.3.2 重複資料判斷-雜湊函數的應用

在文獻[22]提到不同資料來源時，重複性資料整合的問題，此文獻利用建構第三方平台的概念來收集不同資料來源資料但卻是相同的資料，當存放在第三方平台的資料欲做修改或是使用時，都必須經由各資料來源的許可才可以動作。舉例來說，若兩家醫院同時診療一位病人，某家醫院欲對該資料進行讀取或修改時，

則需要另一家醫院的同意，或是兩家醫院必須協商出特定規範，才能在此規範下使用。現在新版的個人資料保護法已經上路，其又更加重視資料的流通與保護，

在此建置的第三方平台不一定能夠收集完整的個人資訊，因為無法確定其合法性，

所以本研究提出利用雜湊函數的計算達到匿名性個人資料的對齊，來解決不同來源相同資料對應的問題。

根據 2.6 章節所述，本研究以 MD5 為主要基礎，雖然 SHA 的強度甚於 MD5，

‧

ID NAME Birthday Gender ZIP Diease Medicine U144315100Anthony 74.05.17 M 116 H1N1 A P198618746 Aaron 85.03.22 M 241 H1N1 A K183847330Cameron64.12.25 M 802 Hypertension C B122555131 Charles 43.10.11 M 104 Hypertension B H170489742Benjamin78.08.03 M 542 H1N1 A Hash Function

Medicine Diease ZIP Gender Birthday NAME ID A H1N1 116 M 74.05.17 Anthony U144315100 B H1N1 600 M 82.02.14 Brandon T138083703 A H1N1 320 M 94.04.19 Gavin B177208196 A Hypertension 400 M 46.05.30 Hugo F194253037 B Hypertension 909 M 75.03.02 Jonathan H156448258

圖 10、個人資料經過雜湊函數處理

‧

‧ 國

立政治大學

‧

N a tio na

l C h engchi U ni ve rs it y

∑ =_𝑠𝑡 {𝐵(1,2,3 … 9,10) → ∃8.9.10. 𝐴(1,2,3 … 9,10,11,12)}，詳見圖 12。此規則只是通式，而每一次的對應都會有的不同對應規則產生。本體論架構上的規則如下:

Request (?r) ∧ hasQueryType(?r, PBQA∧PBQB) ∧ QueryType ( PBQA∧PBQB) ∧ hasData (?r,?rd) ∧ Data (?rd) ∧ hasHashValue (?rd,?hv) ∧ HashValue(?hv) ∧ hasBMedicalInfo (?rd,?brd) ∧ BMedicalInfo (?brd) ∧ hasPartOf (?brd,?bd) ∧ sqwrl:makeSet(?b,?bd) ∧ hasAMedicalInfo (?rd,?ard) ∧ AMedicalInfo (?ard) ∧ hasPartOf (?ard,?ad) ∧ sqwrl:makeSet(?a,?ad) ∧ sqwrl:union(?c,?b,?a)→

sqwrl:select(?c)----Rule 2

 Rule2 規則中，主要是展現資料交換的查詢結果，並顯示資料經由 Hash Function 計算後所得到的 Hash Value，而每一筆資料都會記錄是由 A 醫院或 B 醫院所有，最後會將經由查詢得到的資料聯集起來，達到可以得到外來資料源的資料。然而每一筆資料都會產生一個 Hash Value，主要是用來處理匿名性資料的比對，確認是否為同一筆資料。

我們在使用∑𝑠𝑡的時候，會一併的處理個人資料雜湊值的對應，將擁有相同雜湊值的個人資料紀錄成一筆，這樣既有匿名的個人資料保護效果，也避免過多重複性的資料產生。

‧

7. Medicine 7. Medicine

圖 12、Source to Target 對應圖

資料經由∑𝑠𝑡對應後，回傳到 A 醫院的資料庫做∑ 𝑡的處理，而∑ 𝑡主要判斷是否會有 Weakly acyclic 的情況產生。Weakly Acyclic 的用途主要用來判斷在 Target Schema 內部做∑𝒕時是否會有迴圈的產生，若有 Weakly Acyclic 則表示此次查詢會有終止的時候，不會造成無止境的循環導致無法停止。判斷迴圈是否存在是利用 Weakly Acyclic 中產生 Special Edge 的特性來做決定的，當研究人員類別對應到醫療人員類別時，若有相同欄位則兩者間給予連線，若對應到 Labeled Null (即未匹配或對應到的欄位)則兩者之間的連線即稱為 Special Edge。對應規則如下:

‧

圖 13、在∑𝒕中判斷是否有 Weakly acyclic

本研究將會有 Weakly Acyclic 的產生，所以不會造成無法停止的情況發生，分析後的統計數據時，則揭露的資料稱為 Macrodata。依據 Microdata 和 Macrodata 不同的特性，其資料保護的方式也有所不同。目前本研究中只討論 Microdata 的保護，也就是當使用者要求揭露原始欄位資料進行一般分析或者統計分析時，必須落實的保護。Microdata 的保護方式可以分為兩種：Masking 和 Synthetic[23]。

Masking 會將資料做修改或隱藏的轉換用來做一般分析，而 Synthetic 會將資料轉換成具有統計特性的資料可以用於統計分析。Masking 又可分為 Non-Prturbative

在文檔中在語意式雲端環境上資料交換的保護 -以醫療病例為例 - 政大學術集成 (頁 28-38)

DHP 設計

第四章、 研究方法與架構

4.2 本體論建構

4.2.3 DHP 設計

國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2.3 DHP 設計

‧

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

4.2.3.2 重複資料判斷-雜湊函數的應用

‧

‧

‧ 國

立 政 治 大 學

‧

N a tio na

l C h engchi U ni ve rs it y

‧

‧

第四章、研究方法與架構

立政治大學

立政治大學

立政治大學

立政治大學