• 沒有找到結果。

第二章 研究材料與相關文獻探討

有鑑於系統的建立需要整合疾病資料以及地理資訊系統(Geographical Information System, GIS),使用全民健保資料庫作為疾病資料基礎,包含 15 年之健保就醫紀錄抽樣檔,可以作為 15 年內疾病發生的抽樣代表,地理資訊系統 民健康保險研究資料庫」(National Health Insurance Research Database, NHIRD) [8]。由中央健康保險署所提供的 2010 年承保資料檔以「身份證字號加上生日加 (Longitudinal Health Insurance Database 2010, LHID2010),有 25 組資料,每組有 4 萬人,共 100 萬人歸人檔紀錄,研究資料年度為 1996 年至 2010 年,單一歸人檔 之結構為「承保資料檔(ID)」、「生日(id_birthday)」、「居住區碼

(id_rec.reg_zip_code)」、以及數筆「就醫紀錄(func)」而根據使用者所輸入的疾病 代碼抽取資料庫中具有特定疾病代碼(func.icd9)的患者並依據居住區碼分群。

doi:10.6342/NTU201601304

5

圖 2-1:健保資料庫檔案架構

觀察就醫紀錄,每一位具有健保身分的患者其基本資料(以加密的身分證字 號、生日、戶籍)會歸類在承保資料檔(ID)中,而一位患者可能同時擁有多次就醫 紀錄,無論門診、住院以及取藥等都會記錄每次的就醫行為於就醫紀錄(func)中,

這樣的結構經過長時間累積下來的資料就成為今日所使用的全民健保資料庫。

doi:10.6342/NTU201601304

6

2-2 水庫水質監測資料庫

行政院環境保護署為配合行政院開放資料 (Open Data) 政策,建置「環境資 源資料開放平台(OpenData.epa)」[9]自 102 年起陸續推動將環境資源數據資料彙 整開放,藉以提升環境資源資料運用效率落實環境資源資訊共用共享,這些資料 集用原始資料(Raw data)的結構提供程式開發者使用。

此研究中也使用環保署環境資源資料開放平台所發布之水庫水質監測資料,

欄位包括測站名稱、水庫名稱、所在鄉鎮、所在縣市、測站座標、測項名稱、測 項數值以及測項單位,檢測項目包含: 葉綠素 a、總磷、溶氧飽和度、氨氮、化學 需氧量、溶氧(電極法)、懸浮固體、氣溫、採樣深度、導電度、濁度、酸鹼值、

透明度、水溫、卡爾森指數等指數。選用臺灣本島 17 個縣市共 224 個測站,測站 座標數據方便定位於 google map,測站區域代碼方便與健保資料庫做關聯,將測 項結果依據採樣時間歸納於其所屬的測站。

圖 2-2 : 水質資料庫檔案架構

doi:10.6342/NTU201601304

7

2-3 自來水水質抽驗資料

由於現代人不會直接飲用河川的水而是取自自來水系統,所以取用行政院環 境保護署環境資源資料庫(erdb.epa.gov.tw)[10]自來水水質抽驗資料,屬性包含縣 市、自來水分區、測點、採樣日期、氫離子濃度指數、硝酸鹽氮、銀、氟鹽、是 否合格、亞氯酸鹽、亞硝酸鹽氮、戴奧辛、氰鹽、汞、溴酸鹽、砷、硒、總三鹵 甲烷、鉛、鉻(總鉻)、銻、鎘、鎳、氨氮、氯鹽、硫酸鹽、總溶解固體量、總硬 度、自由有效餘氯、酚類、銅、鋅、鋇、錳、鐵、陰離子界面活性劑、"1,1,1-三 氯乙烷"、"1,1-二氯乙烯"、"1,2-二氯乙烷"、三氯乙烯、四氯化碳、對-二氯苯、

氯乙烯、苯、原水濁度、濁度、臭度、色度、大腸桿菌群密度、總菌落數、"2,4-地"、一品松、丁基拉草、亞素靈、加保扶、大利松、安殺番、巴拉刈、巴拉松、

滅必蝨、納乃得、達馬松、靈丹…等重金屬以及有機化合物,由於認為大腸癌僅 只與硝酸鹽類與菌落數有關,故僅取用硝酸鹽氮、亞氯酸鹽、亞硝酸鹽氮以及菌 落數,原始資料取樣時間從 2001 年至 2015 年的每個月份去除外島資料並依據縣 市以及採樣日期之年分依據不同屬性結構化的規劃成資料庫,系統動態載入資料 庫時將每年各屬性之所有抽樣數值平均作為其值。

圖 2-3:自來水水質抽驗資料檔案架構

doi:10.6342/NTU201601304

8

2-4 D3(Data-Driven documents)

欲凸顯健保資料的意義,視覺化成為一個重要的議題,D3 亦稱為 Data-Driven Documents[11],二零一一年被一位史丹福博士生麥克博史達克 Mike Bostock 所 創造,將原始資料加以形狀或者顏色呈現不同的分布,利用簡單的折線圖到精緻 的動畫讓資料用淺顯易讀並充滿互動的方式呈現,並且能設計系統專屬的呈現模 式,如今已成為許多視覺化的設計工具[12]。

D3.js 為視覺化函式庫,使用 SVG (Scalable Vector Graphics)[13]進行繪圖,有 別於傳統 HTML 標籤無法精準地定義形狀,SVG 以 XML 標籤格式撰寫,具有可 被搜索的特性並具有向量圖型之優點且可以隨時保持圖像清晰不會隨著放大與縮 小而失真,也不會增加檔案大小造成存取負擔,從簡單的直線(line)、曲線(path)、

圓形(circle)、矩形(rect),到複雜的任意路徑、座標轉換與動畫,均可以利用標籤 的形式來完成。

D3 繼承 javascript 使用物件導向的設計模式,如同函式,讓使用者以物件的 方式控制、操作並加以應用,也運用了 DOM(Document Object Model)架構作為 SVG 文件的程式介面讓程式可以存取並改變文件架構、風格和內容(例如:attr、

element 或者 event)。系統地理圖形相關的演算法輔助讀取地理資訊檔、繪製行政 區塊並且做各種投影,利用 D3.js 函式庫所提供的 d3.geo 系列函式進行向量繪圖、

座標轉換,建立疾病地圖、疾病趨勢圖以及整合趨勢圖。搭配事件可以做到與使 用者互動的介面讓使用者能更貼近資料傳達的意義。

doi:10.6342/NTU201601304 始資料提供於政府內部系統採用地理資訊系統檔案格式 SHP(shapefile)一種空 間資料開放的向量格式並且採用 EPSG:3826(TWD97/121 分帶)座標系統,但是 D3.js 無法直接讀取 SHP 格式,轉換成 topoJSON 格式方能使用,topoJSON 為 geoJSON 之擴充版本 是一個改善 geoJSON 存取過多的重複資料所做的新的一 種資料格式,也因本系統僅需投影臺灣地圖於 SVG 區塊上故採用 topoJSON 為地 理資訊檔案格式,topoJSON 文件整體檔案大小也小很多,檔案至少包含幾個部 分:type(類別)、objects(物件)、arcs 以及 transform,一個 GeoJSON[15] 物件可 以用來代表點 (Point),線 (LineString),多邊形 (Polygon) 等等的幾何結構,以 及特徵 (Feature) 的集合,或是一系列的特徵 (FeatureCollection)。

1. Type:定義本地理資料的解析方法而且其值必須是 “Topology”, “Point”,

“MultiPoint”, “LineString”, “MultiLineString”, “Polygon”, “MultiPolygon”

或 “GeometryCollection” 其中之一,本檔案使用“Topology。 2. Objects:包含多組由使用者定義的地理資料物件集合包含定義物件的類

別(type)以及地理資訊(geometries)兩個屬性,本檔案中的物件所使用 的類別(type)是”GeometryCollection”, 地理資訊(geometries)中紀 錄了各地區的屬性資料,例如:縣市名稱、鄉鎮名稱、區域面積以及地區 代碼…等,以及邊界點座標。

3. Arcs:負責記錄較常被取用的拓樸繪圖點座標。

doi:10.6342/NTU201601304

10

4. Transform:中設定適合的縮放比例以及偏移量在初始化時有適當的視覺 效果而不需再投影時設定其參數。

本地理資料集仍然有許多部分需要處理,例如常見的異體字問題需要統 一用字,2010 年臺灣實施五都改制施行縣市合併、升格直轄市,除了行政區 名稱的改變外也影響區域代碼,為了便於系統設計所以採用新制,其次,臺 澎金馬涵蓋的範圍相當廣,若要將所有區域納入同一份地圖,會有許多空間 消耗在島嶼與島嶼之間的領海中,也因為本系統所使用的資料僅限於臺灣本 島排除資料較少的外島。

doi:10.6342/NTU201601304

網站伺服器 Web Server 與資料庫伺服器 Database Server,兩系統硬體配置 如表 3-1 所示。

網站伺服器 Web Server

資料庫伺服器 Database Server

作業系統

Windows 7 Enterprise SP1

Ubuntu 12.04.4 LTS

處理器

Intel® Core™

i5-2400 Processor

3.40 GHz

Intel® Core™

2 Quad Processor

2.40GHz

Intel® Core™

i5 CPU 2.67GHz

AMD FX™-8350 Eight-Core

Processor 1.4GHz

記憶體 16 GB 8GB 16GB 32GB

系統類型 64 bits 64 bits 64 bits 64 bits 表 3-1:系統環境

相關文件