在商業智慧系統中雲端行動運算應用之研究 - 政大學術集成

全文

(1)國立政治大學商學院資訊管理學系研究所碩士論文 Graduate Institute of Management Information Systems College of Commerce National Chengchi University Master Thesis. 立. 政治大. ‧. ‧ 國. 學. 在商業智慧系統中雲端行動運算應用之研究 A Research into the Applications of Cloud-ready Mobile. y. Nat. n. al. er. io. sit. Computing with Respect to Business Intelligence. Ch. i n U. v. engchi 楊瑞涵 Rui-Hn Yang. 指導教授：姜國輝博士 Adviser：Kuo-Hui Chiang, Ph.D.. 中華民國 103 年 7 月 July, 2014.

(2) 致謝終於完成碩士學位論文，首先要感謝我的恩師姜國輝老師，謝謝老師這三年來的指導，在研究和學習中都獲得許多的協助，在課業或是學習的方面帶領我們認識許多新的科技與技術，並嘗試的將其納入研究的論文中。在研究期間老師不斷的給予眾多的文獻協助研究的進展，在論文撰寫期間則熱心的幫忙指導寫作技巧。因此在碩士期間我能持續的學習與充實自我，最後將其融合貫通，完成本論文，在此要致上最誠摯的感激給予我的老師。同時也要感謝三位口試委員. 林豪鏘. 老師、季延平. 老師及楊喻翔. 博士在口試. 治政大的嚴謹與充實，謹此致上萬分謝意。立. 期間的幫忙，對本論文提出寶貴的建議，使本論文的研究主題不會過於發散，並且更加. ‧ 國. 學. 另外，在實驗室的夥伴黃聖尹、戴睿宸及何善豪的互助之下，我的研究生活顯得順利與充實，有你們的同在，學習新的技術的時候才不會枯燥乏味，在互相砥礪的情況下，. ‧. 順利的解決許多疑難雜症，感謝你們，使我能順利完成我的論文。在準備專案時，一起研究健保相關議題的學弟妹育任、甘琳、世光、岱廷及添俊，謝謝你們的幫助，在專案. y. Nat. sit. 期間使我受惠良多，讓我能快速的了解該議題，節省研究所需要走的歪路。最後，更感. n. al. 有了你們的協助，本論文的系統開發才能順利完成。. Ch. engchi. er. io. 謝其他學弟妹們不吝惜的幫助與建議，謝謝你們育龍、佩珊、詩貽、翊瑄、柏元及韋仁，. i n U. v. 我要感謝我的家人在我求學中的支持與鼓勵，有你們在使我在研究受到挫折時能繼續堅持的向錢邁進，謝謝你們在背後成為我的支柱，我才能專注於學業與研究，最終才能完成此篇論文。最後，我要感謝曾在我求學的過程中幫助過我的朋友與同學，因為要謝的人太多了，那就謝天吧。楊瑞涵謹誌于國立政治學資訊管理學系 100 碩士班中華民國一零三年七月 i.

(3) 摘要全球每日產出的資料量持續成長，龐大的資料量、雜亂的資料檔案格式造成資料處理的困難；此外，全球智慧型手機的出貨量持續上升，未來將會至少人手一台行動裝置，同時行動網路的效能提升將可負荷更多的資料流量，行動工作者的數量也因此逐年增加。對商業智慧系統而言，透過企業資料的分析可以發現資訊之間的關連與隱藏其中的事實，讓使用者掌握更多的知識用於決策，分析的資料來源越豐富，其可提供做為決策用的訊息就更為準確。過往商業智慧透過關聯式資料庫處理資料來源及電子郵件的通知使用者，但是龐大的巨量資料遠超過前者所能有效處理的數量，進而造成對資料擷取、保存、使用、分享. 政治大. 以及分析時的處理難度；後者對於外出的使用者來說，電子郵件僅只是收到通知而已，. 立. 使用者依然得需要電腦才能觀看分析報表。. ‧ 國. 學. 故本研究使用雲端運算分散儲存及運算的技術及行動裝置隨手可得的特性解決前述的兩個問題，先透過雲端資料庫加速處理巨量資料的存取並製作成資料倉儲供商業智. ‧. 慧使用，接著透過行動應用程式即時接收推播訊息並呈現分析報表於行動裝置上。. y. Nat. sit. 在實作中，利用非結構化資料庫進行資料的存取，比起過往的關聯式資料庫確實可. n. al. er. io. 以有效提升巨量資料處理的速度；透過行動裝置的報表呈現，在平板電腦有較佳的成效，. i n U. v. 在手機上則是因為螢幕大小的關係，畫面呈現效果較差，這方面則有待改善。. Ch. engchi. 本研究透過非結構化資料庫及行動應用程式設計新的行動商業智慧解決方案，實作雛型系統，並且透過異常申報健保費用醫院為案例，進行系統整體的測試，證明其架構及運作模式之可行性。經過驗證，本系統將能提供使用者使用巨量資料做為分析數據，並且透過行動應用程式立即取得分析報表。. 關鍵字：商業智慧、雲端運算、行動應用、全民健保資料庫. ii.

(4) Abstract The volume of daily output data continues to grow world- widely. The huge amount of data and the disorder of data format cause the difficulty of data processing. Additionally, the number of smartphone sales is continuously growing, so everyone will own at least one smartphone in the future. In the meantime, the effectiveness of mobile internet and wireless is largely improved, so it can be loaded with more data flow. Because of this phenomenon, the number of mobile workers will be increasing per year. For business intelligence systems, through the analysis of enterprise's data we can find the relevance and facts hidden in information, allowing users to acquire more knowledge for decision-making. The more data sources we analyze, the more accurate information can be used to make decision. In the past, business intelligence processes data sources through relational database and. 政治大. uses e-mail to notify users. However, the huge amount of data exceeds the number that can be. 立. effectively processed by relational database. On account of this, it becomes difficult regarding. ‧ 國. 學. data acquisition, storage, application, sharing, and analysis. As far as the users are concerned, they only receive notifications by emails, so they still need a computer to view the analysis report.. ‧. In this study, I use cloud computing technology and mobile devices to solve the two. sit. y. Nat. aforementioned issues. First, we speed up the process of big data in data acquisition through Hadoop Hbase, and made it into data warehouse for Business Intelligence use. Secondly, we. io. n. al. er. use mobile applications to receive push messages instantly and present analysis reports.. i n U. v. In the practical work, I use NoSQL database to acquire and store data. Compared with. Ch. engchi. relational database, we can indeed effectively enhance the speed of big data processing. In reports’ presentation on mobile devices, the Tablet has better user experience then the phone. The phone is displayed comparatively poorly because of its small screen. This part needs to be improved. In this research, I conceive a new solution of mobile business intelligence through NoSQL database and mobile applications, and implement this method into a prototype system. Moreover, through an example of the analysis of hospitals which have anomalous health-insurance reporting expenses we can test the whole system. It proves that this system’s structure and the mode of operation are feasible. The system will be able to provide big data as the source of analysis and present reports immediately through mobile devices to users. Keyword: Business Intelligence, cloud computing, mobile application, National health insurance database iii.

(5) 目錄摘要 .......................................................................................................................................................... ii Abstract ................................................................................................................................................... iii 目錄 ......................................................................................................................................................... iv 圖目錄 ..................................................................................................................................................... vi 表目錄 ................................................................................................................................................... viii 第一章 . 緒論 ....................................................................................................................................... 1 . 第一節 . 研究動機 ........................................................................................................................... 1 . 第二節 . 研究目的 ........................................................................................................................... 2 . 第三節 . 研究流程 ........................................................................................................................... 3 . 一、 . 政治大商業智慧 ........................................................................................................................... 4 立商業智慧的流程 ............................................................................................................... 4 . 二、 . 巨量資料帶來的影響 ....................................................................................................... 6 . 第二節 . 巨量資料 ........................................................................................................................... 9 . 第三節 . 雲端運算 ......................................................................................................................... 12 . 一、 . Hadoop ............................................................................................................................ 12 . 第四節 . 行動應用 ......................................................................................................................... 17 . 一、 . 行動應用辦公室 ............................................................................................................. 17 . 二、 . 混合型應用程式（Hybrid APP） .................................................................................. 18 . 學. ‧. y. sit. io. al. v i n Ch Google Cloud Messaging（GCM） ............................................................................... 19 engchi U n. 第五節 . Nat. 三、 . er. 第一節 . 文獻探討 ............................................................................................................................... 4 . ‧ 國. 第二章 . 全民健保資料庫 ............................................................................................................. 20 . 一、 . 醫事機構相關之研究 ..................................................................................................... 20 . 二、 . 特殊疾病與病患之相關研究 ......................................................................................... 21 . 第六節 . 健保申報費用審查流程 ................................................................................................. 22 . 一、 . 現行審查流程 ................................................................................................................. 22 . 二、 . 智慧型健保費用異常審查 ............................................................................................. 23 . 第三章 . 研究方法 ............................................................................................................................. 24 . 第一節 . 研究架構與設計 ............................................................................................................. 24 . 一、 . 可疑健保申報費用篩選： ............................................................................................. 25 . 二、 . 可疑資料分析： ............................................................................................................. 25 . iv.

(6) 三、 . 通知審查人員： ............................................................................................................. 26 . 第二節 . 資料來源 ......................................................................................................................... 27 . 一、 . 全民健保資料 ................................................................................................................. 27 . 二、 . 醫院基本資料 ................................................................................................................. 28 . 三、 . 研究限制 ......................................................................................................................... 28 . 第四章 . 系統設計與架構.................................................................................................................. 29 . 第一節 . 系統概述 ......................................................................................................................... 29 . 第二節 . 系統環境 ......................................................................................................................... 29 . 第三節 . 系統架構 ......................................................................................................................... 30 . 第四節 . 系統流程 ......................................................................................................................... 31 . 第五節 . 行動辦公室的裝置管理 ................................................................................................. 32 . 第一節第二節 . 政治大雲端資料庫 ..................................................................................................................... 33 立. 系統開發與實作.................................................................................................................. 33 . ODBC 製作資料來源及資料倉儲建置 ......................................................................... 34 . 學. ‧ 國. 第五章 . 行動應用程式開發 ......................................................................................................... 36 . 一、 . 使用者登入及認證模組 ................................................................................................. 36 . 二、 . 推播訊息的接收 ............................................................................................................. 37 . 三、 . 分析報表的呈現 ............................................................................................................. 38 . 第四節 . 推播模組之實作 ............................................................................................................. 39 . 第五節 . 分析報表製作 ................................................................................................................. 41 . n. al. er. io. sit. y. Nat. 第六章 . ‧. 第三節 . i n U. v. 系統測試 ............................................................................................................................. 42 . Ch. engchi. 第一節 . 行動應用程式 ................................................................................................................. 42 . 第二節 . 健保異常申報醫院之分析 ............................................................................................. 44 . 一、 . 描述性統計 ..................................................................................................................... 44 . 二、 . 資料萃取 ......................................................................................................................... 45 . 三、 . 地理區域性分析 ............................................................................................................. 46 . 四、 . 地圖分析報表 ................................................................................................................. 47 . 第三節 . 小結 ................................................................................................................................. 50 . 第七章 . 結論與未來展望.................................................................................................................. 52 . 第一節 . 結論 ................................................................................................................................. 52 . 第二節 . 未來展望 ......................................................................................................................... 54 . 第八章 . 參考文獻 ............................................................................................................................. 55 . v.

(7) 圖目錄 Figure 1. 研究流程 .................................................................................................... 3 Figure 2. 商業智慧流程（Vitt et al., 2002） ........................................................... 4 Figure 3. 商業智慧流程（ Wayne W. Eckerson, 2003） ........................................ 5 Figure 4. Oracle的巨量資料解決辦法 ...................................................................... 6 Figure 5. HANA系統架構 ......................................................................................... 7 Figure 6. Qlikview系統架構...................................................................................... 8 Figure 7. 巨量資料3Vs範例 ...................................................................................... 9 Figure 8. IBM對應巨量資料所提出新的生態系統 ............................................... 11 . 政治大 Figure 10.資料塊儲存範例 ..................................................................................... 14 立 Figure 9. 分散式檔案系統架構 .............................................................................. 13 . ‧ 國. 學. Figure 11. 並行分散式運算運作流程 .................................................................... 15 Figure 12 HBase 邏輯資料表與儲存對照圖 .......................................................... 16 . ‧. Figure 13GCM架構與流程 ..................................................................................... 19 Figure 14健保醫療費用審查流程 .......................................................................... 23 . Nat. sit. y. Figure 15 簡化的健保審查流程 ............................................................................. 24 . al. er. io. Figure 16 訊息通知流程 ......................................................................................... 27 . v i n Ch Figure 18系統流程圖 .............................................................................................. 31 engchi U n. Figure 17系統架構圖 .............................................................................................. 30 . Figure 19裝置管理流程 .......................................................................................... 32 Figure 20醫事機構基本檔(HOSB)的檢索範例 ..................................................... 34 Figure 21門診處方及治療明細檔(CD)的檢索範例 .............................................. 34 Figure 22以HBase ODBC Driver套件製作資料來源流程 .................................... 35 Figure 23蒐集資訊準備執行認證模組 .................................................................. 37 Figure 24 身分驗證錯誤，中止註冊程序 .......................................................... 37 Figure 25訊息的接收與處理 .................................................................................. 38 Figure 26啟動程式後的首選畫面 .......................................................................... 38 Figure 27實體關係圖 .............................................................................................. 39 Figure 28 推播訊息排程 ......................................................................................... 40 vi.

(8) Figure 29訊息推播 .................................................................................................. 41 Figure 30登入畫面 .................................................................................................. 42 Figure 31程式首頁 .................................................................................................. 43 Figure 32接收到推播訊息 ...................................................................................... 43 Figure 33報表呈現於平板 ...................................................................................... 44 Figure 34 醫事機機構事實資料表 ...................................................................... 46 Figure 35以所屬管轄區域分析 .............................................................................. 46 Figure 36地圖分析報表 .......................................................................................... 47 Figure 37以中區分局為例顯示所轄行政區 .......................................................... 48 Figure 38已台北市為例顯示醫院列表 .................................................................. 48 . 政治大 Figure 40以形態別與地區進行多維度分析 .......................................................... 49 立. Figure 39以台北市XX牙醫為例 ............................................................................. 49 . ‧ 國. 學. Figure 41違規醫事機構統計 .................................................................................. 50 Figure 42報表呈現於手機 ...................................................................................... 51 . ‧. n. er. io. sit. y. Nat. al. Ch. engchi. vii. i n U. v.

(9) 表目錄 Table 1Hbase邏輯數據模型 .................................................................................... 15 Table 2. 行動應用程式開發模式比較 .................................................................... 18 Table 3.本系統採用之各端環境說明 ..................................................................... 29 Table 4醫事機構基本檔(HOSB)的欄位設計 ........................................................ 33 Table 5門診處方及治療明細檔(CD)的欄位設計.................................................. 33 Table 6全民健康保險特約醫事服務機構查處199年至2003年統計表 ................ 44 Table 7新北市1999年至2003年違規醫院數量 ...................................................... 47 . 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. viii. i n U. v.

(10) 第一章緒論第一節. 研究動機. 世界經濟的發展，從最早的勞動密集產業已經轉向進入知識產業的時代。知識的累積除了研發拓展外，還可透過企業本身累積擁有的資料，包含交易資料、觀察事實資料等。這些資料就像是藏在地底下的石油，透過分析萃取成資訊，接著闡述這些資訊即可成為有用的知識。看似無用的資料經過開採分析即就可以成為價值連城的知識，這些知識是企業所獨享的資源，不像是過往其他在市場上容易獲得的資源，例如：土地和勞力等。企業管理者透過這些知識將可以制定正確的戰略目標，不會像多頭馬車一樣，不知該往何處前進。. 立. 政治大. 因此，商業智慧在這知識的時代被企業視為最佳的輔助系統，從Howard Dresner(1989. ‧ 國. 學. 年)提出完整的概念至今已經有20多年之久，商業智慧方面的知識依然持續發展和受各產業所重視。與其他管理資訊系統不同的是，商業智慧強調的是整合的概念，包含資料. ‧. 萃取（Extract-Transform-Load）、資料倉儲（Data Warehouse）、資料採礦（Data Mining）、. y. Nat. 線上分析處理（On-Line Analytical Processing）、儀表板（Dashboard）等技術應用[34]，. io. sit. 透過清楚且易懂的圖表方式將使用者所關注的關鍵性指標、績效指標等數據呈現。然而. n. al. er. 據統計，全球每天新增資料量達2.5百萬兆位元組[18]，成長速度超越摩爾定律[12]，來. i n U. v. 源廣及社群媒體、行動裝置、數位影像等諸多非結構和半結構化的資料，形成「巨量資. Ch. engchi. 料」。資料量的快速成長（Volume）、資料種類的多樣化（Variety）、資料的可信度（Veracity），這些巨量資料同時也拖慢分析的速度（Velocity）[4]．對於企業現行所追求的即時性分析開始有了落差，原因在於傳統的資料萃取已經無法處理迅速整理這些巨量資料；另一個問題是傳統的商業智慧軟體所需資料來源多為從關聯式資料庫中取得的正規化關聯式資料，但因巨量資料襲來，傳統資料庫的系統架構無法處理這些複雜的檔案格式，例如： VSAM檔、圖像檔等，這些雖然是企業內部的資料，卻無法從中獲取有用的知識，普遍認為企業內結構化的資料約僅佔 15%，另有 85% 的寶貴資料是以半／非結構化的方式存在。因此過往對於企業而言，商業智慧需投入大量人力和資金等成本建置方可獲得成效，這讓許多公司因此怯步。而商業智慧與雲端運算結合，將可提高企業的敏捷性，可花費 1.

(11) 較少的成本獲得較多的成果[3]，如此能吸引更多的中小企業引進商業智慧；此外雲端運算提供分散式運算功能和非結構化資料的儲存功能，前者可以縮減商業智慧在巨量資料分析時所需的大量時間，後者提供非結構化（NoSQL）的架構可用來儲存企業內部的半／非結構化資料。商業智慧與雲端運算之結合，將能使使用者在軟硬體上選擇上更自由，提高可擴展性、靈活性，需求有多少就花費多少，並且縮短時間成本，獲取更多的資訊用以輔助決策。除了儲存與分析的問題，商業智慧分析結果的輸出，使用者必須透過電腦才能掌握資訊，對於需要即時資訊的使用者而言沒有電腦就無法接收到分析報表，造成不便的同時，也喪失即時做出決策的能力。從2011年以來行動裝置開始呈現跳躍式的成長，思科. 治政例，行動流量的數據也將成長到13倍之多[7]。有藉於此，未來將會至少人手一台行動裝大立置，行動網路也將會提升其效能以負荷越來越多的資料流量，因此行動裝置將可在工作（Cisco）預測2017年將會有100億台裝置被使用，而其中智慧型行動裝置佔據大部分比. ‧ 國. 學. 上提供更多的支援，不再只是收發電子郵件，更可以做為接取裝置，連接企業的私人的資料庫進行作業。透過上述的特性，行動裝置可作為一良好的輸出端，提供使用者即時. ‧. sit. Nat. 行動裝置將可以即時的獲取第一時間的資訊。. y. 取得巨量資料的分析成果，不再受限於以往的筆記型電腦或是個人工作站，使用者透過. er. io. 因此，本研究希望透過雲端運算提供商業智慧處理巨量資料的能力，使用行動裝置. al. n. v i n Ch U velocity）議題，更可以給處理巨量資料的能力解決前述的4V（volume, e n gvariety, c h i veracity, 做為輸出端，使用者可以即時接收分析報表，迅速的做出決策。此架構將強化商業智慧. 予使用者方便的接收方式。. 第二節. 研究目的. 本研究擬藉由雲端運算的非結構化資料庫、分散式運算及隨手可得的行動裝置，針對商業智慧系統的缺陷，解決目前碰到的巨量資料問題及提供使用者隨手可得分析報表的途徑。本研究將藉由異常申報健保費用的醫院分析為案例，透過雲端運算處理巨量資料，將這些資料經過資料萃取存放至資料倉儲；在商業智慧系統的地圖報表上，視覺化分析資料；並且透過行動裝置，提供使用者能隨時隨地的接收查看，同時，手機的推播功能，讓使用者可以在第一時間得到第一手的資訊，藉此迅速的做出決策反應，提升企業效能。 2.

(12) 第三節. 研究流程. 本論文在章節規劃如下圖（Figure 1）所示：第一章介紹論文之研究動機、研究目的及研究流程；第二章文獻在商業智慧方面探討目前的現況，接著探討巨量資料的影響與商業智慧廠商的改變，並針對雲端運算與行動裝置進行探討其可支援商業智慧的功能；第三章說明本論文的研究方法及資料來源；四五六章則是分別解說系統的設計做，以及實證進行系統實作與開發，最後進行系統測試，驗證系統的可行性；第七章則針對研究結果做探討並提出未來研究方向。. 緒論研究動機. 立. 研究目的治研究流程政大. ‧ 國. 學. 文獻探討. 商業智慧巨量資料雲端運算行動應用全民健保. ‧ er. io. sit. y. Nat. 研究方法. n. 研究架構與設計 a. 資料來源v i l C n hengchi U 系統. 設計與架構. 開發與實作. 測試. 結論與建議結論. 未來研究方向. Figure 1. 研究流程資料來源：本研究整理 3.

(13) 第二章文獻探討第一節. 商業智慧. 商業智慧（Business Intelligence）首見於IBM的研究報告中（1958年），直到1989 年，Howard Dresner於發表的文章中對 “商業智慧”一詞給予了新的定義，推廣利用企業的資料資源，先了解企業目前的運作和行為模式，再以此提高決策所需的效率與準確性 [8]。商業智慧至此開始流行，受企業所青睞，其為企業提供了解決方案來整合並且分析企業所擁有的各式資料，並從這些資料中獲得有價值的信息，這解決方案包含數據庫，數據倉庫，績效管理，分析方法等等，將這些集成到一個統一的軟體套件裡[10]，透過. 政治大策，達到有效的預測分析能力，最後提升企業的績效[2] 。立. 視覺化或是報表的方法呈現給使用者，使用者可以藉此資訊，做出明智和聰明的商業決. ‧ 國. 1.. 商業智慧的流程. 學. 一、. 循環的商業智慧流程. ‧. Vitt et al. （2002）認為商業智慧一詞是多面向的，由多個專家和軟體廠商所組成的. y. Nat. 一廣泛的技術、軟體平台、具體的應用和過程，商業智可簡單分為四個步驟，以此闡明. 產生新的分析目標出來，形成一循環（Figure 2）。[24]. n. al. Ch. engchi. er. io. sit. 商業智慧的流程。首先透過分析，再經由洞悉、行動，最後再衡量，衡量的結果可能會. i n U. v. Figure 2. 商業智慧流程（Vitt et al., 2002）[24] (1) 分析：使用者定義分析的目標，了解重要性的先後，分析企業目前所需的資訊種類，這三個小步驟缺一不可，如若是選擇錯誤的方向，將猶如亂槍打鳥，打的不 4.

(14) 一定是肥美可口的小鳥，可能又瘦又小不符成本，對於企業的效益並不會有所提升； (2) 洞悉：透過分析得來的資訊，從儀表板上使用者可獲知事實及情報，以此對應在企業營運上的戰略方向及戰術目標，並制定數個方案選項，提供決策者抉擇； (3) 行動：透過實際的行動執行所做下的決策，藉此提升企業的績效； (4) 衡量：洞悉和行動之後，須對其結果進行量化的評估，透過評估結果來調整未來在洞悉和行動時需要注意的限制條件或是取捨方向，最後訂立新企業目標，開始新的商業智慧流程。 2.. 煉油廠的商業智慧流程. 治政料經過一層一層的萃取成為可用於支援決策的知識。（Figure 大 3）[25] 立. Wayne W. Eckerson（2003）提出的架構，可將商業智慧視為一煉油廠，將原生的資. ‧ 國. 學. (1) 從企業內部收集可用的資料，經過資料萃取後載入資料倉儲內，並整合成可用於分析的資訊；. 讓使用者獲取可用以支援決策的知識；. Nat. y. ‧. (2) 將資訊透過線上分析和報表等工具，發現資訊之間的關連與隱藏其中的事實，. sit. (3) 透過知識建立可信的決策模型和企業規則，提供企業發展的依據；. al. n. v i n Ch 實際行動產生的數據資料，將可繼續做為商業智慧分析的新生資料，進入下一 engchi U 業的營運內容；. (5). er. io. (4) 根據前述的決策模型，制定行動計畫，將決策模型轉為實際的行動，也就是企. 個迴圈。. Figure 3. 商業智慧流程（ Wayne W. Eckerson, 2003）[25]. 5.

(15) 二、. 巨量資料帶來的影響. 現有的商業智慧系統大多都是由資料萃取、資料倉儲、資料採礦、線上分析處理、儀表板五大功能組成，過往企業藉上述系統分析自己建制的範例及模型，但是只憑這些模型真的能給予準確的建議？根據統計這些模型的資料來源僅占所有可獲得之資料的 20%，使用20%資料所給予的建議，猶如瞎子摸象，模糊的概念將令決策者難以準確地做出正確的選擇。為了符合企業的期望及節省成本，有人提出引用外部的巨量資料，以此來彌補缺少的80%資料所帶來的誤差[4]，也因此舊有的商業智慧系統必須有所改變以因應這些提供輔助的巨量資料的融入，以下將介紹目前商業智慧系統廠商的應對方法。 1.. Oracle Business Intelligence. 治政開發核心，建置可儲存各種類型資料的非關連式資料庫，接著使用開放來源的統計用語大立言R，對於未過濾的雜亂資料先行分析，再透過下圖（Figure 4）中第二階段的Oracle Big Oracle Big Data Appliance是Oracle對於巨量資料所提出的解決辦法，它以Cloudera為. ‧ 國. 學. Data Connectors連結Oracle Exadata Database Machine資料庫並以此做為資料倉儲儲存萃取完後的資料， Oracle Business Intelligence從前者獲取資料來源進行商業智慧的分析與. ‧. 應用[19][20]。. Nat. n. al. er. io. sit. y. Oracle Big Data Appliance. Ch. engchi. i n U. v. Figure 4. Oracle的巨量資料解決辦法[20] 從上述可發現其解決的要點有：1. 在舊有的商業智慧系統架構，用戶能採用類似升級的方式納入原本既有的Oracle系統，提供靈活性給予使用者。其整合進新的功能，此一功能將持續的載入巨量的資料，並且先行處理萃取資料，留下符合該使用者需求的資訊；2. 資料倉儲的部分改用可提供大量平行運算的架構，提供可快速處理巨量資料的能力，用以進行建立資料立方體。. 6.

(16) 2.. SAP HANA SAP提出的是新的服務平台- HANA，其系統架構如下圖所示（Figure 5），運用Amazon. Web Services (AWS) 作為SAP HANA雲端運算的開發測試環境，並使用記憶體運算引擎（in-memory computing engine）作為處理核心，兼具了資料庫與處理計算的能力，讓系統能在記憶體中執行即時且大量的資料處理，而面對持續增加的巨量數據，亦能在交易進行中的狀態下，將營運過程中產生的新數據，擷取至記憶體中，並根據不斷變化的大量資料，即時分析業務營運狀況，能提供如此快速的處理及分析是因為，其採用的記憶體運算引擎能將資料存放在記憶體中以加快處理的速度，如同Figure5所示處理運算能力和儲存能力位於同一台伺服器中，防止了與儲存設備的I/O資料交換可能受限於磁碟機的機械運作所花費的時間，並且排除了可能發生的網路傳輸問題，並將結果直接回傳給. 政治大 Language（SQL）語法查詢結構化資料，也可運用Multi-Dimensional Expressions（MDX）立最終的處理核心。HANA提供原生的文本（text）搜尋功能，包含可以透過Structured Query. 進行線上分析處理的查詢[22]。. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 5. HANA系統架構[22] SAP所採取的是與分散式運算不同的解決辦法，採取記憶體運算的模式試圖解決巨量資料的問題，增加記憶體的容量，而不是增建儲存空間，如此可以讓企業在使用舊有的商業智慧系統時，可以透過增建的方式解決巨量資料的困擾，而不影響舊有的系統。. 7.

(17) 3.. QlikTech Qlikview QlikTech推出QVSource處理巨量資料，QVSource是一網路服務，內部分成兩部分. QVSource Core 和Connectors，前者負責管理建立後的各連接器，後者可以透過建立各式的連接器連接各別的web APIs，獲取其網頁的內容並儲存成其資料來源，另一方面 Connectors也可以連接非結構化資料庫，例如：MongoDB、Hbase等，因此使用者可將原本無法分析的各式檔案類型內資料，例如： PDF、XBRL、HTML、文本文件、機器數據以及其他許多非關係型數據源儲存在非結構化資料庫內，透過連接器萃取這些資料並建置模型，再透過Qlikview的分析報表和儀錶盤等工具做資料的分析，原本看似無法使用的另外80%資料以及巨量資料，將成為最豐富的金礦。其系統架構如下圖所示（Figure 6）[21]。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 6. Qlikview系統架構資料來源：Qlikview官方網站 (http://www.qlikview.com/us/explore/products/big-data) QlikTech採取了在不影響現有的商業智慧系統的架構上，開闢新的資料來源，透過 Connectors建立與企業有關的網站連結，透過語意分析進行持續性的資料蒐集，並藉由非關聯性資料庫儲存這些雜亂的資料。此外，透過聯合式記憶體緩衝型資料庫引擎，重寫了記憶體緩衝型資料庫引擎（In-Memory)，通過高效率的資料庫靜態預先分包緩衝的技術，最大可能的減少了傳統基於記憶體和硬碟讀寫的處理大資料方式帶來的對系統資源的耗費。 8.

(18) 第二節. 巨量資料. 在2001年，Gartner公司發表的一篇文章定義資料增長的挑戰和機遇是三維度的，分別為資料增加量（Volume），資料輸入和輸出速度（Velocity），資料類型和來源（Variety） [9]，如同下圖（Figure 7）所示。 . Volume：根據 MC 公司發表其贊助的 IDC 數位世界研究（Digital Universe）所發表的文章《從混沌中發掘價值》，文中指出，資料量以每兩年超過兩倍的速度在成長， 2011 年產生與複製的資料量將達到 1.8 Zetta Bytes，成長速度超越摩爾定律[12]。. . Velocity：資訊的分析通常具有時效性，資料一旦串流到運算伺服器就須立即進行分析，即時分析的結果才能發揮資料的最大價值。. . 政治大此往往許多資料是無法用來進行分析，僅作儲存之用；另外於近年來崛起的社群網立 Variety：企業於業務執行中產生的資料是包羅萬象，其格式不完全是統一類型，因. 路，包含臉書、推特等，這些社群網路上的所發布的影音、照片等訊息；此外，包. ‧ 國. 學. 含ＧＰＳ、感應器、監視器等各種設備所產生的資料，這些各式的來源包含各類非結構化的資料：諸如音訊、視訊、點擊串流、日誌檔等等。. ‧. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v.  Figure 7. 巨量資料3Vs範例[9] “3Vs”開始廣為受大眾用來描述巨量資料之後，這幾年開始出現第4個V用以描述巨量資料，但是尚未有準確的定調，但是都是對於巨量資料的質量產生疑問，IBM提出關於巨量資料的可信度（Veracity）[4]，根據他們的調查，有三成的企業家因為資料來源過於複雜，若資料本身就是有問題的，分析後的結果也不會正確，因而導致決策者不敢 9.

(19) 使用該分析結果輔助決策；也有一些人將這個議題的問題歸為資料的差異量（Variability ），資料雜異性過高會導致分析出的數據可信任度低。總而言之，雖然說法有很多種，但都是質疑資料本身的可靠度、品質是否足夠，如何建立可信任的真實性，將是使用巨量資料做為分析數據首先需要克服的問題。目前對於巨量資料的使用範圍從專業科學到娛樂遊戲皆在使用，各類型產業都擁有大量的資料，無法再用以往方法處理。例如：在大型強子對撞機的實驗中，150萬個感應器可以每秒提供４０萬次的資料，每秒強子之間的碰撞更是高達600萬次，這些分析資料若是儲存到資料庫中，總容量一天可以高達 500 quintillion(5×1020) bytes，透過巨量資料分析能快速的取得分析結果；遊戲Candy Crush，其開發商King.com面對從遊戲中得. 治政的資料，King.com也藉由這些巨量資料進行玩家的游戲行為分析，優化其遊戲內容，讓大立玩家持續保有對遊戲的興趣，使玩家有想要玩下去的動力；醫療產業由於引進越來越多. 到的資料日益增加，包括：游戲遊玩模式或是游戲用戶互動資訊等非結構化和半結構化. ‧ 國. 學. 的高科技儀器輔助，大量的非結構化數據因此產生，例如：由感測器、量測與其他設備讀取的資料。這些資料不單是文字及數字等「結構性資料」，也包含了照片、影像，還. ‧. 有座標、聲音、心電圖、X光片等非結構資料，這些資料對於促進醫療有極大的助益，. sit. y. Nat. 但是已經超過以往人力及關聯式資料庫所能處理的數量。因此，台灣行政院衛生署與. io. er. 台灣微軟合力打造健康雲，IBM所開發的醫療輔助用Watson機器人其內在就是分析前述醫療儀器所產生的巨量資料，提供分析報告協助醫生聽診，減少醫生誤判的情況發生. al. n. [15]。. Ch. engchi. i n U. v. 對於傳統的商業智慧而言，資料來自於企業內部及藉由提供網路服務取得之資料，透過資料萃取，建立分析模型，在經由儀表板呈現。然而，有效用的企業資料大約僅有２０％，其餘８０％的資料若是要使用，必須花費龐大的成本，所得效益也並不見得更好。IBM對此提出一新的模型概念(Figure 8)，藉由導入龐大的巨量資料，提升資訊的可信度，其花費成本小於挖掘前述所說雜亂的80%資料，但所得到的效益卻可與之相比。 IBM設計可持續性抓取這些複雜且大量的巨量資料的平台InfoSphere BigInsights，此平台以Apache Hadoop為核心並加入IBM自行開發的程式，提供使用者新的資料來源，增強現有的分析基礎架構平台，通過動態的蒐集資料以及靜態的過濾和分析，將結果存儲在原有的關聯式資料庫或資料倉儲內[4]。 10.

(20) Figure 8. IBM對應巨量資料所提出新的生態系統[4]. 治政大器學習、圖形識別、回歸及視覺化等，使用多種技術才能分析多樣化的巨量資料，並透立過並行分散式運算、分散式架構資料庫處理龐大的資料量，加快分析處理速度[17]。例目前巨量資料相關的技術，包含：關聯式規則、分類、模糊理論、基因演算法、機. ‧ 國. 學. 如工研院的研究項目－視訊分析技術，隨著視訊監控前端攝影機走向數位化與網路化，過去類比攝影機無法使用的軟體加值功能現在皆可實現。然而這些大量的非結構化的資. ‧. 料除了必須透過雲端運算、非結構化資料庫之外，還需相關的模糊理論、圖形影音識別. y. sit. io. n. al. er. 偵測等智慧分析。. Nat. 等技術支援，能應用在舉凡入侵偵測、物件辨識、車牌/車色辨識、交通流量、異常事件. i n U. v. 因此，需要使用哪些額外的巨量資料，決策者試圖從巨量分析中獲取什麼訊息，採. Ch. engchi. 用能提供最大價值且可信度高的額外資料，該資料檔案需要使用何種相關的技術進行分析，必須得在事前做好決定，如同商業智慧的運作流程，必須有事前的規劃，分析的成果才能事半功倍，盲目的加入大量的資料與技術，只會花費額外的成本而得不到想要的成果。成功關鍵是掌握運用新技能與新概念，不遺漏、不輕視、不盲從才能成功引進巨量資料，達成預設目標。. 11.

(21) 第三節. 雲端運算. 目前世界排名前五位的軟體企業其銷售收入有很大一部分來自提供雲上的服務，據國際數據資訊公司（IDC）的分析，整體的市場將會在 2015 年躍增為 729 億美元。雲端運算嚴格說起來不是一全新的技術，它是一種新的概念，讓運算資源、儲存資源、網路資源、網路頻寬，能夠和水電一樣，隨取即用，依使用量而付費。運算資源、存放資料的方式，將會更彈性化、隨取即用、無所不在的與終端設備連接起來。如同前述，雲端運算不是全新的技術，在 1959年6月，Christopher Strachey 就己經發表虛擬化論文， 1961年，電腦運算能力如同水電可以隨取即用的概念由 John McCarthy，雲端運算的第一個學術定義在 1997年由南加州大學教授Ramnath K. Chellappa 提出，1999年第一個商業化的IaaS（虛擬主機）平台由 Marc Andreessen創建LoudCloud 所提供的服務。Google. 政治大. 在 2004年發表了 MapReduce論文，同年 Doug Cutting 和 Mike Cafarella 依照 Google 公開. 立. 的MapReduce 展開了 Hadoop 計畫。Hadoop主要由HDFS、MapReduce和Hbase組成，而. ‧ 國. 學. Hadoop HDFS 是對應到 Google File System（GFS）分散式檔案系統 ; MapReduce對應到 Google MapReduce；HBase對應到Google BigTable。自此Hadoop成為Yahoo、學術界廣. ‧. 泛使用之雲端運算平台。2006年，Amazon相繼推出線上存儲服務S3和動態運算雲端EC2. y. Nat. 等雲端服務。2008年1月，Salesforce.com推出了DevForce，Force.com平台是世界上第一. io. sit. 個平台即服務（PaaS）的應用。2008年4月，Google App Engine發布。2010年，台灣行. n. al. er. 政院正式推動雲端運算產業發展方案，將雲端運算列為國家重要科技政策。隨著高速與. i n U. v. 網路的持續發展，加上無所不在的行動裝置，雲端運算必然改變人們以後使用電腦的方式。[38] 一、. Ch. engchi. Hadoop. 由Apache所研發的開放原始碼的並行運算編程工具和分散式檔案系統，根據Google 公司發表的MapReduce和BigTable的論文，自行實作而成。這套系統是設計來解決巨量資料的問題，透過大規模的並行分散式運算系統處理龐大的資料集，因為其將資料重複的儲存在不同的機器上，所以成為了分散式的檔案架構，讓並行運算可以跨叢集於不同的機器上同時運算處理，大幅降低處理龐大資料所花的時間。[4][5]. 12.

(22) 1.. 分散式檔案系統（Hadoop Distributed File System）其為非結構化資料庫系統，因此可以做為巨量資料的儲存端，同時為了解決處理資. 料的速度問題，Hadoop提出資料在地化的概念，當使用眾多伺服器幫忙處理運算時，最快的方法就是能直接在當台伺服器內取得資料，如此可以取得最好的處理效能。透過這個基本的概念，Apache研發的分散式檔案系統可以儲存巨量資料且易於擴充，並且能運. 立. 政治大. n. er. io. al. sit. y. ‧. ‧ 國. 學. Nat. Figure 9. 分散式檔案系統架構. i n U. v. 資料來源：http://hadoop.apache.org/. Ch. engchi. 作於便宜的普通硬體上，容錯性高，提供客戶總體性能較高的服務，其架構如上圖（Figure 9）所示。儲存於其中的資料被切割成許多小塊，並存至叢集內的不同機器裡，同時會複製到整個叢集中的多台機器裡。如下圖（Figure 10）所示，每個資料塊（Block_N）會複製兩個額外的資料塊到另兩個伺服器（Block_N' 和Block_N"），這兩塊複製資料被儲存在不同的節點受到額外的保護。重複儲存的特性讓Hadoop可以切割細分工作（程式運算或是資料分析），在同一時間透過叢集內所有的伺服器一起執行，如此便可以以加速處理的速度。為了便於管理與檢索，透過master與slave 的結構，HDFS 叢集有兩種節點，即一個NameNode（名稱節點)和多個DataNode(資料節點)，名稱節點是用來管理這些複製至各處的資料塊，其類似一本電話簿，保留了全部資料（包括複製的資料塊）的所有地址，讓Hadoop知道分工給哪台伺服器可以最有效率。[4][5] 13.

(23) 政治大. 立. ‧ 國. 學 ‧. 並行分散式運算（MapReduce）. y. Nat. 2.. Figure 10.資料塊儲存範例[4]. io. sit. 並行分散式運算是Hadoop的核心，是一種用於資料處理的編程模型，讓叢集內的數. n. al. er. 百甚至數千台伺服器做龐大規模的同時運算。透過Map和Reduce兩個工作，首先會將要. i n U. v. 處理的資料依使用者的設定分割成16~64MB大小，接著透過主要的節點伺服器master分. Ch. engchi. 發多個Map和Reduce的任務給空閒的slave伺服器執行。運行Map任務的伺服器會將處理完的資料暫存於緩衝記憶體內，負責Reduce任務的伺服器則依照Master伺服器的通知去緩衝區取出資料進行任務－將處理完的資料進行合併。每台伺服器在並行分散式運算時，會周期性的把工作的完成度和狀態的更新報告回報給主伺服器，確保當其中一台伺服器出問題時，能將其工作分配給另一台伺服器。[4] [5]其運作狀態如下圖（Figure 11）所示。. 14.

(24) Figure 11. 並行分散式運算運作流程[4] 3.. Hadoop HBase. 立. 政治大. HBase 是在Apache Hadoop的平台上提供了可擴展的結構化資料的分散式存儲系統，. ‧ 國. 學. 以Google的BigTable為基礎，依託HDFS 作為存放裝置的基本單元，通過使用Hadoop 的 DFS 工具可以查看這些資料及其存儲結構，還可以通過MapReduce 對HBase 進行操作，. ‧. 比起原生的HDFS更可提供開發者或使用者更為直觀的資料存取介面，讓資料能更有效. sit. y. Nat. 率的儲存及運用，並且能提供對於巨量資料隨機、即時的讀寫存取功能，目前已經是. io. er. Apache眾多開放原始碼項目中的一個大型專案。. al. v i n C h Family都可以根據“限定詞”擁有多個column；統啟動之前預先定義好的，每一個Column engchi U n. 在HBase裡面有兩個主要的概念，Row key和Column Family， Column family是在系. Row key可視為RDBMS中的Primary key，但是因為HBase不支持SQL語法，因此只能夠過Row key進行查詢。另外透過Time Stamp是資料操作對應關聯的時間戳記，可以看作類似於版本資訊，用於管理資料庫的新舊資料。其基本的儲存結構如下表（Table 1）所示： Table 1Hbase邏輯數據模型[5] RowKey. “nccu.edu.forum”. Column Time Column Column “anchor:” “mime:” Stamp “content:” T3 “<html>…” “anchor:mis.nccu.com” “Forum” “text/html” T2. “<html>…”. “text/css”. T1. “<html>…”. “image/gif” 15.

(25) 透過欄位導向（column-oriented）的儲存機制，HBase將可以實現高性能的分散式讀寫操作的優點，欄位導向的資料庫中，資料表的每列單獨存放，因此查詢時只涉及到被查詢的列，如此就可以大量降低系統I/O。類似於Hadoop的Master-Slave模式，HBase 中僅只有一個Master伺服器，負責管理所有的HBase Region Server， Master本身並不存儲HBase 中的任何資料，而是將資料儲存在不同的Region Server，因此當儲存空間不足時，只需加裝新Region Server 即可完成。此外，HBase 邏輯上的資料表將被切分成多塊資料（splits），不同的split會被Master分配给相對應的Region Server進行管理。如同下圖（Figure 12）所示。. 立. 政治大. ‧. ‧ 國. 學. n. er. io. sit. y. Nat. al. Ch. engchi. i n U. v. Figure 12 HBase 邏輯資料表與儲存對照圖[5] HBase為巨量資料的即時處理需求提供了一個開源的解決方案。它一方面使用HDFS 的高可靠性和可伸縮性的儲存功能，同時借鑒了GoogleBigTable的高效資料組織形式，並且提供了一個類似於MySQL關聯式資料庫的shell操作介面，可對HBase內的相關資料表和family進行新增、刪除及查詢等功能，亦可通過API，以程式的方式連結使用HBase 存儲的資料。 16.

(26) 第四節. 行動應用. 近年來全球智慧型手機出貨量大幅提升與無線網際網路的興起打破了時間與空間的限制進而促成了行動電子商務。根據資訊工業策進會創新應用服務研究所FIND團隊結合Mobile First的最新調查結果，台灣持有智慧型手機或平板電腦的族群約有1330萬人 [43]；預估到2015年，台灣智慧型手機普及率將達56.8%，平板電腦普及率也將達到24%。從數據上來看，很明顯的是，行動裝置的普及率會越來越高，對於未來可能至少人手一台行動裝置。一、. 行動應用辦公室. “bring your own device (BYOD)”，行動應用辦公室成為了一個新興名詞，包括思科、. 政治大做過一次有關企業行動化的問卷調查，其中關於企業行動化所帶來的所有效益中，有立. 趨勢 …等多家企業已經開始在為此研發相對應的技術及安全措施。CIO Insight雜誌曾經. ‧ 國. 學. 50%的IT主管認為是可以做更有效率地資料擷取與分析，而不受地點的限制[6]。而根據另外一項調查顯示，使用者使用商業智慧軟體時，有8成以上的人喜歡透過. ‧. E-mail接收商業智慧所分析出的資訊結果[1]，這顯示出使用者對於即時性和方便性的需. y. Nat. 求，唯有第一時間收到資訊才能更快的做出決策。因此，除了往昔的電子郵件，現在多. io. sit. 了一可行的資料產出媒介－智慧型手機。行動裝置的來臨使得人手一台智慧型手機或是. n. al. er. 平板電腦，上段有提及的“bring your own device” ，則是開啟了讓行動裝置進入企業內部. i n U. v. 的議題，透過行動裝置做為媒介，企業的主管能更快的即時的了解關鍵績效指標以及各. Ch. engchi. 種資訊供己身作為決策的輔助，因此將行動裝置與商業智慧做一結合，更是時勢所趨。思科針對600位美國IT人員與企業負責人進行調查(2012)發現超過四分之三 (76%) 的受訪 IT 主管認為：BYOD 雖然給 IT 部門帶來了巨大挑戰，但是對他們的公司卻產生了比較積極甚至是非常積極的影響。在目前對於商業智慧軟體而言提供以下方式有兩種： (1) 以行動網頁為呈現方式：透過將商業智會工具分析完成的資訊，保存在伺服器中，行動裝置做為一個客戶端的方是經由網頁的方式存取儲存在伺服器上面的資訊。 (2) 以行動應用程式來呈現：這方式又分為兩種，一種是類似於第一種方式，但是將介面的呈現透過APP包裝，界面呈現更適合用於手機呈現，使用者能較為直觀的看到. 17.

(27) 分析出來的結果；另外則是，製作APP版的商業智慧軟體，透過連接後端的資料倉儲，使用者可以做簡易的分析，呈現想要的儀表板。根據(Aberdeen Group, 2010)調查指出目前行動裝置與商業智慧軟體的結合，行動網頁為主流，但是在詢問高階主管之後，有一半以上的企業表示行動應用程式將會是未來的主要發展方向。[1] 二、. 混合型應用程式（Hybrid APP）. 為了能夠在iPhone或Android上推出自己的軟體，開發人員就必須得花上不少時間先學會這兩個平台上的相關開發技術，讓許多網頁開發者遲遲無法跨入這個領域。因此為了解決這問題，出現有別於行動網頁（Web APP）和原生應用程式（Native APP）的開. 政治大. 發型態混合型應用程式，幾個 Wrapper 開發工具便應運而生。這些開發工具可以幫忙把. 立. 行動網頁打包成iPhone/Android 原生應用程式，也就是說，開發者可以延續過去的網頁. 透過下表（Table 2）可以清楚表示三者的優缺點。. Hybrid APP. HTML5, CSS, JS. HTML5, CSS, JS, JS API 普通. 離線能力. 無. sit. er. a普通 l強C h. n. 跨平台能力. io. 使用者經驗. Native APP. y. Web APP. Nat. 技術. Table 2. 行動應用程式開發模式比較. ‧. ‧ 國. 學. 開發經驗，統一使用 JavaScript 撰寫應用程式，而不需要重新學習其他語言與開發平台。. 強. i e n g c h有. i n U. v. Java, Obj-C, Native API 有經驗為佳無有. 整合性與功能. 弱. 普通. 佳. 學習門檻. 低. 低. 高. 上架賣錢. 否. 可. 可. 資料來源：本研究整理 PhoneGap是目前混合型應用程式開發平台中使用人數最多的，其將移動設備本身提供的複雜的API進行了抽象和簡化，提供了一系列豐富的API供開發者調用，只要會使用 HTML5和JavaScript語言，就可以利用PhoneGap提供的API去調用各種功能，製作出在各種手機平台上運行的應用。PhoneGap的架構很複雜，但對於大多數開發者來說，並不需要了解phonegap內部架構，只需按照官網提供的步驟，設定好開發環境，平台就會在使 18.

(28) 用者部署完成的程式時，自動處理複雜的跨平台轉換問題；其缺點會在程式載入和UI 界面反應會比原生應用程式（Native App）慢。三、. Google Cloud Messaging（GCM）[14]. GCM是由Google開發用於傳遞資料從伺服器到手持裝置的免費服務，透過背景提示訊息通知手持裝置的使用者有新的檔案產生，或是能傳遞不超過4kb大小的資料給該裝置上的應用程式接收。以下將簡述其特性： (1). 允許使用第三方應用伺服器，傳遞訊息至 Android 應用程式. (2). 此套服務使用推播（Push）的方式傳遞訊息，手持裝置上的應用程式不必保持著啟動狀態，減低手持裝置的負擔，透過 Android 系統中的 Broadcast Receiver 發送. 政治大. 至對應且准許該權限的應用程式，並啟動該程式. 立. 透過服務產生的 ID 與 token 的使用確保任一方有權限，將訊息或是資料發送至正. (4). 學. 確的裝置。. ‧ 國. (3). 與過往的 Cloud To Device Message（C2DM）相比，GCM 能支援一對多及多對一. ‧. 的傳送方式，單一伺服器可以透過各使用者註冊的 ID 發送至 1000 多台以上的手持裝置；透過相同的註冊 ID，多方伺服器可以發送訊息至裝有同一台手持裝置。. sit. y. Nat. io. er. GCM通過客戶端手持裝置上的應用程式、第三方應用伺服器及Google的GCM伺服器建立整個架構，並透過認證機制維持其運作，整體運作機制流程透過下圖Figure 13分. al. n. 述之：. Ch. engchi. i n U. Figure 13GCM架構與流程資料來源：本研究整理 19. v.

(29) (1). 使用者透過註冊 Google API Project 獲得 sender ID 並至 GCM 服務伺服器註冊該 ID. (2). GCM 當註冊成功後，回傳 Reg ID 給使用者，此 ID 是用來媒合各方伺服器與手持裝置，使訊息能正確傳送至對的地方使用者須向第三方伺服器註冊上一步驟取得之 Reg ID，該伺服器需有註冊及反註. (3). 冊之應用服務第三方伺服器將訊息、發送目的地（Reg ID）及 Google API KEY 傳送至 GCM 伺. (4). 服器 GCM 伺服器確認過後，將存儲該訊息於伺服器內，最長可達４周，之後即會安排. (5). 發送該訊息至註冊該 Reg ID 的手持裝置. 第五節. 立. 全民健保資料庫. 政治大. ‧ 國. 學. 全民健保制度的實施，使健保局累積了大量的醫療申報資料，自民國86年開辦以來，包含2千多萬名被保險對象、700多家醫療院所及其他相關之醫療資源利用情形，健保局. ‧. 每年處理約之申報件數在100年時已經增加至每年3億7千5佰萬件[26]，傳統的關聯式資料庫已無法負荷每年龐大的資料數量，在面對如此龐大的資料時，執行的效率就變成一. er. io. sit. y. Nat. 個很重要的議題。. 為了促進健保相關研究，中央健保局自2000年起，委託國家衛生研究院發行全民健. al. n. v i n 保資料庫，希望透過健保資料的發行，累積實證基礎，進而帶動健保政策的深入討論。 Ch engchi U 全民健康保險資料庫擁有完整的醫事機構、醫事人員、重大傷病證明、門診醫令、住院費用、藥局處方等珍貴的醫療資料[26]，能用在分析醫療資源重複利用情形、地區特約醫事機構的申報情況及特殊疾病病患的關聯，對於醫院的經營管理者、從事醫療的工作人員、公共衛生界的研究人員、健保局本身以及其它保險研究人員，都是非常具有價值的資料。茲以下列二類相關研究舉例說明商業智慧應用於醫療資訊之概況：一、. 醫事機構相關之研究. 人民向全民健保局繳交健保費，醫事機構向健保局申請健保費用，對於這些醫事機構，健保資料庫中存有醫事機構病床主檔（BED）、醫事機構基本資料檔（HOSB）、醫事機構副檔資料檔（HOSX）、醫事人員基本資料檔（PER）及門診費用申請總表主 20.

(30) 檔（CT）等資料，這些資料對於研究台灣醫事機構的資源分配情形有很大的幫助。謝天渝等人（2002）應用「醫事機構管理」與「門診申報費用」兩個資料檔，利用描述性統計、回歸分析及Gini係數等方式做評估，探討高屏地區的牙醫師人力及醫療照護費用的分布情況，結果發現全民健保的實施並不能達成醫療資源的普及，醫師人力及資源仍然集中於高密度區，原本期許能用以改善分配不均的問題，而實施的總額支付制度看來成效不彰[45]。陳憲煜（2013）應用「醫事機構基本資料檔」及「醫事人員基本資料檔」，透過商業智慧軟體從醫院等級、醫院類型、所屬縣市三種角度來分析每家醫事機構的醫務人力及離職情況，其結果發現「地區醫院」、「慢性醫院」及「台南市」的醫務人員流動性最高，這將可提供衛生署或是經營管理者進行探討因果關係，改善高離職率，提升民眾就醫的品質[37]。. 治政二、特殊疾病與病患之相關研究大立資料探勘應用於醫學領域中已行之有年，將大量的病歷資料進行數據分析，能提供 ‧ 國. 學. 資訊輔助醫師或是相關研究人員找尋該疾病病患的關聯性，其研究結果可輔助分析疾病危險因子，屬於預防性醫學一環，全民健保資料庫提供的特殊疾病病患基本檔，模糊處. ‧. 理大部分的資料，僅提供研究者病患的出生年及所屬縣市的資料。王綺嫻（2006）應用. sit. y. Nat. 健保資料庫研究痤瘡患者，以關聯法則進行運算與比對，找尋各年齡痤瘡病患常出現的. io. er. 共患病症種類與組合，期許能降低因疾病的複雜度而產生的高醫療資源消耗[29]。林信成（2009）應用健保資料庫探討懷孕期婦女使用抗憂鬱藥對胎兒之影響，先藉由比對串. n. al. Ch. i n U. v. 連各資料檔，篩選使用抗憂鬱藥的懷孕婦女，將前者與未用藥之懷孕婦女進行對比，藉. engchi. 由新生兒健康指標來進行比較，結果發現服用抗憂鬱藥的婦女分娩之胎兒較為不健康。綜上可知，全民健保資料庫在醫療研究分析上有極大的幫助，若是靈活運用全民健康保險資料與其他相關資料庫中所儲存的巨量資料，例如：台灣地理區域、醫事機構概況、全台人口結構及分布等，再透過商業智慧之線上分析處理與多維度分析功能，能發掘更多的資訊，例如：流行性疾病的分佈、醫院專屬區域性、人口性相關之醫療服務產品等，如此將能強化政府機關於發展醫療建設、流行性疾病的控管與醫療資源的分配的準確性以避免醫療資源的浪費[30]。. 21.

(31) 第六節. 健保申報費用審查流程. 全民健保的永續經營主要是建立在健保財務能否收支平衡，全民健保除1995年開辦就小有虧損，1998年開始收支便出現逆差，各界對於健保財務危機產生恐慌，健保資源浪費的議題被提上檯面，因此實施醫療服務審查有其必要性，審查健保申報費用有其行為的必需性、恰當性，有助於提升醫療照顧品質、調合醫療資源使用度和改善醫療品質管理[40]。一、. 現行審查流程. 健保醫療費用案件審查流程如Figure 14，門診組承辦人員於受理醫療院所申報案件後，先以人力依照行政審查事項進行初步行政審查，若發現違反健保相關法規，承辦人. 政治大經由電腦進行第二次的行政規則與申報資料正確性檢查，若發現錯誤時承辦人員將函請立員將予以核減。完成初步行政審查後，承辦人員進行轉檔工作，此時大量的申報資料再. ‧ 國. 學. 院所補正資料，並且該案件不參與抽樣作業[28]，之後經由電腦隨機抽樣後，依抽選之案件交由相關專業審查人員審查其醫療服務的必要性及合理性。此外，尚有民眾檢舉、. ‧. 投保單位經辦人檢舉、專案稽查及繳回之健保卡發現異常等其他發現異常申報費用的途徑，但是以上作法可能成效並不顯著，根據林虹榕 (2008)的統計，2003年至2007年間，. Nat. sit. y. 全國19682家醫療院所中，共有238件案件進入司法偵查程序，亦即平均有1.21%之醫療. er. io. 院所因健保詐欺案件進入偵查[31]，但根據美國聯邦調查局 (FBI) 2009年會計年報所估. al. v i n Ch 法人力與電腦抽樣審查無法盡全功，依然有許多非法的申報費用躲過審查獲得核發健保 engchi U n. 計的詐欺約占3%到10%的健康保險總預算的經驗來看[13]，從結果來看健保局的現行做. 費用。. 22.

(32) 政治大. 立. sit. 資料來源： (中央健康保險局). n. al. er. io. 二、. y. ‧. ‧ 國. 學. Nat. Figure 14健保醫療費用審查流程. Ch. 智慧型健保費用異常審查. engchi. i n U. v. 健保審查主要是為了取締浮報、虛報及詐欺等申報費用，使醫療資源能有效利用及確保全民健保財務的收支平衡，達到永續經營的成，因此如何提升審查成效將是一大問題。楊喻翔（2012）提出運用Benford定律檢測各醫事機構每月申報的健保費用，根據該研究結果指出，異常的健保申報費用其第一位數字符合Benford定律的數字分析，經過卡方檢定、Cramer’s V統計值判斷法，其敏感度均得到很好的效果，雖然此審查方式會將正常的醫事機構誤認為可疑的，但是就目的來說，其敏感度透過通用迴歸類神經網路 (General Regression Neural Network, GRNN) 或是 Elman 反饋式類神經網路 (Elman Recurrent Neural Network, ERNN)皆高達85%以上，可見此一審查方法對於篩選有問題的申報費用是有用處的。. 23.

(33) 第三章研究方法第一節. 研究架構與設計. 系統建構與展示是資管研究中常用的方法，研究者藉由建構雛型系統（Prototype）來驗證構想及可行性與正確性[35]。本研究計畫建構新的商業智慧運作模型，透過雲端資料庫及行動應用配合商業智慧軟體建立雛型系統。使用1999至2003年共5年的醫事機構基本檔並串連健保費用檔做為案例，測試整體系統，案例沿用楊喻翔（2012）[41]設計的智慧型健保費用異常偵測架構，從大量的資料中篩選異常健保申報資料，並針對不同的行政區、醫院特約類別、型. 政治大. 態類別進行分析，主要系統開發與研究步驟如下：. 立. (1) 經由雲端運算首先篩選異常申報資料，並串聯醫事機構基本檔. ‧ 國. 學. (2) 透過串流（stream）獲取全國醫事機構資料. (3) 使用商業智慧中的地圖報表並結合前一步驟獲取之開放資料，針對健保異常申報資. ‧. 料進行分析. y. Nat. io. sit. (4) 透過行裝裝置提醒使用者已有分析結果。. n. al. er. 依現行健保審查流程關於門診的一般案件，門診組承辦人員於受理醫療院所申報案. i n U. v. 件後，依行政審查事項，進行初步行政審查，若發現違反健保相關法規，承辦人員將予. Ch. engchi. 以核減。完成初步行政審查後經由電腦抽樣作業，後續交由各審查人員進行審查作業 [27][28]。本研究將針對過往審查流程（Figure 15）中的第二個步驟，進行流程改進，過往透過隨機亂數抽樣，導致無法查找出全部的有異常申報費用的醫院，藉由商業智慧分析過往的違規案例，找尋違規醫事機構的關聯性，針對可能違規的醫事機構類型加配人手進行調查，以下分述之：. 承辦人員審查. 電腦審查/抽樣 Figure 15 簡化的健保審查流程資來來源：本研究整理 24. 專業審查.

(34) 一、. 可疑健保申報費用篩選：. 醫事機構每月向健保局提交申報費用，健保局將初步審查後的資料匯入資料庫中，透過智慧型健保費用異常偵測架構（楊喻翔2012）[41]，如具有可疑性，將於該醫事機構基本檔(HOSB)中的特約狀況碼欄位加註（現行的特約狀況碼編寫至Ｂ，本研究將新增Ｃ以代表可疑醫事機構）。當分析的對象是過往被核實違規”的醫事機構時，篩選違規代碼為"2"的資料；分析對象是上個月提報的申報費用時，篩選違規代碼為"C"的資料。二、. 可疑資料分析：. 商業智慧系統取得資料來源後，建置資料模型。共建置１個cube，以及５個Dimension （維度），分列如下：. 立. (1) Cube：醫事機構. 政治大. ‧ 國. 學. (2) 共用維度：日期、行政區、特約類別、型態別、評鑑等級。. 全民健保實施以來，因為醫療費用的急速成長，造成財務上的入不敷出，我國因此. ‧. 改為實施總額預算（global budget）的支付制度，至此，由於資源上限的受到明確制定，. Nat. sit. y. 「醫療資源的分配」也相形變得重要，在隸屬於衛生署之下的全民健保費用協定委員會，. er. io. 簡稱費協會的會議協商後，中央健保局都有一個中央與地方的運作機制，將總額分為六. al. 區(台北市、台北、中部、南部、高屏、東部)來實施，由各區健保局負責協同相關保險. n. v i n Ch 人員各自採取控管方式進行監督審查[36]，各區因其監管方式不一成效也並不相同，例 engchi U 如：南區牙醫保險委員會於民國88年採用電腦輔助審查方式，減少人為的主觀影響，有效改善該區申報金額的爭議事件。因此，在配合現行的健保分區控管制度下，在維度分析中加入行政區此一維度能針對各區域可疑案件數量進行分析，了解是否為該區控管方式有不良之處，該區是否該改進其管理機制以減少可疑案件。設置“特約類別”與“評鑑等級＂做為分析維度的原因，緣由自各種規模的醫事機構在違反醫療專業規範的行為之不同，這在臺灣醫療體系中存在許久的行為，會因結構規模的差異，而導致違反專業規範的表現行為模式不大相同，其不同正好反應出他們在費用支付體系的結構位置以及面對支付體系所提供的誘因條件與其行為限制的差異，如醫學中心比較傾向於浮報醫療費用，因為醫學中心免審範圍較有彈性，使得醫學中心有足夠 25.

(35) 誘因來多做門診診療、濫開藥或濫做檢驗；而中小型醫院和開業診所因醫療價格受到費用支付標準表和免審範圍的嚴格控制，則容易傾向於從事詐欺的行為或提供不適當的治療[32]。因此就審查人員而言，各特約類別的可疑醫事機構也有不同的審查專注方向，在某一階級中，有過多的醫事機構發生可疑案件時，也可能代表是否是制度方面有漏洞。另一方面就經濟角度而言，醫療服務體系是一專業知識的買賣，然而買賣雙方卻是處於資訊不對等的情況，許多事項皆由醫生決定，病人在參與醫療過程無法得知真實訊息，因此容易形成供給誘發需求(Supply Induced Demand, SID)，而造成醫療資源的過度浪費。各種健保資料庫中，型態別將各醫事機構分類，例如：西醫分為一般診所、精神. 治政專業知識的深淺，給予醫師不同的操縱空間[44]。若醫師濫用此一優勢，則會產生醫療大立浪費與詐欺的行為，例如過量門診醫療、詐欺行為、用藥與檢驗浮濫、不必要的手術與科醫院、慢性醫院等、牙醫及中醫分為專科和一般診所等，不同等級的醫事機構對應到. ‧ 國. 學. 住院、濫收差額等[33]。因此“型態別”做為分析維度可告知使用者該可疑的醫事機構是何等級的專業類型，是否有需要制定相關法規規範降低買賣雙方的資訊的不對等情況。. ‧. 三、. 通知審查人員：. y. Nat. sit. 對於醫療院所異常或違規之行為，中央健保局本局設有違規查處任務小組並且各分. n. al. er. io. 局設有醫管查核課，負責查察違規案件，一旦查明具體的違規事實，健保局即依相關法. i n U. v. 律予以處份。由前述可知，每月健保申報資料經由中央健保局審查後，將可疑案件在交. Ch. engchi. 付各區進行實地審查，因此，當智慧型健保費用異常偵測完成，並且通過商業智慧軟體進行圖表分析後，於第一時間通知審查人員該月分析結果，該結果可得知醫院相關的資訊，輔助審查人員進行可疑醫事機構的專業查核。這一部分的服務流程為，當分析結果於伺服器端建立檔案後，伺服器將發送訊息給有安裝應用程式的 Android 裝置，相關步驟參考下圖Figure 16分述：. 26.