第五章、 研究結論與建議
3、 未來研究建議
針對本研究的問題與不足的部分,在未來的後續建議如下。
(1) 本研究目前已經整合的公有雲有 Google、Dropbox 和 Microsoft,後續可以 結合更多其他公有雲端服務,讓使用者可以有更多登入本系統的選項和方便 管理其雲端帳號的檔案之內容。
(2) 改善混合雲單一登入之平均花費時間,使用其他實現單一登入的技術(如:
SAML)
(3) 目前在同步伺服器的同步程式,在實作上是單一執行緒的同步程式設計模式,
後續將改以多執行緒的非同步設計模式,讓系統中使用者可以不必等待其他 人的同步工作完成,才能同步檔案、資料夾到雲端。
(4) 在本地端同步到伺服器端的檔案修改同步,客戶端應用程式是把使用者修改 後的完整檔案,重新進行上傳取代系統伺服器端上舊檔案。未來將研究 Dropbox 的檔案修改同步演算法,只同步檔案修改的部分而不是完整檔案,
以減少檔案資料傳輸和增加同步速度。
(5) 在檔案權限管理中,本系統檔案權限分為擁有者和有檔案存取網址的讀取者,
未來可以加入編輯者檔案權限,讓系統使用者可以協同編輯同一個檔案。
參考文獻
1. Amazon AWS, http://aws.amazon.com/.
2. Apache Hadoop, http://hadoop.apache.org/.
3. Dearman, David, and Jeffery S. Pierce. “It's on my other computer!: computing with multiple devices.” Proceedings of the SIGCHI Conference on Human factors in Computing Systems. ACM, 2008.
4. Dropbox, https://www.dropbox.com/.
5. Gartner, 2013, “Gartner Says Nearly Half of Large Enterprises Will Have Hybrid Cloud Deployments by the End of 2017.”,
http://www.gartner.com/newsroom/id/2599315.
6. Gartner, 2014, “Magic Quadrant for Enterprise File Synchronization and Sharing.”
7. Google Cloud Platform, https://cloud.google.com/.
8. IDC, 2013, “IDC's Outlook for Data Byte Density Across the Globe Has Big Implications for the Future.”,
http://www.idc.com/getdoc.jsp?containerId=prUS24398613.
9. IDC, 2014, “IDC Forecasts Public IT Cloud Services Spending Will Reach $127 billion in 2018 as the Market Enters a Critical Innovation Stage.”,
http://www.idc.com/getdoc.jsp?containerId=prUS25219014.
10. IDC, 2014, “IDC Reveals Cloud Predictions for 2015.”, http://www.idc.com/getdoc.jsp?containerId=prUS25350114.
11. IDC, 2014, “Redefining Enterprise Mobile Collaboration.”
12. Ingram Micro, 2015, “What Your Big Data Team Needs to Know About Software Defined Storage.”,
http://www.ingrammicroadvisor.com/big-data/what-your-big-data-team-needs-to-know-about-software-defined-storage.
13. Joe Arnold. OpenStack Swift - Using, Administering, and Developing for Swift Object Storage “O’Reilly Media, Inc.”, 2014.
14. Jones, M. Tim, “Cloud computing with Linux.”, 2012.
15. Microsoft, http://azure.microsoft.com/en-us/overview/what-is-azure/.
16. Nelson Nahum, “Software Defined Storage vs traditional SAN Storage from a storage vendor perspective.” Zadara Storage: Enterprise Storage as a Service, 2013;
https://www.zadarastorage.com/software-defined-storage-vs-traditional-san-stora ge-from-a-storage-vendor-perspective/.
17. OpenID, 2015, “What is OpenID?”,
http://openid.net/get-an-openid/what-is-openid/.
18. P. Mell and T. Grance, “The NIST Definition of Cloud Computing,” US Nat’l Inst.
of Science and Technology, 2011;
http://csrc.nist.gov/publications/nistpubs/800-145/SP800-145.pdf.
19. Rackspace, http://www.rackspace.com/.
20. Storage Networking Industry Association, 2009, “Cloud Storage Reference Model.”
21. Storage Networking Industry Association, 2010, “Cloud data management interface (CDMI).”
22. SwiftStack, https://swiftstack.com/.
23. Wu, Jiyi, et al. “Cloud storage as the infrastructure of cloud computing.”
Intelligent Computing and Cognitive Informatics (ICICCI), 2010 International Conference on. IEEE, 2010.
24. Wikipedia, 2015, “Cloud storage.”, http://en.wikipedia.org/wiki/Cloud_storage.
25. Wikipedia, 2015, “Software-defined storage”,
http://en.wikipedia.org/wiki/Software-defined_storage.
26. Xianqiang, Bao, et al. "Syncviews: Toward consistent user views in cloud-based file synchronization services." Chinagrid Conference (ChinaGrid), 2011 Sixth Annual. IEEE, 2011.
27. 韦小凤, “云存储技术优势及其发展趋势的探讨.” 科学时代 003, 2013.
28. 吴迪, “解析软件定义存储(SDS).” TechTarget 中国, 2013, http://www.searchstorage.com.cn/showcontent_74995.htm.
29. 波波编译, “大数据需要软件定义存储.” 网界网, 2014,
http://storage.cnw.com.cn/storage-Technology/htm2014/20140416_296307.shtml.
30. Peter Wood, “Implementing identity management security - an ethical hacker's view”, Network Security, 2005, Vol.2005(9), pp.12-15 [Peer Reviewed Journal]
31. Alberto Pace, “Identity Management”, Journal of Physics: Conference Series, 2008, Vol.119(1), p.012002 (10pp)
32. Sandhu, R.S. ; Samarati, P., “Authentication, access control, and audit”, ACM Computing Surveys (CSUR), March 1996, Vol.28(1), pp.241-243 [Peer Reviewed Journal]
33. Yuan Cao, Lin Yang, “A survey of Identity Management technology”, Information Theory and Information Security, Dec. 2010, pp.287-293 34. Chadwick, David W. Aldini, Alessandro ; Barthe, Gilles ; Gorrieri, Roberto,
“Federated Identity Management”, QA 76 Software, computer programming, 2009
35. Harry Katzan, Jr., "On the privacy of cloud computing." International Journal of Management & Information Systems (IJMIS), Vol.14(2), (2010)
36. Li, Hongwei, et al. "Identity-based authentication for cloud computing." Cloud
computing. Springer Berlin Heidelberg, 2009. 157-166.
37. Lin, Chen-Pu, Yung-Wei Kao, and Shyan-Ming Yuan. "A P2P blog system with OpenID integration." Convergence and Hybrid Information Technology, 2008.
ICCIT'08. Third International Conference on. Vol. 1. IEEE, 2008.
38. 翁雋傑(2012),混合雲之帳號與檔案內容權限管理與同步系統之實作,以
47. 雲端安全聯盟(Cloud Security Alliance, CSA) (2009)- Security Guidance for Critical Areas of Focus in Cloud Computing,取自
https://cloudsecurityalliance.org/csaguide.pdf
取自 http://www.itpromag.com/emc 研究顯示-it 人重視混合雲-13611
51. 尤淑芬、謝乙誠(2009),帳號整合實作,跨網站單一登入認證:選擇 UID 或 CA?取自 http://www.netadmin.com.tw/article_content.aspx?sn=0910050002 52. Identity API v2.0,取自 http://developer.openstack.org/api-ref-identity-v2.html 53. Identity API v3,取自 http://developer.openstack.org/api-ref-identity-v3.html 54. Using external authentication with Keystone,取自
http://docs.openstack.org/developer/keystone/external-auth.html 55. External Authentication with Keystone,取自
https://blog-nkinder.rhcloud.com/?p=130
56. OpenID Connect specifications(OpenID Connect Core 1.0),取自 http://openid.net/specs/openid-connect-core-1_0.html
57. Google OpenID Connect (OAuth 2.0 for Login),取自
https://developers.google.com/accounts/docs/OpenIDConnect 58. Facebook OpenID Connect,取自
https://developers.facebook.com/docs/facebook-login/manually-build-a-login-flo w/v2.2?locale=zh_TW
59. Amazon OpenID Connect,取自
https://images-na.ssl-images-amazon.com/images/G/01/lwa/dev/docs/website-dev eloper-guide._TTH_.pdf
60. Dropbox OpenID Connect,取自
https://www.dropbox.com/developers/core/docs#oa2-authorize 61. Microsoft OpenID Connect,取自
https://msdn.microsoft.com/zh-tw/library/dn631818.aspx#authcodegrant
科技部補助專題研究計畫出席國際學術會議心得報告
日期:104 年 8 月 31 日
計畫編號 MOST 103-2221-E-004 -014 –
計畫名稱 混合雲之用戶身份認證、檔案授權及權責~雲端運算資安與互通性之基 礎研究
出國人員
姓名 姜國輝 服務機構
及職稱 國立政治大學 副教授 會議時間 104 年 7 月 15 日至
104 年 7 月 17 日 會議地點 義大利 羅馬
會議名稱
(中文)
(英文)The 6
thInternational Conference on Mechanical and Aerospace Engineering (ICMAE 2015)
發表題目
(中文)
(英文) Development of Critical-Siphon Theory to Fastest Deadlock
Controller for Mechanical Flexible Manufacturing Systems and
Computer-Integrated Manufacturing
一、 參加會議經過
日期 工作內容 7/14
由台北出發經香港前往義大利羅馬 7/15 抵達羅馬並向 ICMAE2015 大會報到
7/16 參加 ICMAE2015 研討會及聆聽大會專題演講(Keynote Speeches)三場 7/17 參加 ICMAE2015 研討會及發表論文
此次本人參加的是 The 6th International Conference on Mechanical and Aerospace Engineering (ICMAE 2015),該研討會重點之一是雲端運算(含 In-Memory Computing)和巨量資料(Big Data)的機 器學習(Machine Learning)在作業管理(Operation Management)之應用。以下即綜合整理巨量資料和 機器學習智慧型演算法在雲端運算作法之心得以為記。
二、 與會心得
摘要
Benford’s Law 又稱第一位數法則,其概念為第一位數的值越小則該數字出現的頻率越大,反之相 反。該方法被應用於會計、金融、審計及經濟領域中。報告人前已將 Benford’s Law 相關指標應用於我 國全民健保上,並結合機器學習演算法來進行健保異常偵測。
Zaharia et al. 提出了一種具容錯的群集記憶內運算模式 Apache Spark,在相同的運算節點及資源 下,其資料運算效率及速度可勝出 Hadoop MapReduce 20 倍以上。
本報告將思考使用 Benford’s Law,使用相關巨量資料計算成為 Benford’s Law 指標和實務指標,並 運用支援向量機和邏輯斯迴歸來建構出異常查核模型。然而相關資料量龐大,為加快運算時間,本報 告建議使用 Apache Spark 做為運算環境,並以 Hadoop MapReduce 作為標竿,比較運算效率。
研究結果顯示,Spark 程式運算時間能較 MapReduce 快 2 倍;在分類模型上,支援向量機和邏輯 斯迴歸所進行的巨量資料測試,敏感度皆有 80%以上;而所進行的第一類資料測試,兩個模型的準確 率沒有第二類資料高,但邏輯斯迴歸測試結果仍保有一定的準確性,在敏感度可達 5%,整體正確率有 73%。
使用 Apache Spark 能節省處理巨量資料的運算時間。其次可建立的智慧型異常查核模型,以利確 實查核出異常/違規的機構,而模型所查核出可能有詐欺及誤用之機構,可進行下階段人工調查,最終 得改善稽核效力。
第一章、 前言
目前稽查制度主要透過隨機抽樣,但樣本數不好拿捏,樣本過大造成稽查效率差,樣本過小無法 捕捉作業行為,而且也不一定能篩選出可能有異常行為之機構,作法上較無效力。
Benford’s Law 自 1938 年被提出來,它是一套數字出現機率的分配法則,可檢驗資料的正確性,被 應用於會計、金融、審計及經濟領域中,Benford’s Law 也被運用於健保費用詐欺偵測上,Lu & Boritz 、 Lu et al. 除了透過 Benford’s Law 外,也結合計算智慧演算法,來進行異常偵測,均獲得理想的成果。
而楊喻翔更是將 Benford’s Law 相關指標應用於我國全民健保上,並結合機器學習(Machine Learning) 演算法來進行詐欺偵測,其成效也非常好。
Zaharia et al. 提出了一種具容錯的群集記憶內運算模式,其名稱為 Apache Spark,在相同的運算節 點及資源下,其資料運算效率及速度可勝出 Apache Hadoop 20 倍以上。
本報告主要目的包括:
1. 使用 Benford’s Law 指標來分析是否有異常/詐欺行為;
2. 使用機器學習演算法建構出異常查核模型,可查核出機構有無異常行為之可能,取代傳統之隨機 抽樣方法;
3. 使用一套記憶內運算方法(Apache Spark),能夠有效率且快速的運算巨量資料,避免因資料量龐大 而花費過久的時間。
第二章、 文獻探討
Benford’s Law
Benford’s Law 又稱為第一位數法則(First-Digit Law),其反應了真實資料中其數字分配的機率,其 分配機率中第一位數出現 1 的機率為 30%,而數字越大其出現機率則越小,到數字 9 時其在第一位數 出現機率只不到 5%左右。Benford’s Law 的數字機率顯示可以應用在多數的資料集合中,包括電費、
股價、人口量、死亡率、河流長度等,當某個資料集合的值跨越多個數量級別時,其數字分配機率越 符合 Benford’s Law(Kvam & Vidakovic)。
Benford’s Law 最早乃由美國天文和數學家 Simon Newcomb,他在 1881 年時將此數字分配機率現 象發表在 American Journal of Mathematics,他觀察圖書館裡查詢對數表的書,其開頭的頁數比較髒,
但是當頁數逐漸遞增時,卻越來越乾淨。因此提他便推論,查詢這本對數表的人,其查詢的數字,出 所提及的數字分配機率,並且 Benford 在 1938 年在 Proceedings of the American Philosophical Society 發 表他的研究,並且受到重視,因此這種數字分配機率便被稱為 Benford’s Law。(Hill 1998)
Benford’s Law 第一位數字,其數字分配機率可見式子(1),其中 P1代表數字 d 在第一位數中出現的 Law 其數字分配機率越不明顯。而根據式子(1)和式子(2)整理出 Benford’s Law 第一和第二位數,數字 分配機率表與圖,見表 2-2 與圖 2-2
表 2-1 Benford's Law 數字分配機率 數字 第一位數 第二位數 0 N/A 0.11968 1 0.30103 0.11389
3 0.12494 0.10433 4 0.09691 0.10031 5 0.07918 0.09668 6 0.06695 0.09337 7 0.05799 0.09035 8 0.05115 0.08757 9 0.04576 0.085
圖 2-1 Benford's Law 數字分配機率
2. Benford’s Law 之相關應用分析
Benford’s Law 之數字分配機率,應用於多個領域中,主要應用於會計、審計、金融、健康保險上,
並用來分析資料的數字分配有無符合 Benford’s Law,來檢驗有無詐欺可能性。
Carslaw 檢驗公司會計數據,他假定公司經理人會將淨收入進位,讓淨收入提高,舉例來說$798,000 會被進位成$800,000。如此一來第二位數為 0 的機率會比 9 要的高,他使用 Benford’s Law 第二位數分 配機率,來檢驗紐西蘭公司會計數據,並得出第二位數為 0 的機率確實比 Benford’s Law 之機率較高,
而數字 9 出現機率比 Benford’s Law 較低。Thomas(1989)延續 Carslaw 研究,其使用美國公司財務數據,
其得出淨收入與每股盈餘也容易被進位提高,而且其發現當公司虧損時會有相反效果。
Christian and Gupta 分析報稅者會因為報稅級距規定,故意降低自己的收入,來達到逃稅目的,並 使用 Benford’s Law 來驗證。Nigrini 提出 Benford's Law 可以用來偵測詐欺,其用來偵測財務詐欺,並 檢驗第一和第二位數出現機率,有無偏離 Benford’s Law,其將財務資料分成前 5 年和後 5 年,他發現 後 5 年的資料有很大的偏離 Benford’s Law,其發現某些數字一直被重複使用。Nigrini 檢測報稅數據有 無符合 Benford’s Law 的機率分配,並建立出模型來檢驗其報稅數據是被高估還是低估。
Busta & Weinberg 使用 Benford’s Law 指標用於類神經網路輸入變數來辨別財報資料是正常或是造
假的。Lu & Boritz 運用 Benford’s Law 於醫療保險資料上,並使用非監督式學習方法來檢驗醫療保險申 報上有無詐欺或濫用。Lu et al. 結合 Benford’s Law 數字分析分法並研發出一套方法,其乃根據資料有
假的。Lu & Boritz 運用 Benford’s Law 於醫療保險資料上,並使用非監督式學習方法來檢驗醫療保險申 報上有無詐欺或濫用。Lu et al. 結合 Benford’s Law 數字分析分法並研發出一套方法,其乃根據資料有