• 沒有找到結果。

談圖書館創新服務

N/A
N/A
Protected

Academic year: 2021

Share "談圖書館創新服務 "

Copied!
141
0
0

加載中.... (立即查看全文)

全文

(1)

陳志銘 特聘教授兼圖書資訊學數位碩士在職專班執行長 圖書資訊與檔案學研究所

國立政治大學

迎合雲端與行動服務時代—

談圖書館創新服務

(2)

前言

圖書館的收藏不再只是書籍,凡是與資訊有關的影音、藝術和其他媒體也 都成為收集的對象,這些都是已經發生並且正在進行的事情,因應圖書館 收藏之日益龐大數位資源,圖書館應該提供什麼樣的服務與變革來因應現 今的資訊發展 ?

圖書館面臨網路數位時代,常感到現有圖書館自動化系統無法幫助圖書館 有效處理日益龐大的數位資源與服務問題,雲端運算是否可以解決圖書館 目前面臨的煩惱與問題? 雲端運算是否可以增強圖書館的服務效能、提高 服務水平?

因應未來圖書館基於讀者與數位資源互動產生之巨量資料(big data)儲存 與發展應用服務之需求問題,圖書館是否有基於雲端運算之「巨量資料探 勘」,發展創新服務的必要性? 其可能帶來的效益為何?

有鑑於行動通訊服在民眾生活中已經逐漸普遍,圖書館如何善用行動通訊 服務,提供讀者無所不在、隨處可及的圖書館資源和服務,使圖書館融入 於讀者的行動化生活中?

2

(3)

大綱

雲端概念與服務類型 1

圖書館的雲端服務 - Cloud computing for libraries 2

雲端的巨量資料探勘與應用 3

行動通訊服務與圖書館 4

圖書館發展行動閱讀服務 5

(4)

雲端是甚麼?

 2006年8月9日,Google執行長Eric Schmidt在搜尋引擎大會(SES San Jose)首次提出雲端運算的概念。

 美國國家標準技術研究院(National Institute of Standards

&Technology, NIST)解釋雲端是一個無處不在、便利地能夠依據需 求存取動態配置計算資源 (例如:網路頻寬、伺服器、資料儲存、

應用程式和服務)的一種模型,並且能夠以極少管理負荷快速地配 置和釋放這些取用的資源。

4

Library in the Cloud?

(5)

雲端服務趨勢發展- Gartner Hype Cycle 2009

Gartner(August 2009)

(6)

Gartner Hype Cycle 2010

6

(7)

Gartner Hype Cycle 2011

(8)

Gartner Hype Cycle 2012

8

(9)

Gartner Hype Cycle 2013

(10)

雲端運算層級

10

IaaS (Infrastructure as a Service,基礎 設施即服務):是一種以服務的形式 提供應用所需之處理、儲存和其他 基礎計算資源的能力,讓使用者可 以部署所需要的環境,並且隨意地 運行包含作業系統與應用軟體。

PaaS (Platform as a Service, 平台即 服務): 是一種以服務形式提供使用 者開發雲端應用軟體的環境,包括 開發語言、開發環境、系統工具等,

並能讓使用者所撰寫的應用程式部 署在雲端基礎設施上運行。

SaaS (Software as a Service, 軟體即 服務): 強調應用軟體能以服務的方 式讓使用者使用,而非以直接賣斷 軟體產品方式才能使用。

(11)

實現雲端計算的核心概念

虛擬化 (virtualization):虛擬化是將電腦物理資源如伺服器、網路、記憶體及儲 存等予以抽象、轉換後呈現出來,使用戶可以比原本的組態有更好的方式來應 用這些資源。這些資源的新虛擬部份是不受現有資源的架設方式,地域或物理 組態所限制。一般所指的虛擬化資源包括計算資源、儲存資源和網路資源。應 用虛擬化技術可以在雲端基礎設施中,達成硬體資源的配置與快速部屬,提高 資源的使用效率與管理的方便性。

平行化分散式計算 (parallelized and distributed computing): 利用平行與分散 式計算 ,可以建構高效能分散式環境,快速處理與分析巨量資料(big data),

提高系統服務的水準。

網路服務 (web service): 在分散式系統中依照開放的準則,來建置一套彈性且 可重複使用的服務界面。一般是以網際服務的方式來實現,讓不同的應用程式 或使用者能以服務的形式進行溝通、協調與整合。

(12)

虛擬化示意圖

實體機器 (計算資源、儲存資源、網路資源) 母作業系統(Host OS)

Windows Server 2003/2008/2012, Linux, AIX

Hypervisor

1.利用硬體資源建立軟體化的硬體,並集結成虛擬機器。

2.建立Virtual Switch

虛擬機器

訪問作業系統(Guest OS)

服務/應用程式

虛擬機器

訪問作業系統(Guest OS)

服務/應用程式

作業系統(OS)

Windows Server 2003/2008/2012, Linux, AIX

服務/應用程式 服務/應用程式

虛擬化

傳統架構 虛擬化架構

實體機器 (計算資源、儲存資源、網路資源)

(13)

不同雲端模式提供之不同層面服務

傳統IT

應用程式 資料 執行環境 中介軟體 作業系統

虛擬化

伺 服 器

儲 存

網 路 使

用 者 管 理

IaaS

應用程式 資料 執行環境 中介軟體 作業系統

虛擬化

伺 服 器

儲 存

網 路 使

用 者 管 理

提 供 者 管 理

PaaS

應用程式 資料 執行環境 中介軟體 作業系統

虛擬化

伺 服 器

儲 存

網 路 使

用 者 管 理

提 供 者 管 理

(14)

基礎建設即服務(IaaS)

 雲端平台供應商可以透過基礎設施的動態供給機制,專注於研發平 台之有效管理雲端資源的分配與調度,提供雲端服務的開發環境。

伺服器及儲存空間的配置

 虛擬機器配置

Examples:

Amazon Elastic Compute Cloud (EC2)

Amazon Simple Storage Service (S3)

OpenNebula

OpenStack

Rackspace Cloud www.rackspacecloud.com)

EMC

2

Atmos ( www.atmosonline.com/)

14

(15)

平台即服務(PaaS)

 軟體供應商可以在雲端平台上開發雲端應用服務,而不需要投資大 量的硬體基礎設施,只需專注於應用服務開發上。

透過虛擬運算環境提供API進行軟體開發,沒有具體的伺服器配置。

例如:

 Google App Engine

 用於Java、Python的軟體開發工具

 Heroku: ruby程式語言平台

 Amazon 網路服務(Amazon Web Service)

圖書館服務平台(Library Specific Platforms)

(16)

軟體即服務(SaaS)

終端使用者則透過精簡的使用者介面,便可享受雲端計算中的服務。

完整的軟體應用,客製化客戶需求。

軟體架設於雲端,資料也儲存於雲端。

多重用戶系統(Multi-tenant): 所以機構可共用相同服務與資源(硬體 資源、程式碼等)

 通常將多重用戶劃分為不同小組 例如:

 Salesforce.com—此網站廣泛用於商務基礎建設

16

(17)

SaaS具有的四種雲端特性

 隨處存取的可得性,亦即用戶端可以在任何地點、任何時間、透過 多樣性的裝置,以連上網庫的方式使用SaaS所提供的雲端服務。

 動態增加與修改來滿足各使用者需求的可伸縮性

 集中管理以滿足易於管理、部署和修改的可管理性質

 存取控制與降低管理風險的可靠性

(18)

雲端運算衍生的其他服務類型

雲端=網路

雲端運算 = 一切即服務(XaaS)

Everything as a service

標準層級:

• 基礎設施即服務 (IaaS)

• 平台即服務 (PaaS)

• 軟體即服務 (SaaS)

額外層級:

• 人即服務(Human as a Service)

• 商務支援服務

(Administration/Business Support)

18

More:

DaaS, VaaS,

IDaas, FWaaS,

And more……

(19)

雲端計算特性

可延展性(scalability)與可伸縮性(elasticity)

 動態配置、多租戶技術

可用性與可靠性(reliability)

 容錯、系統恢復、系統安全

可管理性與可互通性(interoperability)

 自動控制、系統監控、計費系統

效能最佳化

 平行處理、負載平衡、工作排程

可得性與可攜性

 統一存取、精簡客戶端

(20)

雲端計算的價值與效益

20 價值與

效益 廉價

快速 配置

降低 複雜 度

按需 付費

廉價: 能以最佳化方式整合伺服器計算 資源,妥善的分配資源使用,提高資金 利用率和品質,減少總體成本開銷。

降低複雜度: 終端使用者不需要擔心技 術細節,可簡單透過網際網路獲取計算 服務;降低本地端所需計算與儲存能力。

按需付費: 用多少、付多少,可避免初 期購買設備的預付費用及財務風險。

快速配置: 雲端計算可快速的配置IT服 務,硬體部份可依需求動態地擴增使用 設備運算能力,配置時間只需數分鐘至 數小時,很容易擴增或縮減設備使用規 模;軟體部份可依照實際所需服務進行 租用計費。

(21)

雲端的部署型態

私有雲: 指端基礎設施僅為 了一個單獨組織而營運。

公有雲: 可以給公共大眾使 用的雲端環境,由提供雲 端服務的供應商擁有。

混和雲: 由兩個以上不同的 雲端部署模式所建立,藉 由標準化或共通性的存取 方式,使得資料和應用程 式具有高度可攜性。

社群雲: 是一種專為特定群 組所建立的雲端環境,雲 端基礎設施可能由多個組 織間所建立與共享。

(22)

雲端服務的相關風險與問題

資訊安全 (Information security)

資料隱私 (Privacy of data)

 政策(例如:雲端安全聯盟(Cloud Security Alliance, CSA)提供教育 訓練協助廠商或組織強化雲端安全)、雲端法規(例如:中華民國 的個人資料保護法)、司法管轄區

資料擁有權 (Ownership of data)

資料完整性 (Integrity of Data)

 防止未經允許下,資料被修改或者受到無從察覺的變動

服務壟斷

 需制定相關標準與規範,提供雲端計算環境可互通性,避免壟斷 的情況發生。

22

(23)

雲端概念與服務類型 1

圖書館的雲端服務 - Cloud computing for libraries 2

雲端的巨量資料探勘與應用 3

行動通訊服務與圖書館 4

圖書館發展行動閱讀服務 5

(24)

圖書館的雲端運算傾向

 越來越多圖書館從存取本地端伺服器逐漸被遠程/託管/虛擬主機等 方案取代

 雲端運算帶給技術支援人員強大的吸引力

 足夠的網路頻寬也是雲端技術是否能持續的因素之一

24

(25)

透過SaaS & PaaS使用圖書館自動化系統

 傳統圖書館均透過本地端主機存取其圖書館自動化系統

 逐漸發展至主機託管(Hosted)

 目前可透過SaaS 或ASP進行更進一步的軟體或網站託管服務

 將聯盟館的資料分享於同一個雲上

(26)

圖書館發展雲端服務的效益

 圖書館發展具有「雲端服務」的功能,不只代表圖書館的現代化,

同時也為圖書館所帶來巨大的好處:

 大量減少硬體配備、儲存設備的投資與採購

 減少IT 管理的維運成本

 減少相關人力資源的配置

 釋放IT 資源

 按需付費、避免多餘投資

 不受自動化系統供應廠商的制約,可以隨時視需要與成本調整或 轉換供應廠商。

26

(27)

圖書館系統的未來發展

Carl Grant 看到目前LIBRARY SERVICES PLATFORMS之趨勢 為:

1. 圖書館所展現的使命與目標必須融入於產品。

(The mission and values of librarianship have to be embedded in the product.)

2. 定義圖書館的未來將是共同參與,而非空手描繪。

(Defining our future is a task of participation, not representation. ) 3. 圖書館服務的價值在於服務差異化。

(For library service to have value they must offer differentiation.)

Grant, Carl. The Future of Library Systems: Library Services Platforms. Information Standards Quarterly, 2012 Fall, 24(4):4-15

(28)

導入圖書館服務平台概念之前

1. SaaS (軟體即服務)

2. 雲端計算 (Cloud Computing) 包括五個基礎特徵:

1) 隨需自助服務(On-demand self-service)

2) 隨時隨地用任何網路裝置存取(Broad network access) 3) 多人共享資源池(Resource pooling)

4) 快速重新部署靈活度(Rapid elasticity) 5) 被監控與量測的服務(Measured service) 3. 多租戶應用軟體( Multi-tenant software)

4. 安全認證 (Security certifications) : 包括 ISO/IEC 27001, SAS70/SSAE16

28

Grant, Carl. The Future of Library Systems: Library Services Platforms. Information Standards Quarterly, 2012 Fall, 24(4):4-15

(29)

圖書館自動化廠商提供具雲端服務之圖書館服務平台

U=未釋出資訊-不確定 N = No

Y= Yes

P = 計畫開發中

I = 此功能直接包含於 自動化系統中

O=此功能需另外購買 L=Limit 系統僅提供有 限的幾項功能

(30)

Marshall Breeding 2011-2014

2011- New-generation automation

新一代的圖書館自動化系統

2012 - Library services platforms gain momentum

圖書館服務平台的蠢蠢欲動

2013 - Library services platforms take shape

圖書館服務平台已在市場中初具規模

2014

在競爭激烈的2013 年,許多圖書館在選擇系統時面臨到的關鍵在於希 望透過與系統廠商合作的方式,擴大圖書館的全球影響力,簡化內部 組織流程,並希望新系統能夠以系統引導工作任務的方式改變傳統組 織思維,提供創新圖書館服務與價值。

30

(31)

Marshall Breeding in American Libraries 2014

雲端技術提供了圖書資訊行業全方位的衝擊與成長

 軟體即服務 (SaaS) 市場提供了另一種新興計價模式,有別於傳 統圖書館自動化系統的買斷,利用訂閱的方式購買軟體的服務內 容,可降低系統硬體成本與費用,降低前期購置成本,發揮規模 經濟效益。

 因區域因素而興起的共享圖書館資訊化系統建設之大型專案興起,

圖書館所選擇的勝出系統有替換掉多個圖書館原本已購置系統之趨

勢。

(32)

ERM matadata

Knowledge Base

Supplier data

RDA MARC21

CMARC/

CNMARC

DUBLIN Core

Campus data

Library Collection

32

Data in the cloud – 圖書館有甚麼樣的Data?

(33)

33

Web-scale Index-based Discovery

Search:

Digital Collections

Web Site Content

Institutional Repositories

E-Journals

Reference Sources Search Results

Pre-built harvesting and indexing

Con so li dated Ind ex

ILS Data

Aggregated Content packages

(2009- present)

(34)

圖書館雲端運算實例-基礎設施即服務(IaaS)

OhioLINK library consortium:

使用Amazon Web Services雲服務託管部分數位資源

District of Columbia Public Library:

使用Amazon EC2雲服務託管網站,Amazon S3服務備份圖書館自動 化系統,還計畫用Flickr和Amazon EC2服務做未來的數位典藏。

34

(35)

圖書館系統廠商-平台即服務(PaaS)-Innovative開放服務架構

開放的PostgreSQL 資 料庫並佐以完整的文 件資料架構

使用 Lucene 的進階的 索引管理

可在各層使用的API

多個記錄類型與擴展 的資料表(data table)

MODERN

35

(36)

Innovative - Sierra系統架構

Database Layer

Data Access Services Layer

Business Logic Service

Presentation Layer

MODERN

(37)

圖書館雲端運算實例-軟體即服務(SaaS)

The Eastern Kentucky University Library

透過Google Docs收集網站表格的回復,Google Calendar當作培訓和會議的日 曆,Google Analytics收集網站、OPAC和部落格的使用統計

Western State College in Gunnison, Colorado

ELibrary使用Google的App Engine,並把將2個Microsoft Access的資料庫轉置 於其系統

(38)

開放源碼系統的軟體即服務(SaaS)

Koha:OSS ILS

透過超過1000以上使用Koha圖書館所構成之開放源碼社群支援

Biblios.net:

網頁為基礎的編目服務,存取超過30萬的書目紀錄

38

(39)

雲端概念與服務類型 1

圖書館的雲端服務 - Cloud computing for libraries 2

雲端的巨量資料探勘與應用 3

行動通訊服務與圖書館 4

圖書館發展行動閱讀服務 5

(40)

巨量資料(big data)從何而來?

12+ TBs

of tweet data every day

25+ TBs of log data every day

? TBsof data every day

2+ billion people on the Web by end 2011 30 billion RFID tags

today

(1.3B in 2005)

4.6 billion camera phones world wide

100s of millions of enabled GPS devices sold annually

76 million smart meters in 2009…

200M by 2014

(41)

全球資訊儲存容量成長圖

Hilbert, M. (2014), Technological information inequality as an incessantly moving target: The redistribution of information and communication capacities between 1986 and 2010. Journal of the Association for Information Science and Technology, 65: 821–835. doi: 10.1002/asi.23020

(42)

為什麼資料暴增的速度如此快?

 這個世界變了,變的感知化(instrumented)、物聯化(interconnected) 和智能化(intelligent)。

 感知化: 所有的物體,包括風、流水、空氣中的濕度、人們所在 的位置等都可以被感測,這就是感知化。 。

 物聯化: 感測過程中所產生的大量數據,需要傳送到後端進行處 理,這就是物聯化。

 智能化: 獲取數據只是手段,最終目的係希望從巨量的數據中,

分析出有用的資訊,幫助人們做出決策,這就是智能化。

42

(43)

圖書館產生的巨量資料

圖書館在近50年內累積了大量實體與電子館藏的機讀資料、也長久累積讀 者借閱記錄資料,基於圖書館自動化所建置的RFID也具有感測實體書在 圖書館被使用狀況資料,這些都是巨量資料來源。

讀者在圖書館數位資源的使用行為上產生的巨量資料,如果能善加儲存並 進行巨量資料探勘分析,將非常有助於掌握讀者在數位資源使用上的行為 模式、也有助於基於分析數位資源的使用狀況而發展數位資源的館藏發展 與決策模式,甚至發展出基於讀者使用及閱讀行為的創新服務(例如:新 書推薦、個人閱讀歷程分析、個人化服務等)。

許多圖書館已經發展行動服務,若能有效記錄基於行動服務所產生具使用 情境(context)(例如:位置、時間)的行為歷程資料,並進行巨量資料探勘,

將可發展出許多結合圖書館資源運用的Location-based Services。

(44)

國內目前獨具價值之巨量資料

 全民健保醫療及診斷產生的巨量資料:實行全民健保的國家不多,

我們已經累積 16年、2千多萬人的看診用藥資訊,這些醫療產生巨 量資料分析有極大機會可用來提升醫療品質、創新醫療服務,並輸 出到其他國家。

 街頭攝影機產生之巨量資料:台灣街頭到處都有監控攝影機,匯集 這些資料進行巨量資料分析具有發展相關產業價值。

 半導體、高科技製造業、農業等領先產業累積的多年珍貴巨量資料:

可思考如何運用 這些巨量資料 進行產品與服務創新的機會。

 高速公路ETC收費產生的巨量資料:透過這些過去車流的歷史資料 以及即時流量產生的巨量資料分析,非常有潛力發展交通狀況預測 與控制上的創新服務。

44

(45)

現今的data特性

資料可即時取得 (Data is available in real time.)

資料具更大規模 (Data is available at larger scale.)

資料具不同類型 (Data is available on novel types of variables.)

資料的結構性較弱(Data come with less structure.)

(46)

巨量資料(Big Data) – 定義

 國際研究暨顧問機構 Gartner 定義巨量資料為「大量、快速累積、具 有多樣性的資訊資產(asset),需要新的處理技術以提升決策品質、發 掘問題、最佳化流程」。

 所謂巨量/巨量資料,狹義是指「用現有的一般技術難以管理的大 量資料群」。

 廣義來說,巨量資料指的是「從3V(Volume(大量)/Variety(速

度)/Velocity(多樣))的角度難以用傳統資料處理方法進行管理的資 料。此外,也包括分析這些巨量資料,並從中萃取有用資訊或富 有洞見的人才與組織之全盤概念」。

城田真琴(2013),大數據的獲利模式。臺北市:經濟新潮社,p71。 46

(47)

巨量資料 (Big Data) – 定義

 所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、

管理、處理、並整理成為人類所能解讀的資訊。

 巨量資料幾乎無法使用大多數的資料庫管理系統處理,必須使用

「在數十、數百甚至數千台伺服器上同時平行運行的軟體」。

 巨量資料的定義取決於持有資料組的機構之能力,以及其平常用來 處理分析資料的軟體之能力。

「對某些組織來說,第一次面對數百 GB 的資料集可能讓他們需要

重新思考資料管理的選項。對於其他組織來說,資料集可能需要達

到數十或數百兆位元組才會對他們造成困擾。」

(48)

巨量資料(Big Data)特性

 巨量資料的特性:「巨量資料是大量(volume)、高速(velocity)、或 多變(variety)的資訊資產(asset),它需要新型的處理方式去促成更強 的決策能力、洞察力與最佳化處理。」

 在3V之外定義了第4個V:不確定/真實性(veracity)

 Volume (大量):資料量相對巨大

 Velocity (速度/時效性): 快速地處在短時間內處理好數據

 Variety (多樣/龐雜):資料型態複雜且可能會變化的數據

 Veracity(不確定/真實性): 並非所有的資料都是正確的

48

(49)

 物聯網的感測資料及使用者主動、被動分享的資料以前所未有的速 度累積成非常大量的資料,不只需要分散放在數台機器上,而需要 上百台、上千台機器來存放。

Twitter每天產生12TB的資料

Facebook每天產生25TB的資料

巨量資料(Big Data)特性-Volume (大量)

(50)

巨量資料(Big Data)特性-Velocity (速度/時效性)

 由於資料流量太大,先存起來再慢慢分析並不足以因應作即時處理 之需求。如何在大量資料流進來的時候直接執行過濾或輔以適度的 後設資料(metadata)以加快處理速度是個技術挑戰。

 即時變動的流動性資料(Data In-Motion)

 即時回應的動態資料串流(Streaming Data)

50

(51)

巨量資料(Big Data)特性-Variety (多樣/龐雜)

 異質性與多元性也是 巨量資料的重要特色。巨量資料由不同型式 的資料集合而成,如何利用不同型式的資料來提供整合性的服務?

而巨量資料由不同資料來源的資料集合而成,如何整合不同資料結 構、不同的語意(semantics)?

 處理資料類型的多樣化:

 結構化資料:資料庫資料。

 半結構化資料:電子郵件/部落格文章等。

 非結構化資料:文件/圖像/聲音/影片等。

(52)

巨量資料(Big Data)特性-Veracity(真實性)

當資料的來源變得更多元時,這些資料本身的可靠度、品質是否足夠,若資料 本身就是有問題的,那分析後的結果也不會是正確的。

資料內容真實性存疑的原因

蓄意欺騙

無心欺瞞

時序錯亂

52

(53)

巨量資料所具有的4Vs特性

(54)

巨量資料在現實世界中的使用

資料來源:分析:大量資料在現實世界中的使用ftp://ftp.software.ibm.com/software/tw/data/bigdata/BIG_DATA_value.pdf 54

(55)

巨量資料的價值

巨量資料分析最重要的部分為何?

1. 「大」的部分 2. 「資料」的部分 3. 兩者皆是

4. 兩者皆非

真正價值為大量、多樣化/複雜、快速變動資料的巨量分析(Big

Analytics),將資料轉換為有價值的洞見(insights),進而成為企業

或組織決策輔助的選項(Options)

(56)

巨量資料分析的轉化過程

•歷史的

•模擬的

•來自文字、影像、圖片、

音檔 => 多元的

資料類型

•資料屬性

•資料聚集的報告和疑問

•預測模型

•答案和信任

•反饋與學習

轉化過程的決

策點

•決策輔助選項一

•選項二

•選項三

可能的產出結 果

56

(57)

巨量資料改變了資料的處理方式

 知識探索(Knowledge discovery) 為從大量資料中揭露隱含知識

(Hidden knowledge)及有價值洞察 (insights)資訊的過程,而資料探 勘(data mining)為其核心技術與最具挑戰的步驟。

現今資料探勘演算法無法妥善處理巨量資料的特性:

 大量資料延展性(Volume & Scalability)

 不同格式與類型(Variety)

 及時需求性 (Velocity)

 現在幾乎「一切」都被數位化,這在廣泛的產業中建立了新型態、

大量的即時資料。這些資料多數都是非標準化的資料。例如:串流

媒體、地理空間或感應器產生的資料完全不適合傳統的、結構性的

關聯式資料庫來進行儲存。

(58)

傳統資料探勘與巨量資料探勘的差異

 傳統資料庫管理體系而言,巨量資料“too big, too fast, and too hard”。

1. 在總資料量相同的情況下,與個別分析獨立的小型資料集(data set)相比,將各個小型資料集合併後所得巨量資料進行分析,

可得出更具價值的資訊和資料關聯性

• 隱含知識(Hidden knowledge)

• 更有價值的洞察(More valuable insights)

• 大量的串流資料(Stream data)

2. 巨量資料探勘演算法需具備延展性與平行運算能力(Scalability and parallelism)

• 雲端運算的發展可滿足具平行運算及延展性的巨量資料探勘需求

58

(59)

傳統資料探勘與巨量資料探勘的差異-1

3. 傳統關連性資料庫常著重於固定(或少量變動)資料的查詢,並 不擅長處理迅速變化的巨量資料。

• 非關連性資料庫與雲端資料庫

• SQL & noSQL

4. 資料不精確度的容忍度要提高

• 資料越多,發生錯誤的可能性越高

• 資料格式不一定彼此相容

• 資料格式的正規化

5. 樣本 = 母體

• 透過隨機抽樣必然會有所遺漏,透過近完整的資料集,可能透過不同角 度切入或細查某方面的資料。

(60)

巨量資料分析平台6大要件

60

資訊整合 和治理

巨量資料 分析平台 文本分析

資料倉儲

江河運算 Hadoop

系統 視覺化

與發現

(61)

巨量資料分析平台6大要件-處理量大、多變與即時資料

1. 透過資料倉儲(data warehouse)技術處理大量資料(Volume) 2. 透過Hadoop系統進行穩定和高效率的資料處理模式(Variety)

 分散式檔案系統

 分散性處理程式框架

3. 處理資料即時性(Velocity)

 透過Streams Computing 即時分析持續流動的資料

 此種異動頻繁、流量極大、且須即時回應的巨量資料應用,稱為

「江河運算」(Streams Computing)。

(62)

巨量資料分析平台6大要件-江河運算 VS 傳統資料庫管理模式

62

傳統運算模式 江河運算

在已存放的歷史中找答案 即時分析持續流動的資料

查詢 資料

資料 庫

查詢

結果

(63)

巨量資料分析平台6大要件-三種資料型態及對應之分析技術

非傳統資料

(半/非結構化資料)

傳統資料

(結構化資料)

多樣化:Variety

社群網站論壇、網頁內 容、點擊串流、手機簡 訊、即時通訊、電子郵

大量資料:Volume

企業核心系統、ERP、

CRM、SCM系統…

快速變動的資料:Velocity

感應器、監控視訊、GPS、高速 交易資訊、金融交易資訊、行動 通訊CDR…

資料 倉儲

江河運算

持續生成的資料 快速流動的資料

(64)

巨量資料分析平台6大要件-降低資料的不確定性

4. 處理資料的不確定性(Veracity)

透過資料治理(governance)透過一系列的措施與程序,詳細設定 管控的機制,妥善地管理並監督資料。

64

各部門採納溝通 資訊守衛與資料 管控

資訊政策/稽核/

管控及風險管理

資訊架構 1.資料模型管理

2. 後設資料(metadata)管理 3. 資料架構

4. 資料品質 5. 資料的儲存管理 6. 資料安全、隱私和規章

(65)

巨量資料分析平台6大要件-進行語意分析

5. 文本分析(Text Analysis) – 語意分析

For years, Microsoft Corporation CEO Bill Gates was against open source. But today he appears to have changed his mind.

"We can be open source. We love the

concept of shared source," said Bill Veghte, a Microsoft VP. "That's a super-important shift for us in terms of code access.“

Richard Stallman, founder of the Free Software Foundation, countered saying…

名字 職稱 組織 Bill Gates CEO Microsoft

Bill Veghte VP Microsoft

Richard Stallman Founder Free Soft.

文件

擷取的 資訊

(66)

巨量資料分析平台6大要件-視覺化呈現巨量資料探勘結果

6. 視覺化和搜尋介面

提供使用者簡易上手的介面,具備資料搜尋功能或進一步用圖表視 覺化的方式呈現分析結果。

66

(67)

巨量資料探勘主要面臨的挑戰

可變性及異質性(Variety and Heterogeneity)

延展性(Scalability)

速度(Speed/Velocity)

準確性、可信度與出處(Accuracy, Trust, and Provenance)

隱私危機(Privacy Crisis)

互動性(Interactiveness)

垃圾探勘(Garbage Mining)

(68)

可變性及異質性(Variety and Heterogeneity)

異質性指的是巨量資料的來源及型態非常多元,需同時處理:

 結構(structured)資料

• 一般為實體(entity),相似的實體會依據其關係或類別被群組成一個團體,

並具有描述實體性質的相同屬性(attribute)。

 半結構( semi-structured)資料

• 相同實體會被群組成一個團體,但同一團的的實體不一定有相同屬性。

 非結構(unstructured)資料

• 不具有預先定義的資料模型,或不能適用於任何關連性表格的資訊。

68

(69)

可變性及異質性(Variety and Heterogeneity)-1

巨量資料的探勘程序與一般資料探勘一樣都必須經過:

 過濾(filtering)

 縮減(reduction)

 轉換(transformation)

 面對異質性的資料,上述這些前置處理步驟也將面臨新的挑戰,並

且也會影響巨量資料的探勘結果。

(70)

速度(Speed/Velocity)

資料探勘的速度取決於資料系統(data system)的資料存取時間(data access time),以及資料探勘演算法本身的效能。

 發展進階的索引技術(indexing scheme)

• 降低資料存取時間的主要關鍵

 多維度的資料索引架構(multidimensional index structures)

 巨量資料探勘演算法部份則必須發展具平行存取與探勘的演算法。

70

(71)

準確性、可信度與出處(Accuracy, Trust, and Provenance)

第4個V Veracity:真實性

資料的來源變的非常的多元

 並非都是已知的

 資料的精確度與可信度變成巨量資料探需要關注的議題

 進行巨量資料探勘的過程中,需要進行資料的驗證及針對資料的出

處進行追蹤,以確保資料的正確性與可信度。

(72)

互動性 (Interactiveness)

在過去的傳統資料探勘中互動並未被強調

 互動意味資料探勘系統要能夠提供界面讓使用者與系統進行如下互 動:

 回饋(feedback)

 干擾(interference)

 引導(guidance)

 透過互動有助於解決巨量資料所帶來的3Vs(大量、高速及多變)挑 戰。

72

(73)

垃圾探勘(Garbage Mining)

 資料會因為未加以即時更新或刪除,使得資料變成過時、損壞及無 用的資料,目前網際網路上充斥著極高比例的垃圾資料,若未加以 處理會影響資料探勘的正確率。

 垃圾資料探勘(garbage mining)及回收(recycle)

(74)

Google為解決資料處理型態改變的因應之道

 為因應處理以及儲存如此龐大的資料量。Google分別在

 2003年提出分散式檔案系統架構Google File System(GFS)

 2004年提出大規模資料處理的模型MapReduce架構

 2006年提出基於Google File System針對結構化資料儲存的分散式 檔案系統BigTable,並在其論文中提出如何運用其架構以對於 Google的各項服務增加了重大的效益。

 Google檔案系統主要依照下列三點資料特色設計,與以往檔案系統 不同之處:

 檔案規模相當大且成長快速

 文件增加頻率一般高於修改頻率

 硬體的錯誤不應該被視為異常,應該視為必定會發生的情況

74

(75)

實例分析:Google Flu Trends

 Google透過美國人最常使用的前 五千萬個搜尋詞彙比對美國疾病 管制局2003到2008年間的流感傳 播資料。

 透過搜尋詞彙的搜尋頻率,找出 和流感傳播的時間、地區,有無 統計上的相關性(correlation)

 2009年Google數名工程師發表於

Nature雜誌,解釋Google如何透過

巨量資料預測美國冬天哪些洲即

將爆發流感。

(76)

Santam:預測分析改進欺詐偵測並加快索賠處理

 Santam 得到利用高階分析解決方案及早期掌握欺詐的能力,該解

決方案從收到的理賠擷取資料,根據辨識的風險因素評估各種理賠,

並將理賠細分為五個風險類別,透過分離出可能的欺詐性理賠,並 從低風險案例中找出高風險案例。

 大量資料、預測分析和風險細分,幫助該公司識別出可實現欺詐檢 測的模式。

76

(77)

Automercados Plaza's:更好的洞察帶來更豐厚的收入

 Automercados Plaza's:更好的洞察帶來更豐厚的收入

 Automercados Plaza's 是委內瑞拉一所家族式連鎖雜貨商店,這家企 業發現其不同系統和資料庫內分散著超過 6 TB的產品資料和客戶 資料。因此,他們無法輕易評估各店鋪的營運情況,高階管理人員 深知這些雜亂的資料當中深埋著寶貴的洞察有待發現。

 透過整合整個企業範圍內的資訊,這家連鎖雜貨商店的收入提升 了近 30%,年獲利提高 700 萬美元。

 更好的庫存管理和更迅速地適應不斷變化的市場條件的能力。

(78)

圖書館發展巨量資料探勘的著眼點

 巨量數據除了背後的倉儲和運算技術外,最重要的是讓數據能重複 使用並與網路上其他數據連結,並透過分析技術挖掘其價值並應用 於服務。

 Linked data (鏈結資料)

 Data Curation - Big Data Curation

 圖書館系統與電子資源的資料分析與延伸服務

78

(79)

圖書館進行巨量資料分析的轉化原則

讓目前圖書館的大量資料進入巨量資料的世界:

1. 改變資料模式,需與使用者溝通並根據其需求轉化數據的存取形式 和模型

2. 資料之間的關係也需以使用者為導向而建立 3. 須讓資料以獨特、永續及可以取用的方式呈現

Teets, M. & Goldner, M. (2013). Libraries’ Role in Curating and Exposing Big Data. Future Internet ,5 (3), 429-438.

(80)

鏈結資料於圖書館的意涵

 2011年,美國史丹佛大學圖書館暨學術資訊資源(Stanford University Libraries and Academic Information Resources, SULAIR)舉辦工作坊,

廣邀各界人士針對鏈結資料在圖書館界的學術發展與實務應用進行 討論與意見交流。在此一工作坊報告內容中,提出鏈結資料在圖書 館界的意涵有兩種 (Keller, Persons, Glaser & Calter, 2011):

 在資料語意面可用來描述資料的意義

 在資料語法或格式面可跳脫特定資料結構的限制

80

(81)

鏈結資料於圖書館的應用

 圖書館界在鏈結資料上扮演資料提供者與資料接收者兩種角色,圖 書館書目與館藏資料的鏈結資料化是一可行途徑,亦也助於Google等 搜尋引擎將圖書館書目與館藏資料納入索引,增加圖書館書目與館 藏資料的可見度。

 虛擬國際化權威檔(Virtual International Authority File, VIAF)

 美國國會圖書館鏈結資料服務

(LC Linked Data Service : Authorities and Vocabularies)

 大英圖書館 (British Library, BL)的自由化資料服務 (Free data service)

81

(82)

鏈結資料可將metadata做進一步的應用

 將大規模數據透過鏈結資料應用於大型知識版圖

 讓目前的數據和使用者建立起實質的效應

 目前機讀資料中的元數據(metadata)記錄描述的館藏,可以作為 連結不同紀錄的橋樑,而非單純文本的欄位

 OCLC將作者姓名作為鏈結與區隔不同資料類型的實際應用

82

(83)

OCLC將圖書館中的資料呈現給大眾-Data Curation

虛擬國際化權威檔 VIAF(Virtual

International Authority File):

VIAF計畫起始時,係由美 國LC、德國圖家圖書館 (Deutsche

Nationalbibliothek, DNB)、

法國國家圖書館

(Bibliothèque nationale de France, BNF)與OCLC等四 個單位共同合作,已有超 過16個國家的20餘個單位 參與合作。主要目標在於 建立國際型的名稱權威檔 服務,以形成語意網中的 一部份。

83

(84)

大英圖書館的自由化資料服務 (Free data service)

 以書目紀錄為基 礎,發展書目紀 錄知識本體或是 導入鏈結資料,

同時融合資料元 素與資料值,達 成資料間的連結。

84

(85)

案例分析 - WorldCat的巨量資料分析

透過WorldCat當中的資料知會杜威分類法(DDC)的發展

• 分類法分析

• 熱門主題

• 主題領域的分層架構

深入剖析WorldCat中已分類的內容

• 館藏分析

• 同一主題下不同分類的館藏脈絡

85

(86)

WorldCat data

 目前WorldCat已有超過300萬實體與電子書、期刊、電影、地圖等 紀錄,以及超過20億描述及授權上述資源的館藏紀錄。

 擁有26,400,000(兩千六百四十萬)個國會圖書館主題標目,至少擁 有21萬條紀錄間的連結。

 WorldCat Local擁有超過10億的文章紀錄,遠超過傳統書目紀錄的 數量。

86

(87)

DDC’s use of WorldCat data - 分類分析法

DDC 基於「文獻保證原則」(Literary Warrant),以實際藏書編定 分類項目,雖未必合乎知識體系的架構關係,但確保每項分類皆有實 際藏書,且延展性高。

WordCat以主題標目資訊(Subject heading data )為切入點

若某分類以下的書目成長數量到達某一門檻,則可擴展對應的 主題,或建立相對的索引。

 同樣依照書目成長門檻值確認是否需增加新的分類或索引。

87

(88)

熱門主題/Trending Topics - 分類法分析

熱門主題的探勘結果可能與社群網站不同

由於使用者在社群網站的用語與圖書館用語不同,例如:Big data 一詞的相關資料,在分類法中被分到主題linked data。

Year Big Data Linked Data

2008 2 14

2009 0 34

2010 7 72

2011 74 84

2012 227 152

2013 413 114

88

(89)

館藏分析- 將館藏視覺化

 不僅分析大範圍紀錄的分類號,同時也深入專門主題的館藏集合 分析”For Dummies”系列的題名在不同類號中的數量分佈

89

(90)

Linked Data的應用- 國會圖書館的BIBFRAME

 一個BIBFRAME配置文件僅包含正式的語法限制,並需與"人"可讀 之資訊(非機讀資訊)、語義的表達。BIBFRAME配置文件資訊模型 的設計是為了方便BIBFRAME資訊和上述各種外部資訊的合併,並 獨立於作為一個整體的BIBFRAME。這種獨立性是關鍵,也是能支 援多種使用者需求的能力。

 應用實例

 British Library

 Deutsche Nationalbibliothek (DNB)

 OCLC/WorldCat

90

(91)

那些圖書館系統產生資料有助於決策支援

新一代的圖書館自動化系統所提供的統計模組應包括:

實體館藏 (Print Inventory)。

實體館藏使用率(Print Usage),包括借閱、預約次數 (Loans, Requests)

電子館藏(Electronic Inventory)

電子資源使用率(Electronic Usage )

每次使用的成本 (Cost per Use)

圖書館可利用圖書館自動化系統內制的決策模組、API分析,或是 由系統館員整合資料關聯與資料表架構,透過資料庫查詢語法自行 產生與創發圖書館客製的統計分析模組。

91

(92)

圖書館系統應用巨量資料支援決策分析

92

Smarter Data is…

Intelligent Decision Making

(93)

Innovative - 基於雲端技術的決策管理

(94)

什麼是決策中心(Decision Center)?

 決策中心是一個完整的資源管理的解決方案,透 過分析圖書館產出的資料,提供管理、服務趨勢 的分析。

 What’s happening at my library?

 What do I do about what is happening?

94

(95)

決策中心功能特色

資料驅動的資源管理

 利用所有圖書館自動化系統內的資料

 基於供需原則的分析

效益

 降低資本性的支出

 節省館員的時間

 提升讀者的滿意度

95

(96)

分析工具

96

(97)

資源發展工具

如何更聰明的花錢?

(98)

98

(99)

平衡工具

(100)

Aleph - 哈佛大學 Library Analytics Toolkit Project

 哈佛大學透過圖書館自動化廠商提供的資料表架構,發展 Library Analytics Toolkit Project ,提供圖書館管理者一有效分析的web 畫 面分析數據,可由讀者直接點選到該圖書的館藏顯示畫面。

 2010 年先進行圖書館自動化紙本館藏使用率分析。

 2013 年則計畫將 Aleph 與 COUNTER 統計數據匯入於 Library Analytics Toolkit 中,並於Toolkit 完整呈現美國國會主題詞表,利 用國會圖書館類表及主題表架構的分析數據,觀察讀者尋找資訊的 行為軌跡。

100

(101)

圖書館自動化紙本館藏使用率分析

https://osc.hul.harvard.edu/liblab/proj/library-analytics-toolkit

(102)

基於巨量資料探勘的新書推薦服務

• 中山大學圖書館 – 新書推薦系統

102

(103)

雲端概念與服務類型 1

圖書館的雲端服務 - Cloud computing for libraries 2

雲端的巨量資料探勘與應用 3

行動通訊服務與圖書館 4

圖書館發展行動閱讀服務 5

(104)

圖書館發展行動服務的必要性

無線網路(Wi-Fi、3G)環境成熟並逐漸普及,人手一機時代來臨,

行動上網人口快速增長,圖書館應該考量行動裝置使用者的資訊 服務需求,發展圖書館與讀者互動的模式與提供更主動的服務,

以提高圖書館資源的使用率。

圖書館支援讀者的服務需求應該不受時間與空間限制,圖書館發

展行動服務可以打造無所不在圖書館(ubiquitous library)的服務需求。

手機(載具)功能愈來愈多、運算能力愈來愈強,圖書館可以據此發 展結合圖書館資源與手機的加值服務。

閱讀行為改變,數位閱讀風氣逐漸形成,行動閱讀(mobile reading) 已成為普遍的閱讀模式,圖書館有必要因應讀者閱讀模式的改變,

發展行動閱讀模式。

104

(105)

手機將成為行動學習的主流

The mobile phone will become the dominant

handheld device for mobile

learning in the next 5 years.

A Prediction

(106)

行動通訊資料的特殊性

容易掌握使用者的身份

可取得地理位置資訊

可透過基地台或衛星定位取得使用者位置

手機具其他感測裝置

三軸加速度感測器

陀螺儀

壓力感測器

生理訊號感測器

兼具時空背景的多樣化資料種類

產生大量文字以外的其他類型資訊

資料量比網際網絡豐富與多樣化

106

(107)

使用行動裝置在雲端環境中存取巨量資料

Lifecycle of Big Data

107

(108)

行動服務所面臨的問題

資料傳輸量問題:網路頻寬是否足以應付大量行動服務

資訊安全問題:使用行動載具所衍生之行動資安問題

個人隱私問題:人的位置被輕易的追蹤掌握曝露個人隱私

資料品質:行動載具缺乏標準,使得資料規格多元

螢幕尺寸問題:行動載具過小的螢幕尺寸,容易引發資訊 不易瀏覽與閱讀問題

108

(109)

現代的行動圖書館服務

過去「行動」(Mobile)這個詞彙與圖書館的連結通常為「行動圖書 館服務」(Mobile Library Service),意指定期將書送至特定的地方,以 滿足無法到圖書館的閱讀需求。在3G通訊時代中,圖書館希望將資訊 提供給不斷移動的忙碌讀者,定期的書車巡迴早已不敷需求,利用行 動裝置更能滿足讀者隨時隨地的資訊需求。

Mobile Library名詞有了新的意涵,「行動」的不再是實體的書本,

而是數位的資訊;載體也不是龐大的書車,而是具網路功能的行動裝 置。顧名思義,Mobile Library就是行動通訊(Mobile)與圖書館

(Library)的結合。

109

(110)

圖書館的行動通訊服務

圖書館行動通訊服務乃是圖書館透過行動通訊網路,讓讀者不受任 何時間地點的限制,得以即時瀏覽、查找與利用圖書館資訊。

近年已有多圖書館發展其行動通訊服務,主要的服務類型包含:

1.行動通訊介面(Mobile interfaces) – OPAC行動版 2.行動通訊應用程式(Mobile applications) - APP

3.簡訊通知服務(SMS notification services) - 可與國內廠商合作 4.行動館藏(Mobile collections) – 適合行動載具之館藏

5.行動指南(Mobile instruction) – 透過行動載具使用之指南與指示性服務 6.行動圖書館導覽(Mobile tours of the library) – 影音裝置提供導覽服務 7.QR-Code應用 – QR-Code讓讀者取得圖書之館藏地等資訊

8.行動學習課程(M-Learning) – 透過行動載具結合數位內容進行學習課

110

(111)

圖書館的行動通訊服務-行動通訊介面

即為圖書館行動網站與行動館藏目錄(Mobile OPAC)

圖書館自行開發

透過系統廠商提供之API開發

向系統廠商購買行動版本

111

(112)

圖書館建置各種類型的圖書館行動App將能使讀者在不受時間、地點 的限制的情況下取用所需的圖書館資訊。以下為幾種與圖書館服務相 關的不同類型Apps:

1. 圖書館Apps

各項圖書館服務與相關資訊整合於單一的App

2.流通服務Apps

針對不同的服務,一個圖書館可能提供數個Apps讓讀者下載

。 3.整架Apps

美國邁阿密大學的擴充實境研究小組利用擴充實境技術(Augmented Reality)開 發軟體,藉由手機的鏡頭看出,可即時顯示排序錯誤的書籍。

4.虛擬導覽Apps

圖書館的行動通訊服務-行動通訊應用程式

112

(113)

目前國內外圖書館大多已開發行動版網頁,而圖書館App部分,同樣 透過自行開發、與廠商合作等方式進行。

香港科技大學 西雅圖公共圖書館

圖書館的行動通訊服務-行動通訊應用程式

113

(114)

圖書館的行動通訊服務- QR Code應用

114

(115)

國內各大學圖書館行動通訊服務比較

行動網頁 & 館藏查 詢系統

簡訊通知 QR Code 圖書館 App

臺大 師大 交大 清大

成大 圖書館最新資訊的

RSS App 政大

中央

中山 查詢QR Code

服務

中正 縮短借期通知

簡訊服務

提供行動版網頁的 QRCODE連結

手機尋書導航APP 高雄應用科大 於APP提供館藏查

詢功能

簡訊流通通知單 通知

115

(116)

資料庫與出版商-行動APP支援版本

出版商 Apps

All EBSCOhost databases iOS and Android and Auto detects

American Chemical Society iOS and Android

American Institute of Physics iOS and iPhone

ARTstor App for Android and Mobile URL for

iPhone

arXiv arXiview for iPhone

Bridgeman Education iPhone

Cell Press iOS ,iPad

Cochrane Library iOS,iPad

ebrary Mobile iOS and Android

Elsevier iPhone and Android

Emerald iOS and have Mobile URL

116

(117)

資料庫與出版商- 行動APP支援版本

出版商 Apps

Gale Cengage iPhone and Android

Lexis Nexis iPhone apps

Nature iPhone and iPad app

Naxos Music Library iPhone and Android app

PubMed Medical database Two iPhone apps and Android app

Questia iPhone

Royal Society of Chemistry iOS and Android

SciVerse iPhone

Scopus iPhone

Social Sciences Research Network iSSRN iPhone

Summon Web app for iPhone, Blackberry,

Android, Palm or Windows Mobile

117

(118)

資料庫/出版商 - 專為行動版本提供轉址

 Factiva news database

 IEEE XPlore

 Primo(Ex Libris)

 Project Gutenberg

 PsychiatryOnline

 Refworks Mobile

 Safari Books Online

 Web of Science

 Westlaw legal research database

 Worldcat.org

118

(119)

資料庫與出版商 - 提供自動偵測行動載具的平台

Annual reviews

BioMedCentral

BioOne online journals

Cambridge Books Online

Cambridge Journals Online

Chemical Abstracts CAS |SciFinder

Encyclopaedia Britannica

Encyclopedia of Earth

ETDEWEB World Energy Database

JAMA & Archives

JSTOR

Oxford Journals

Sage Journals

Taylor & Francis

119

參考文獻

相關文件

典藏服務組張端桂編審及系統資訊組蔡玉紋組員參加土耳其柯克大學(Koç University)舉辦之 Istanbul International Library Staff Week

Springer Mathematics Online Library 78..

Simulink Block Library Browser),以及 (線上 支援視窗,Help

This is to inform kindergartens and primary schools of the “Library Cards for All School Children” scheme and the arrangement of bulk application for library cards of the

Comparison of B2 auto with B2 150 x B1 100 constrains signal frequency dependence, independent of foreground projections If dust, expect little cross-correlation. If

正向成就 (positive accomplishment) 正向目標 (意義) (positive purpose) 正向健康 (positive health).. Flourish: A visionary new understanding of happiness

Torrance CA Public Library、Science Library - UC, Irvine、San Diego State University Libray, SDSU、Center for the Study of Religion Freedom Virginia Wesleyan College、Learning Resource

(Web Form、Web Service Mobile Form) Windows Form ADO.NET、XML. Base Class